Data Scientist (Customer Profile)
Mức lương
Thoả thuận
Kinh nghiệm
3 năm
Ứng viên
0
Hạn nộp
19/11/2025
Mô tả công việc
Vai trò thiết yếu:
Thực hiện phân tích, xử lý và chuẩn bị dữ liệu phục vụ huấn luyện/tinh chỉnh các mô hình LLM.
Áp dụng các kỹ thuật NLP để làm sạch, chuẩn hóa và biến dữ liệu thô thành dữ liệu chất lượng cao.
Đảm bảo dữ liệu phù hợp với yêu cầu kỹ thuật, đáp ứng tiêu chuẩn chất lượng và tuân thủ quy định pháp lý.
Phối hợp với Data Engineers, Data Stewards và AI Engineers để bảo đảm dữ liệu huấn luyện được sẵn sàng và tối ưu cho các pipeline pre-training/fine-tuning LLM.
Trách nhiệm thiết yếu:
Thu thập, tiền xử lý và làm sạch dữ liệu văn bản tiếng Việt từ nhiều nguồn (tài chính, pháp luật, kế toán, quản trị doanh nghiệp…).
Áp dụng các kỹ thuật NLP như tokenization, sentence segmentation, deduplication, normalization để chuẩn hóa dữ liệu.
Thực hiện đánh giá chất lượng dữ liệu (Data Quality Score, tính đa dạng, tính cân bằng corpus).
Xây dựng và duy trì các pipeline xử lý dữ liệu NLP bán tự động phục vụ huấn luyện mô hình.
Gắn nhãn dữ liệu ở mức cơ bản hoặc phối hợp với Data Labeling Specialists để đảm bảo tính chính xác và tính nhất quán.
Làm việc cùng AI Engineers để kiểm thử dữ liệu đầu vào cho pre-training/fine-tuning, đánh giá tính phù hợp và hiệu quả.
Đề xuất cải tiến kỹ thuật nhằm tăng hiệu quả xử lý dữ liệu và tối ưu chi phí.
Yêu cầu công việc
Học vấn:
Cử nhân hoặc Thạc sĩ chuyên ngành Khoa học dữ liệu, Trí tuệ nhân tạo, Công nghệ Thông tin hoặc các lĩnh vực liên quan.
Kinh nghiệm:
3–5 năm kinh nghiệm trong xử lý dữ liệu văn bản hoặc NLP.
Trải nghiệm thực tế trong các dự án chuẩn bị dữ liệu cho huấn luyện mô hình NLP/LLM.
Kiến thức và kỹ năng:
Thành thạo Python và các thư viện NLP (Hugging Face, SpaCy, NLTK, OpenNMT).
Kinh nghiệm trong làm sạch dữ liệu, text augmentation, deduplication và corpus building.
Hiểu biết về các yêu cầu dữ liệu cho pre-training/fine-tuning LLM (khối lượng, tính đa dạng, domain-specific corpora).
Kỹ năng phân tích dữ liệu, đánh giá chất lượng và trực quan hóa kết quả.
Khả năng làm việc nhóm, giao tiếp hiệu quả với các nhóm AI/ML và kỹ thuật dữ liệu.
Ưu tiên:
Kinh nghiệm làm việc với dữ liệu tiếng Việt hoặc ngôn ngữ có tính đa dạng cú pháp cao.
Hiểu biết về các xu hướng mới trong chuẩn bị dữ liệu cho LLM: synthetic data generation, data augmentation pipelines.
Nắm vững quy định pháp lý quốc tế và trong nước về dữ liệu (GDPR, Decree 13/2023/NĐ-CP).
