Data Scientist (Customer Profile)

Toàn thời gian
3 tuần trước
Còn 3 ngày

Mức lương

Thoả thuận

Kinh nghiệm

3 năm

Ứng viên

0

Hạn nộp

19/11/2025

Mô tả công việc

Vai trò thiết yếu:

  • Thực hiện phân tích, xử lý và chuẩn bị dữ liệu phục vụ huấn luyện/tinh chỉnh các mô hình LLM.

  • Áp dụng các kỹ thuật NLP để làm sạch, chuẩn hóa và biến dữ liệu thô thành dữ liệu chất lượng cao.

  • Đảm bảo dữ liệu phù hợp với yêu cầu kỹ thuật, đáp ứng tiêu chuẩn chất lượng và tuân thủ quy định pháp lý.

  • Phối hợp với Data Engineers, Data Stewards và AI Engineers để bảo đảm dữ liệu huấn luyện được sẵn sàng và tối ưu cho các pipeline pre-training/fine-tuning LLM.

Trách nhiệm thiết yếu:

  • Thu thập, tiền xử lý và làm sạch dữ liệu văn bản tiếng Việt từ nhiều nguồn (tài chính, pháp luật, kế toán, quản trị doanh nghiệp…).

  • Áp dụng các kỹ thuật NLP như tokenization, sentence segmentation, deduplication, normalization để chuẩn hóa dữ liệu.

  • Thực hiện đánh giá chất lượng dữ liệu (Data Quality Score, tính đa dạng, tính cân bằng corpus).

  • Xây dựng và duy trì các pipeline xử lý dữ liệu NLP bán tự động phục vụ huấn luyện mô hình.

  • Gắn nhãn dữ liệu ở mức cơ bản hoặc phối hợp với Data Labeling Specialists để đảm bảo tính chính xác và tính nhất quán.

  • Làm việc cùng AI Engineers để kiểm thử dữ liệu đầu vào cho pre-training/fine-tuning, đánh giá tính phù hợp và hiệu quả.

  • Đề xuất cải tiến kỹ thuật nhằm tăng hiệu quả xử lý dữ liệu và tối ưu chi phí.

Yêu cầu công việc

Học vấn:

  • Cử nhân hoặc Thạc sĩ chuyên ngành Khoa học dữ liệu, Trí tuệ nhân tạo, Công nghệ Thông tin hoặc các lĩnh vực liên quan.

Kinh nghiệm:

  • 3–5 năm kinh nghiệm trong xử lý dữ liệu văn bản hoặc NLP.

  • Trải nghiệm thực tế trong các dự án chuẩn bị dữ liệu cho huấn luyện mô hình NLP/LLM.

Kiến thức và kỹ năng:

  • Thành thạo Python và các thư viện NLP (Hugging Face, SpaCy, NLTK, OpenNMT).

  • Kinh nghiệm trong làm sạch dữ liệu, text augmentation, deduplication và corpus building.

  • Hiểu biết về các yêu cầu dữ liệu cho pre-training/fine-tuning LLM (khối lượng, tính đa dạng, domain-specific corpora).

  • Kỹ năng phân tích dữ liệu, đánh giá chất lượng và trực quan hóa kết quả.

  • Khả năng làm việc nhóm, giao tiếp hiệu quả với các nhóm AI/ML và kỹ thuật dữ liệu.

Ưu tiên:

  • Kinh nghiệm làm việc với dữ liệu tiếng Việt hoặc ngôn ngữ có tính đa dạng cú pháp cao.

  • Hiểu biết về các xu hướng mới trong chuẩn bị dữ liệu cho LLM: synthetic data generation, data augmentation pipelines.

  • Nắm vững quy định pháp lý quốc tế và trong nước về dữ liệu (GDPR, Decree 13/2023/NĐ-CP).

Logo công ty

Công ty Milky Way

ctymilkyway@gmail.com
0123456733
Từ Liêm, Hà Nội

Việc làm gợi ý