Phát Triển Hệ Thống Tuyển Dụng Thông Minh Tích Hợp AI Agent cho Phân Tích Hồ Sơ, Sinh Bài Kiểm Tra và Sàng Lọc Ứng Viên

⏳ Đang thực hiện 2026-03-09

Mô tả dự án

TalentOS là dự án tự động đánh giá mức độ phù hợp giữa hồ sơ ứng viên (CV) và mô tả công việc (JD).

Version 1 (v1): Hệ thống dựa trên multi-agent LangGraph với trọng số cứng (Hard Skills 40%, Experience 25%, Soft Skills 15%, Education 12%, Language 8%), không có ground truth, kết quả không reproducible, không kiểm soát hallucination và thiếu metrics chuẩn để so sánh.

Version 2 (v2): Chuyển sang pipeline chuẩn Information Retrieval + Learning-to-Rank:

Retrieval: BM25 + Dense Embeddings + Hybrid-RRF
Re-ranking: LambdaMART (LightGBM) + CrossEncoder
Generation: GPT-4o-mini với faithfulness constraint
Evaluation: IR metrics (NDCG, MAP, MRR) và RAGAS (faithfulness, context quality)
Kết quả reproducible, measurable, kiểm soát hallucination tốt (faithfulness 0.977), BM25 vượt Dense-BGE trên CV corpus, Hybrid-RRF tối ưu cho production. TalentOS v2 biến bài toán CV/JD từ hệ thống heuristic thành pipeline học thuật chuẩn, deploy-ready, có thể đo lường, tái lập được.

Version 3 (v3): Tích hợp toàn bộ thuật toán v2 vào sản phẩm hiện tại (v1) với nhiều nâng cấp trọng yếu:

Giao diện: Thiết kế lại 2 pha + 3 cột dashboard, hiển thị trực quan hero bar, phân tích tín hiệu thuật toán, kỹ năng, category scores, verdict AI, điểm mạnh, câu hỏi phỏng vấn gợi ý, và các nút quyết định tuyển dụng.
Ưu điểm: Kết hợp học thuật v2

Tech Stack

Python Langchain flask ...

Timeline dự án

2026-03-28 milestone

Phát triển phiên bản v3

2026-03-24 milestone

Phát triển phiên bản v2

TalentOS v2 – Hệ thống đánh giá CV/JD thông minh (RAG + Learning-to-Rank)

TalentOS v2 là phiên bản nâng cấp của hệ thống đánh giá sự phù hợp giữa hồ sơ ứng viên (CV) và mô tả công việc (JD), chuyển từ phương pháp heuristic trọng số cứng sang pipeline chuẩn Information Retrieval (IR) + Learning-to-Rank với khả năng đo lường và tái lập kết quả.

Công nghệ chính: Python · FAISS · BGE-large · LightGBM (LambdaMART) · GPT-4o-mini · RAGAS · ranx

Pipeline 4 giai đoạn:

Retrieval: Kết hợp BM25, dense embeddings (BGE-large), và Hybrid-RRF cho top-100 CV candidates.
Re-ranking: LambdaMART với 10 features + CrossEncoder xếp hạng top-10 chính xác.
Generation: GPT-4o-mini với faithfulness constraint tạo verdict, skill gaps, và câu hỏi phỏng vấn.
Evaluation: ranx (NDCG, MAP, MRR) và RAGAS (faithfulness, context precision/recall, answer relevancy).

Kết quả chính:

Best retrieval: CrossEncoder – NDCG@5 = 0.884, MRR = 1.000
Best production: Hybrid-RRF – NDCG@5 = 0.843, không cần GPU, deploy nhanh
Faithfulness: 0.977/1.0 – gần như không hallucinate
Context quality: Precision = Recall = 0.810
Key finding: BM25 (0.834) > Dense-BGE (0.758) → domain adaptation quan trọng

Đóng góp nổi bật:

Reproducibility: Pipeline deterministic, cùng input → cùng output
Measurability: Metrics IR chuẩn lần đầu tiên áp dụng cho TalentOS (NDCG, MAP, MRR)
Academic finding: Phát hiện BM25 vượt embedding trên domain-specific CV corpus – phù hợp với BEIR benchmark
Hallucination control: Prompt constraint hiệu quả, hạn chế thông tin bịa
Production ready: Hybrid-RRF nhanh, không cần GPU, tối ưu cho screening high-volume

Tóm tắt: TalentOS v2 chuyển đổi bài toán CV/JD từ black-box heuristic sang pipeline IR học thuật chuẩn, đo lường được, reproducible, kiểm soát hallucination, và sẵn sàng triển khai production.

2026-03-22 milestone

Phát triển phiên bản v1

TalentOS v1 — Hệ thống AI multi-agent cho matching CV & JD

1. Mục tiêu

Phân tích CV & JD, tính điểm phù hợp, phát hiện skill gaps.
Sinh verdict AI (Strong Fit / Potential Fit / Weak Fit) và câu hỏi phỏng vấn.
Hỗ trợ tuyển dụng thông minh, giảm thủ công.

2. Tech Stack

Backend: FastAPI + Uvicorn (Python)
AI Pipeline: LangGraph (multi-agent)
LLM: Claude (Anthropic) hoặc GPT-4o (OpenAI)
Database: PostgreSQL + SQLAlchemy (async)
Frontend: Vanilla JS SPA (hash-based routing)
Deploy: Docker + Docker Compose

3. AI Pipeline — 4 Agents

Input: CV + JD

1. CV Analyzer → Trích xuất thông tin cá nhân, học vấn, kinh nghiệm, kỹ năng → CVData

2. Job Analyzer → Phân tích hard/soft skills, experience, education, language → JDData

3. Matching Agent → Tính score 5 tiêu chí, phát hiện skill gaps, sinh verdict + recommendation

4. Interview Generator → Sinh 5–8 câu hỏi phỏng vấn dựa trên skill gaps & JD, phân loại: skill_verification, experience_validation, culture_fit

Output: Overall match score, skill gaps, verdict, interview questions

Flow: CV Analyzer → Job Analyzer → Matching Agent → Interview Generator

4. Matching Agent

Weighted scoring:
Overall Score = Σ(sub_score × weight)
Hard Skills (40%) có 3 phương pháp:

Embedding: cosine similarity, nhanh, production-ready
Sequence: SequenceMatcher, nhẹ, không hiểu ngữ nghĩa
LLM: JSON output, hiểu ngữ nghĩa nhưng tốn chi phí

Trọng số theo mức yêu cầu: Required 3x, Preferred 1.5x, Nice-to-have 0.5x
Soft Skills & Language: dùng embedding/sequence → tối ưu chi phí
LLM Calls: embedding/sequence → 1 call (verdict), LLM → tối đa 2 calls (hard skill + verdict)

5. Backend API

Endpoints phục vụ phân tích đơn lẻ, batch, streaming SSE, lưu/tra cứu/xóa phiên, cập nhật quyết định, xuất PDF, so sánh ứng viên.

6. Frontend (Vanilla JS SPA)

Analyze: upload CV, nhập JD, chạy SSE, hiển thị điểm, skill gaps, verdict, câu hỏi, PDF export, quyết định.
History: filter, pagination, chi tiết phiên, reset filter.
Batch: upload nhiều CV, ranking realtime, SSE streaming.
Compare: so sánh song song 2–3 ứng viên, highlight điểm cao.
Shared components: router, API client, progress stepper, score ring, badges, helper functions.

7. Tổng quan

Pipeline tuần tự: dữ liệu chuẩn hóa, dễ bảo trì.
Kết hợp: deterministic scoring + LLM reasoning.
Skill matching linh hoạt: embedding/sequence/LLM → cân bằng tốc độ, chi phí, độ chính xác.

Thấy dự án này thú vị?

Hãy làm điều tương tự cho bạn

Nhắn tin Zalo Xem thêm dự án