Blogs của tôi

Chia sẻ kiến thức, kinh nghiệm và những điều thú vị trong lập trình

Benchmark SER: Classical ML vs Deep Learning — Ai thắng và tại sao?

Phân tích chi tiết kết quả thực nghiệm so sánh 8 mô hình × 7 feature methods trên bài toán Speech Emotion Recognition. Random Forest vs CNN vs BiLSTM — con số thực tế và bài học rút ra.

machine-learning benchmark deep-learning +5
2026-04-14 Đọc thêm →

Xây dựng Speech Emotion Recognition từ Scratch: Kiến trúc Multi-Pipeline ML Framework

Hướng dẫn chuyên sâu về cách thiết kế một framework thực nghiệm ML để so sánh 8 mô hình và 7 phương pháp trích xuất đặc trưng cho bài toán nhận diện cảm xúc giọng nói — từ Random Forest đến BiLSTM.

deep-learning pytorch speech-recognition +5
2026-04-14 Đọc thêm →
Xây dựng Chatbot RAG hỏi đáp Quy chế Sinh viên ĐHQT – Hybrid Search, Reranking & Evaluation

Xây dựng Chatbot RAG hỏi đáp Quy chế Sinh viên ĐHQT – Hybrid Search, Reranking & Evaluation

Toàn bộ quá trình xây dựng hệ thống chatbot RAG tiếng Việt cho Trường Đại học Quốc tế: từ thu thập dữ liệu, indexing pipeline, hybrid search với RRF fusion, cross-encoder reranking, đến đánh giá tự động với GPT-4o judge trên 134 câu hỏi thực tế.

RAG chatbot hybrid search +8
2026-04-14 Đọc thêm →
CryptoDoc – Xây dựng hệ thống ký số tài liệu với Spring Boot & RSA

CryptoDoc – Xây dựng hệ thống ký số tài liệu với Spring Boot & RSA

Ghi lại quá trình xây dựng CryptoDoc — ứng dụng web quản lý và ký số tài liệu bằng RSA, triển khai hoàn toàn bằng Docker Compose theo quy trình Agile trong 1 tuần.

java spring-boot security +6
2026-04-11 Đọc thêm →
Xây Dựng Hệ Thống Phát Hiện Ngã Thời Gian Thực Bằng MediaPipe & Machine Learning

Xây Dựng Hệ Thống Phát Hiện Ngã Thời Gian Thực Bằng MediaPipe & Machine Learning

Từ bài toán an toàn người cao tuổi đến hệ thống computer vision hoàn chỉnh: tôi đã xây dựng pipeline phát hiện ngã thời gian thực sử dụng MediaPipe, 32 đặc trưng sinh cơ học và Random Forest đạt 91.1% độ chính xác như thế nào.

python machine-learning computer-vision +7
2026-04-11 Đọc thêm →
Khi mô hình ngôn ngữ “hiểu ảnh” mà không cần huấn luyện đa phương thức

Khi mô hình ngôn ngữ “hiểu ảnh” mà không cần huấn luyện đa phương thức

Phần lớn các mô hình thị giác–ngôn ngữ hiện nay phụ thuộc vào quá trình huấn luyện đa phương thức với quy mô dữ liệu và chi phí tính toán rất lớn. Bài viết này trình bày một hướng tiếp cận khác: chuyển thông tin thị giác trong ảnh thành mô tả ngôn ngữ giàu ngữ nghĩa, sau đó khai thác khả năng suy luận của mô hình ngôn ngữ lớn đã được huấn luyện sẵn. Cách làm này cho phép đạt hiệu năng cạnh tranh trên các bài toán nhận diện đối tượng và suy luận thị giác–ngôn ngữ trong thiết lập zero-shot, mà khô

Computer vision LLM mutil modal
2026-01-28 Đọc thêm →