Machine Learning là gì? Học máy hoạt động như thế nào?

aHí

Cập nhật: 22 thg 5, 2026 • 0 • phút để đọc

Mục lục bài viết

Machine Learning là gì? Học máy hoạt động như thế nào?

Machine Learning là gì? Giải thích học máy bằng chuyện dự đoán khách rời bỏ

Một công ty SaaS thấy khách hàng hủy gói ngày càng nhiều.

Sales nói do giá cao.
CSKH nói do onboarding kém.
Product nói do thiếu tính năng.
Marketing nói do khách hàng chưa hiểu giá trị.

Ai cũng có lý. Nhưng câu hỏi quan trọng là: khách nào có nguy cơ rời bỏ trong tháng tới?

Nếu trả lời bằng cảm giác, team sẽ tranh luận mãi. Nếu trả lời bằng dữ liệu, ta bước vào thế giới machine learning.

ML không phải ma thuật. Nó là học từ dữ liệu

Con người học kiểu này rất tự nhiên.

Bạn từng mua trái cây nhiều lần. Nhìn màu vỏ, độ mềm, mùi, cân nặng, bạn đoán quả nào ngon. Không ai viết cho bạn một danh sách luật hoàn chỉnh. Bạn học từ kinh nghiệm.

Machine learning cũng tương tự, nhưng thay “kinh nghiệm” bằng dữ liệu.

Ví dụ với churn:

Khách dùng sản phẩm bao lâu?
Đăng nhập mấy lần trong 30 ngày?
Có mở email onboarding không?
Có tạo ticket support không?
Gói hiện tại là gì?
Có mời thêm thành viên team không?
Tháng trước có giảm usage không?
Cuối cùng khách có hủy không?

Mô hình học từ khách hàng cũ, rồi dự đoán nguy cơ của khách hàng mới.

Framework: Vòng đời ML 6 bước

Tôi gọi đây là vòng quay DỮ LIỆU → DỰ ĐOÁN.

Bước 1: Đặt bài toán đúng

Đừng bắt đầu bằng thuật toán. Hãy bắt đầu bằng câu hỏi kinh doanh.

Sai: Chúng ta cần dùng machine learning.

Đúng: Chúng ta muốn dự đoán khách hàng nào có khả năng hủy gói trong 30 ngày tới để CSKH ưu tiên chăm sóc.

Một bài toán ML tốt cần:

Đầu ra rõ.
Dữ liệu đầu vào có thể thu thập.
Hành động sau dự đoán.
Metric đánh giá.
Lợi ích kinh doanh.

Bước 2: Gom dữ liệu

Dữ liệu là nguyên liệu.

Với churn, dữ liệu có thể đến từ:

CRM.
Product analytics.
Billing.
Support tickets.
Email marketing.
Survey/NPS.
Lịch sử gia hạn.

Bước 3: Tạo features và label

Feature là thông tin mô tả một trường hợp.

Label là đáp án mà mô hình cần học.

Ví dụ:

Features: số lần đăng nhập, số ticket, số ngày không dùng, gói dịch vụ.
Label: khách có churn trong 30 ngày không?

Nhiều dự án ML không khó ở thuật toán mà khó ở chỗ định nghĩa label. “Khách rời bỏ” là hủy gói, không gia hạn, giảm usage 90%, hay không thanh toán?

Nếu label mơ hồ, model học mơ hồ.

Bước 4: Train model

Mô hình học quan hệ giữa features và label.

Với bài toán đơn giản, có thể dùng logistic regression, decision tree, random forest, gradient boosting. Với dữ liệu phức tạp hơn, có thể dùng neural network.

Nhưng đừng mê thuật toán quá sớm. Dữ liệu sạch và bài toán rõ thường quan trọng hơn model nghe sang.

Bước 5: Evaluate

Mô hình phải được kiểm tra trên dữ liệu chưa dùng để train.

Vì nếu chỉ kiểm tra trên dữ liệu đã học, model có thể giống học sinh thuộc đáp án cũ nhưng không làm được đề mới.

Bước 6: Deploy và monitor

ML không kết thúc khi model chạy được.

Sau khi đưa vào thực tế, cần theo dõi:

Dữ liệu có thay đổi không?
Accuracy có giảm không?
Model có bias nhóm khách hàng nào không?
Người dùng có làm theo gợi ý không?
Dự đoán có tạo giá trị kinh doanh không?

Một model dự đoán churn mà sales không dùng thì chỉ là dashboard đẹp.

Các loại machine learning phổ biến

Supervised learning - học có nhãn

Dữ liệu có đáp án đúng.

Ví dụ:

Email này spam hay không?
Khách này churn hay không?
Giao dịch này gian lận hay không?
Giá nhà là bao nhiêu?

Unsupervised learning - học không nhãn

Dữ liệu không có đáp án đúng sẵn. Mô hình tìm nhóm hoặc pattern.

Ví dụ:

Phân cụm khách hàng.
Tìm nhóm hành vi bất thường.
Gom chủ đề feedback.
Khám phá nhóm sản phẩm thường mua cùng.

Semi-supervised learning - học bán giám sát

Có một phần dữ liệu có nhãn, phần lớn chưa có nhãn. Dùng khi gán nhãn thủ công quá tốn công.

Ví dụ:

Phân loại ảnh sản phẩm.
Gán nhãn ticket support.
Nhận diện loại tài liệu.

Reinforcement learning - học tăng cường

Mô hình học bằng thử-sai và phần thưởng.

Ví dụ:

Game.
Robot.
Tối ưu chiến lược hành động.
Một số bài toán điều khiển.

Không phải doanh nghiệp nào cũng cần reinforcement learning. Nhiều bài toán kinh doanh phổ biến chỉ cần supervised/unsupervised learning là đủ.

Mini case: Dự đoán khách hàng rời bỏ trong công ty SaaS Việt Nam

Một công ty SaaS Việt Nam có 5.000 khách hàng trả phí. Mỗi tháng khoảng 4% hủy gói. Team muốn can thiệp sớm.

Họ xây mô hình ML đơn giản:

Dữ liệu

Số lần đăng nhập 30 ngày gần nhất.
Số tính năng đã dùng.
Số thành viên trong workspace.
Số ticket support.
Thời gian phản hồi ticket.
Gói hiện tại.
Lịch sử thanh toán.
NPS gần nhất.
Có tham gia onboarding hay không.

Label

Khách có hủy gói trong 30 ngày tiếp theo không?

Output

Mỗi tuần, mô hình tạo danh sách khách rủi ro cao. CSKH không gọi tất cả. Họ ưu tiên nhóm có nguy cơ cao và giá trị hợp đồng lớn.

Bài học

Model không chỉ giúp dự đoán. Nó còn giúp công ty nhìn thấy nguyên nhân vận hành: khách chưa onboarding, ít dùng tính năng cốt lõi, ticket phản hồi chậm, hoặc chỉ có một người trong workspace.

ML tốt không chỉ tạo điểm số. Nó mở đường cho hành động.

Checklist: Bài toán này có phù hợp ML không?

[ ] Có câu hỏi dự đoán/phân loại rõ?
[ ] Có dữ liệu lịch sử đủ nhiều?
[ ] Có label hoặc cách tạo label?
[ ] Dữ liệu có đại diện cho thực tế không?
[ ] Nếu model dự đoán xong, team sẽ làm gì tiếp?
[ ] Có metric đánh giá model?
[ ] Có metric đánh giá business impact?
[ ] Có rủi ro bias hoặc dữ liệu nhạy cảm không?
[ ] Có người chịu trách nhiệm duy trì model?

Nếu không có hành động sau dự đoán, đừng vội làm ML. Dự đoán mà không ai dùng chỉ là bói toán có dashboard.

Kết luận

Machine learning là cách cho máy học pattern từ dữ liệu để dự đoán hoặc phân loại dữ liệu mới.
ML bắt đầu từ bài toán kinh doanh, không bắt đầu từ thuật toán.
Một dự án ML cần dữ liệu, feature, label, training, evaluation, deployment và monitoring.
Supervised, unsupervised, semi-supervised và reinforcement learning phục vụ các kiểu bài toán khác nhau.
ML chỉ tạo giá trị khi dự đoán dẫn đến hành động rõ ràng.

Machine Learning là gì? Học máy hoạt động như thế nào?

Machine Learning là gì? Giải thích học máy bằng chuyện dự đoán khách rời bỏ

ML không phải ma thuật. Nó là học từ dữ liệu

Framework: Vòng đời ML 6 bước

Bước 1: Đặt bài toán đúng

Bước 2: Gom dữ liệu

Bước 3: Tạo features và label

Bước 4: Train model

Bước 5: Evaluate

Bước 6: Deploy và monitor

Các loại machine learning phổ biến

Supervised learning - học có nhãn

Unsupervised learning - học không nhãn

Semi-supervised learning - học bán giám sát

Reinforcement learning - học tăng cường

Mini case: Dự đoán khách hàng rời bỏ trong công ty SaaS Việt Nam

Dữ liệu

Label

Output

Bài học

Checklist: Bài toán này có phù hợp ML không?

Kết luận

Đăng nhận xét