Machine Learning là gì? Học máy hoạt động như thế nào?
Machine Learning là gì? Giải thích học máy bằng chuyện dự đoán khách rời bỏ
Một công ty SaaS thấy khách hàng hủy gói ngày càng nhiều.
- Sales nói do giá cao.
- CSKH nói do onboarding kém.
- Product nói do thiếu tính năng.
- Marketing nói do khách hàng chưa hiểu giá trị.
Ai cũng có lý. Nhưng câu hỏi quan trọng là: khách nào có nguy cơ rời bỏ trong tháng tới?
Nếu trả lời bằng cảm giác, team sẽ tranh luận mãi. Nếu trả lời bằng dữ liệu, ta bước vào thế giới machine learning.
ML không phải ma thuật. Nó là học từ dữ liệu
Con người học kiểu này rất tự nhiên.
Bạn từng mua trái cây nhiều lần. Nhìn màu vỏ, độ mềm, mùi, cân nặng, bạn đoán quả nào ngon. Không ai viết cho bạn một danh sách luật hoàn chỉnh. Bạn học từ kinh nghiệm.
Machine learning cũng tương tự, nhưng thay “kinh nghiệm” bằng dữ liệu.
Ví dụ với churn:
- Khách dùng sản phẩm bao lâu?
- Đăng nhập mấy lần trong 30 ngày?
- Có mở email onboarding không?
- Có tạo ticket support không?
- Gói hiện tại là gì?
- Có mời thêm thành viên team không?
- Tháng trước có giảm usage không?
- Cuối cùng khách có hủy không?
Mô hình học từ khách hàng cũ, rồi dự đoán nguy cơ của khách hàng mới.
Framework: Vòng đời ML 6 bước
Tôi gọi đây là vòng quay DỮ LIỆU → DỰ ĐOÁN.
Bước 1: Đặt bài toán đúng
Đừng bắt đầu bằng thuật toán. Hãy bắt đầu bằng câu hỏi kinh doanh.
Sai: Chúng ta cần dùng machine learning.
Đúng: Chúng ta muốn dự đoán khách hàng nào có khả năng hủy gói trong 30 ngày tới để CSKH ưu tiên chăm sóc.
Một bài toán ML tốt cần:
- Đầu ra rõ.
- Dữ liệu đầu vào có thể thu thập.
- Hành động sau dự đoán.
- Metric đánh giá.
- Lợi ích kinh doanh.
Bước 2: Gom dữ liệu
Dữ liệu là nguyên liệu.
Với churn, dữ liệu có thể đến từ:
- CRM.
- Product analytics.
- Billing.
- Support tickets.
- Email marketing.
- Survey/NPS.
- Lịch sử gia hạn.
Bước 3: Tạo features và label
Feature là thông tin mô tả một trường hợp.
Label là đáp án mà mô hình cần học.
Ví dụ:
- Features: số lần đăng nhập, số ticket, số ngày không dùng, gói dịch vụ.
- Label: khách có churn trong 30 ngày không?
Nhiều dự án ML không khó ở thuật toán mà khó ở chỗ định nghĩa label. “Khách rời bỏ” là hủy gói, không gia hạn, giảm usage 90%, hay không thanh toán?
Nếu label mơ hồ, model học mơ hồ.
Bước 4: Train model
Mô hình học quan hệ giữa features và label.
Với bài toán đơn giản, có thể dùng logistic regression, decision tree, random forest, gradient boosting. Với dữ liệu phức tạp hơn, có thể dùng neural network.
Nhưng đừng mê thuật toán quá sớm. Dữ liệu sạch và bài toán rõ thường quan trọng hơn model nghe sang.
Bước 5: Evaluate
Mô hình phải được kiểm tra trên dữ liệu chưa dùng để train.
Vì nếu chỉ kiểm tra trên dữ liệu đã học, model có thể giống học sinh thuộc đáp án cũ nhưng không làm được đề mới.
Bước 6: Deploy và monitor
ML không kết thúc khi model chạy được.
Sau khi đưa vào thực tế, cần theo dõi:
- Dữ liệu có thay đổi không?
- Accuracy có giảm không?
- Model có bias nhóm khách hàng nào không?
- Người dùng có làm theo gợi ý không?
- Dự đoán có tạo giá trị kinh doanh không?
Một model dự đoán churn mà sales không dùng thì chỉ là dashboard đẹp.
Các loại machine learning phổ biến
Supervised learning - học có nhãn
Dữ liệu có đáp án đúng.
Ví dụ:
- Email này spam hay không?
- Khách này churn hay không?
- Giao dịch này gian lận hay không?
- Giá nhà là bao nhiêu?
Unsupervised learning - học không nhãn
Dữ liệu không có đáp án đúng sẵn. Mô hình tìm nhóm hoặc pattern.
Ví dụ:
- Phân cụm khách hàng.
- Tìm nhóm hành vi bất thường.
- Gom chủ đề feedback.
- Khám phá nhóm sản phẩm thường mua cùng.
Semi-supervised learning - học bán giám sát
Có một phần dữ liệu có nhãn, phần lớn chưa có nhãn. Dùng khi gán nhãn thủ công quá tốn công.
Ví dụ:
- Phân loại ảnh sản phẩm.
- Gán nhãn ticket support.
- Nhận diện loại tài liệu.
Reinforcement learning - học tăng cường
Mô hình học bằng thử-sai và phần thưởng.
Ví dụ:
- Game.
- Robot.
- Tối ưu chiến lược hành động.
- Một số bài toán điều khiển.
Không phải doanh nghiệp nào cũng cần reinforcement learning. Nhiều bài toán kinh doanh phổ biến chỉ cần supervised/unsupervised learning là đủ.
Mini case: Dự đoán khách hàng rời bỏ trong công ty SaaS Việt Nam
Một công ty SaaS Việt Nam có 5.000 khách hàng trả phí. Mỗi tháng khoảng 4% hủy gói. Team muốn can thiệp sớm.
Họ xây mô hình ML đơn giản:
Dữ liệu
- Số lần đăng nhập 30 ngày gần nhất.
- Số tính năng đã dùng.
- Số thành viên trong workspace.
- Số ticket support.
- Thời gian phản hồi ticket.
- Gói hiện tại.
- Lịch sử thanh toán.
- NPS gần nhất.
- Có tham gia onboarding hay không.
Label
Khách có hủy gói trong 30 ngày tiếp theo không?
Output
Mỗi tuần, mô hình tạo danh sách khách rủi ro cao. CSKH không gọi tất cả. Họ ưu tiên nhóm có nguy cơ cao và giá trị hợp đồng lớn.
Bài học
Model không chỉ giúp dự đoán. Nó còn giúp công ty nhìn thấy nguyên nhân vận hành: khách chưa onboarding, ít dùng tính năng cốt lõi, ticket phản hồi chậm, hoặc chỉ có một người trong workspace.
ML tốt không chỉ tạo điểm số. Nó mở đường cho hành động.
Checklist: Bài toán này có phù hợp ML không?
[ ] Có câu hỏi dự đoán/phân loại rõ?
[ ] Có dữ liệu lịch sử đủ nhiều?
[ ] Có label hoặc cách tạo label?
[ ] Dữ liệu có đại diện cho thực tế không?
[ ] Nếu model dự đoán xong, team sẽ làm gì tiếp?
[ ] Có metric đánh giá model?
[ ] Có metric đánh giá business impact?
[ ] Có rủi ro bias hoặc dữ liệu nhạy cảm không?
[ ] Có người chịu trách nhiệm duy trì model?
Nếu không có hành động sau dự đoán, đừng vội làm ML. Dự đoán mà không ai dùng chỉ là bói toán có dashboard.
Kết luận
- Machine learning là cách cho máy học pattern từ dữ liệu để dự đoán hoặc phân loại dữ liệu mới.
- ML bắt đầu từ bài toán kinh doanh, không bắt đầu từ thuật toán.
- Một dự án ML cần dữ liệu, feature, label, training, evaluation, deployment và monitoring.
- Supervised, unsupervised, semi-supervised và reinforcement learning phục vụ các kiểu bài toán khác nhau.
- ML chỉ tạo giá trị khi dự đoán dẫn đến hành động rõ ràng.

Đăng nhận xét