Explaining AI Testing: Khi chính AI cũng cần được kiểm thử

Sep 27, 2025

Table of Contents

1. Vì sao phải test AI?

Ngày xưa test phần mềm khá “dễ thở”: input A → output B, nếu sai thì bug.
Nhưng với AI (Machine Learning, Deep Learning…), mọi thứ mờ mịt hơn nhiều.

Ví dụ: bạn đưa ảnh con mèo vào hệ thống nhận diện → AI trả lời con chó.
👉 Đây có phải bug không? Có, nhưng không phải kiểu bug “code sai cú pháp”. Nó là bug dữ liệu, bug logic, bug bias.

AI khác phần mềm truyền thống:

Không có quy tắc cứng → output phụ thuộc vào dữ liệu huấn luyện.
Khó dự đoán → cùng một input, đôi khi cho ra output khác.
Có khả năng học sai → AI có thể bias (thiên vị), thiếu fairness.

Do đó, test AI = test cả dữ liệu, mô hình, và hành vi sau deploy.

2. Các thách thức trong AI Testing

Độ mờ trong kết quả (Opacity)
AI đưa ra quyết định, nhưng tại sao thì… không rõ. Tester phải “mò” ra logic ẩn.
Không có expected result rõ ràng
Trong app login, sai mật khẩu thì expected rõ ràng: “Invalid password”.
Trong AI, ví dụ chatbot trả lời thì expected có thể có 10 cách hợp lệ khác nhau.
Bias dữ liệu
Nếu dữ liệu huấn luyện thiên lệch (ví dụ AI chỉ học hình ảnh người da trắng), kết quả sẽ không công bằng.
Khó tái hiện lỗi
AI dùng random seeds, training liên tục → lỗi lần này có thể không xuất hiện lần sau.

3. Kỹ thuật & tư duy trong AI Testing

Để kiểm thử AI hiệu quả, tester cần kết hợp nhiều góc nhìn:

🔹 Data Testing

Kiểm tra chất lượng dữ liệu huấn luyện (có sạch không, có bias không).
Ví dụ: với hệ thống nhận diện khuôn mặt, dataset cần đủ độ đa dạng (giới tính, độ tuổi, màu da).

🔹 Model Testing

Đánh giá độ chính xác (accuracy, precision, recall, F1-score).
Stress test: thử input “dị thường” → xem AI phản ứng thế nào.
Ví dụ: Hệ thống OCR → test với chữ viết tay xấu, ảnh mờ, ánh sáng ngược.

🔹 Explainability Testing (XAI)

Dùng công cụ như LIME, SHAP để giải thích quyết định của AI.
Ví dụ: AI loan approval → vì sao từ chối khách A? Do thu nhập thấp hay do địa chỉ ở “vùng rủi ro”?

🔹 Fairness & Ethics Testing

Test để đảm bảo AI không phân biệt đối xử.
Ví dụ: AI tuyển dụng không được đánh giá thấp ứng viên nữ chỉ vì dữ liệu training lấy từ công ty cũ (đa số nhân viên nam).

🔹 Monitoring in Production (Shift-right testing)

AI thay đổi theo thời gian → cần theo dõi sau khi release.
Ví dụ: Chatbot ban đầu thông minh, sau vài tháng… bỗng “cà khịa” khách hàng 😅.

4. Ví dụ thực tế

Case 1: Chatbot hỗ trợ khách hàng

Input: “Tôi muốn hủy đơn hàng”
Output: “Bạn có muốn mua thêm sản phẩm không?” ❌
AI fail → do training chưa đủ tình huống hủy.

Case 2: AI nhận diện hình ảnh y tế

Input: X-quang phổi có vết mờ nhỏ.
AI output: “Bình thường” ❌
Tester phải kết hợp bác sĩ chuyên môn + data testing để cải thiện.

5. Ứng dụng trong Agile project

Trong Agile, AI Testing cần “chạy song song”:

Sprint 1–2: Test data (chất lượng dataset).
Sprint 3–4: Test model (precision, recall).
Sau release: Shift-right testing (monitoring real-world behavior).

Team Agile thường dùng exploratory testing cho AI chatbot hoặc recommender system → nhập input bất ngờ để lộ bug “khó đoán”.

6. Vai trò của Tester trong kỷ nguyên AI

Một số bạn lo lắng: “AI có thay thế Tester không?”
Thực tế, AI giúp automation tốt hơn, nhưng Tester chính là người test AI.

Tester cần nâng cấp mình thành:

Hiểu data & statistics cơ bản.
Biết dùng tool explainability (LIME, SHAP).
Có tư duy đạo đức: phát hiện bias, unfairness.

Tester giờ không chỉ “soi bug”, mà còn trở thành người bảo vệ tính công bằng của sản phẩm AI.

7. Kết

AI rất “thông minh”, nhưng cũng dễ… “ngáo”.
Nếu không test kỹ, AI có thể đưa ra quyết định sai, thiếu công bằng, và gây hậu quả lớn.

👉 Vì thế, AI Testing là không thể thiếu – từ dữ liệu, mô hình đến hành vi thực tế.
Tester hôm nay không chỉ kiểm thử phần mềm, mà còn kiểm thử cả trí tuệ nhân tạo – một thử thách vừa khó, vừa thú vị.

“Nếu phần mềm là chiếc xe, thì AI là xe tự lái.
Tester không chỉ test bánh xe có quay, mà còn phải test xem xe có… rẽ đúng đường không.” 🚗🤖

You need to login in order to like this post: click here