Tester cần test gì khi sản phẩm có AI feature? 🤖🧪
Ngày càng nhiều sản phẩm bắt đầu có AI feature: chat AI, gợi ý nội dung, tóm tắt văn bản, phân loại dữ liệu, tìm kiếm thông minh, tạo hình ảnh, phân tích file, hỗ trợ viết nội dung…
Nhìn bề ngoài, đây vẫn là “một tính năng của sản phẩm”. Nhưng với tester, AI feature không thể được test giống hoàn toàn như feature thông thường.
Vì sao?
Bởi vì với feature thường, chúng ta hay kiểm tra theo kiểu:
- input A → output B ✅
- bấm nút → hiện popup ✅
- gọi API → trả đúng field ✅
Nhưng với AI feature, đầu ra không phải lúc nào cũng cố định. Cùng một input, AI có thể trả lời hơi khác nhau giữa các lần chạy. Ngoài chuyện đúng sai, tester còn phải quan tâm tới độ liên quan, độ an toàn, tính ổn định và trải nghiệm người dùng.
Vậy khi sản phẩm có AI feature, tester cần test gì?
1) Test chức năng cơ bản như mọi feature khác ⚙️
Dù có AI ở bên trong, trước hết đây vẫn là một feature của sản phẩm, nên tester vẫn phải kiểm tra các phần cơ bản:
- người dùng có mở được tính năng không
- nút bấm có hoạt động đúng không
- loading có hiển thị đúng không
- có xử lý timeout, retry, lỗi mạng không
- kết quả có hiển thị đúng vị trí không
- dữ liệu nhập vào có được gửi đúng không
- lịch sử, trạng thái, cache có hoạt động đúng không
Ví dụ:
Nếu là tính năng “tóm tắt nội dung”, tester vẫn cần test các case như:
- nhập văn bản ngắn / dài 📄
- file hợp lệ / file lỗi 📎
- mạng chậm / mất mạng 🌐
- bấm gửi nhiều lần 🔁
- quay lại màn hình rồi vào lại ↩️
Rất nhiều lỗi của AI feature thực ra không nằm ở AI, mà nằm ở flow sản phẩm xung quanh nó.
2) Test chất lượng output của AI 🎯
Đây là phần khác biệt lớn nhất.
Với AI feature, tester không chỉ hỏi:
“Có ra kết quả không?”
mà còn phải hỏi:
“Kết quả đó có tốt không?”
Tùy loại sản phẩm, chất lượng output có thể được đánh giá theo các tiêu chí như:
- có đúng ý người dùng không
- có liên quan tới input không
- có thiếu ý quan trọng không
- có bịa thông tin không
- có dùng giọng điệu phù hợp không
- có quá dài hoặc quá ngắn không
- có dễ hiểu không
Ví dụ:
- AI tóm tắt văn bản nhưng bỏ mất ý chính ❌
- AI trả lời đúng chủ đề nhưng lan man ❌
- AI gợi ý nội dung nhưng không liên quan tới ngữ cảnh ❌
Vấn đề là chất lượng output không phải lúc nào cũng đo được bằng pass/fail đơn giản. Vì vậy tester thường cần thêm:
- checklist đánh giá 📋
- expected theo mức chấp nhận được
- ví dụ output tốt / chưa tốt
- review thủ công ở các case quan trọng 👀
3) Test trường hợp AI trả lời sai hoặc “bịa” thông tin ⚠️
Một trong những rủi ro phổ biến nhất của AI feature là hallucination — tức là AI tạo ra thông tin nghe có vẻ hợp lý nhưng thực tế sai.
Vì vậy tester cần chủ động test các tình huống như:
- hỏi thông tin không có trong dữ liệu
- đưa input mơ hồ
- đưa input dễ gây hiểu nhầm
- hỏi vượt ngoài phạm vi tính năng
- cố tình gài câu hỏi để xem AI có bịa không
Ví dụ:
- AI hỗ trợ tra cứu nhưng lại tự thêm thông tin không có nguồn 📚
- AI tóm tắt file nhưng nói ra ý không hề xuất hiện trong file 📄
- AI hỗ trợ khách hàng nhưng trả lời sai chính sách sản phẩm 🫠
Điều quan trọng ở đây là không chỉ test case “đẹp”, mà phải test cả case xấu, mơ hồ, thiếu dữ liệu và dễ gây nhầm lẫn.
4) Test tính ổn định của kết quả 🔄
AI feature thường không hoàn toàn deterministic. Nghĩa là cùng một input, kết quả giữa các lần có thể không giống hệt nhau.
Vì vậy tester cần kiểm tra:
- output có dao động quá nhiều không
- có lúc rất tốt nhưng lúc rất tệ không
- cùng một input có khi đúng, có khi sai không
- khi re-run nhiều lần, chất lượng có giữ được mức chấp nhận không
Ví dụ:
- lần 1 tóm tắt tốt ✅
- lần 2 thiếu ý chính ⚠️
- lần 3 lại thêm thông tin không có ❌
Nếu độ dao động quá lớn, trải nghiệm người dùng sẽ không đáng tin. Đây là kiểu vấn đề mà test feature thường không gặp nhiều, nhưng AI feature lại gặp khá thường xuyên.
5) Test safety và nội dung không phù hợp 🛡️
Nếu sản phẩm có AI tạo nội dung hoặc trả lời tự do, safety là phần rất quan trọng.
Tester cần kiểm tra xem AI có:
- sinh ra nội dung độc hại không
- trả lời nội dung xúc phạm, thù ghét, bạo lực không
- gợi ý hành vi nguy hiểm không
- lộ thông tin nhạy cảm không
- trả lời nội dung không phù hợp với đối tượng người dùng không
Ví dụ:
- app cho trẻ em nhưng AI lại trả lời nội dung không phù hợp 👶
- AI hỗ trợ sức khỏe nhưng đưa lời khuyên quá nguy hiểm 🏥
- AI chat bị prompt kiểu “bẻ lái” và trả lời lệch khỏi chính sách 🚨
Với AI feature, safety không còn là phần “có thì tốt”, mà thường là phần bắt buộc phải test kỹ.
6) Test prompt injection và misuse 🔓
Nếu sản phẩm dùng AI theo kiểu nhận input tự do từ người dùng, tester nên kiểm tra cả các tình huống cố tình khai thác hoặc lạm dụng hệ thống.
Ví dụ:
- người dùng cố tình nhập prompt để vượt giới hạn
- chèn instruction trái với mục tiêu hệ thống
- ép AI tiết lộ prompt nội bộ
- ép AI bỏ qua policy
- chèn nội dung gây nhiễu từ file, web, dữ liệu đầu vào
Đây là nhóm test rất quan trọng với các tính năng như:
- AI chat
- AI đọc file
- AI duyệt nội dung
- AI agent
- AI hỗ trợ tìm kiếm hoặc tổng hợp dữ liệu
Một AI feature có thể hoạt động tốt với người dùng bình thường, nhưng lại hỏng ngay khi gặp input mang tính tấn công.
7) Test dữ liệu đầu vào đa dạng và edge case 📂
AI feature thường nhạy với input hơn feature thường. Vì vậy tester nên test đa dạng hơn ở phần đầu vào:
- input ngắn / dài
- input nhiều ngôn ngữ
- input sai chính tả
- input viết tắt
- input không có ngữ cảnh
- input chứa ký tự đặc biệt
- file lớn / file rỗng / file lỗi
- nội dung lặp lại hoặc nhiễu
Ví dụ:
- AI tóm tắt tốt với văn bản đẹp, nhưng fail với văn bản lộn xộn
- AI dịch tốt câu chuẩn, nhưng xử lý kém với câu thiếu chủ ngữ
- AI phân tích file tốt với PDF text, nhưng sai với file scan hoặc format lạ
Nếu chỉ test input “đẹp”, bạn sẽ rất dễ bỏ sót lỗi thật ngoài thực tế.
8) Test performance và chi phí phản hồi ⏱️💸
AI feature thường nặng hơn feature bình thường, nên ngoài tính đúng, tester còn cần chú ý tới:
- thời gian phản hồi có quá chậm không
- loading có hợp lý không
- người dùng có biết hệ thống đang xử lý gì không
- timeout có được xử lý đẹp không
- retry có hợp lý không
- cùng lúc nhiều request có bị nghẽn không
Ngoài ra, ở góc nhìn sản phẩm, AI còn liên quan tới cost. Có những feature AI trả kết quả tốt, nhưng quá chậm hoặc quá đắt để scale thực tế.
Tester không nhất thiết phải đo cost như DevOps, nhưng nên nhận biết các dấu hiệu:
- request mất quá lâu
- input lớn làm hệ thống phản hồi bất thường
- số lần gọi AI quá nhiều cho một thao tác đơn giản
9) Test UX của AI feature ✨
Một AI feature tốt không chỉ ở output, mà còn ở cách nó xuất hiện trong sản phẩm.
Tester nên nhìn cả trải nghiệm người dùng:
- có giải thích rõ AI đang làm gì không
- người dùng có biết đây là nội dung do AI tạo không
- khi AI sai, người dùng có cách sửa hoặc phản hồi không
- có loading state, empty state, error state rõ ràng không
- có hướng dẫn input để người dùng dùng tốt hơn không
Ví dụ:
- AI trả lời chậm nhưng không có loading → người dùng tưởng app bị treo
- AI tạo nội dung chưa tốt nhưng không có cách retry/regenerate → trải nghiệm bí bách
- AI trả kết quả không chắc chắn nhưng UI lại hiển thị như thông tin tuyệt đối → dễ gây hiểu lầm
Nhiều bug của AI feature thực chất là bug về UX, không phải bug mô hình.
10) Test logging, monitoring và khả năng debug 🔍
AI feature khó debug hơn feature thường, nên tester cũng nên quan tâm xem hệ thống có đủ khả năng quan sát không.
Ví dụ:
- có log input/output phù hợp không
- có log lỗi timeout/model failure không
- có theo dõi tỷ lệ fail không
- có gắn trace id để debug theo request không
- có phân biệt lỗi UI, lỗi backend và lỗi model không
Không có log tốt, team sẽ rất khó trả lời câu hỏi:
- lỗi nằm ở model?
- ở prompt?
- ở dữ liệu?
- ở backend?
- hay ở UI hiển thị?
Với AI feature, khả năng debug là một phần rất quan trọng của chất lượng.
11) Nếu là AI Agent, cần test thêm hành vi và action 🚨
Nếu sản phẩm không chỉ có AI trả lời mà còn có AI thực hiện hành động, tester cần test sâu hơn nữa.
Ví dụ agent có thể:
- gửi email 📧
- tạo lịch 📅
- tìm file 📂
- gọi API 🔌
- thao tác nhiều bước liên tiếp 🔁
Lúc này tester không chỉ test output, mà còn phải test:
- agent có chọn đúng action không
- có gọi đúng tool không
- có gọi sai thứ tự không
- có dừng đúng lúc không
- có side effect nguy hiểm không
- khi lỗi giữa chừng có rollback hoặc chặn an toàn không
Đây là lý do test AI Agent thường khó hơn test chatbot hoặc AI feature thông thường.
12) Vậy tester nên đổi cách nghĩ như thế nào? 🧠
Khi test feature thường, nhiều khi chúng ta quen với tư duy:
đúng / sai
Nhưng với AI feature, tester cần mở rộng thành:
- kết quả có hữu ích không
- có ổn định không
- có an toàn không
- có đáng tin không
- có dễ dùng không
- có gây hiểu lầm không
Tức là không chỉ test functionality, mà còn phải test thêm:
- quality
- reliability
- safety
- usability
- observability
Đây chính là điểm khác biệt lớn nhất khi test sản phẩm có AI.
Kết luận 🏁
Khi sản phẩm có AI feature, tester không thể chỉ kiểm tra xem tính năng “chạy được” hay không.
Tester cần nhìn rộng hơn và test ít nhất các nhóm sau:
- chức năng cơ bản ⚙️
- chất lượng output 🎯
- hallucination / trả lời sai ⚠️
- tính ổn định 🔄
- safety 🛡️
- misuse / prompt injection 🔓
- edge cases của input 📂
- performance ⏱️
- UX của AI feature ✨
- logging và khả năng debug 🔍
- hành vi/action nếu là AI Agent 🚨
Nói ngắn gọn:
Test AI feature không chỉ là test đúng sai.
Đó là test xem AI có hữu ích, an toàn, ổn định và đáng tin trong sản phẩm thực tế hay không.
You need to login in order to like this post: click here
May 14, 2026
May 10, 2026