AI đang đi rất nhanh, và cùng với đó là một sự chuyển dịch rõ rệt: từ chatbot sang AI Agent.
Nếu chatbot chủ yếu dùng để trả lời câu hỏi 💬, thì AI Agent được kỳ vọng làm nhiều hơn thế: hiểu mục tiêu, tự lên kế hoạch, gọi tool, truy cập dữ liệu, thực hiện nhiều bước liên tiếp và đưa ra kết quả cuối cùng 🎯
Nghe thì có vẻ chỉ là “chatbot thông minh hơn”, nhưng với người làm QA/Tester, đây là một khác biệt rất lớn.
Bởi vì:
test AI Agent khó hơn test chatbot rất nhiều.
Một chatbot thông thường thường có đầu vào là câu hỏi của người dùng và đầu ra là câu trả lời.
Ví dụ:
Với chatbot, phạm vi test thường xoay quanh:
Nhưng AI Agent thì khác.
Agent không chỉ trả lời mà còn có thể:
Lúc này, bạn không chỉ test “output có đúng không”, mà còn phải test cả:
Nói cách khác:
Chatbot tạo câu trả lời. Agent tạo hành động.
Mà hệ thống có hành động thì luôn khó test hơn hệ thống chỉ phản hồi.
Một chatbot thường khá “đơn vòng”.
Người dùng hỏi → model trả lời.
Nhưng với AI Agent, một yêu cầu đơn giản bên ngoài có thể biến thành cả chuỗi xử lý bên trong.
Ví dụ người dùng nói:
“Hãy tìm giúp tôi 3 khách sạn tốt ở Tokyo tuần sau, giá vừa phải, rồi tóm tắt trong bảng.”
Để làm việc này, agent có thể phải:
Chỉ cần một bước sai là toàn bộ kết quả có thể lệch.
Điều làm testing khó hơn là:
Vì vậy, với AI Agent, tester không chỉ test kết quả cuối, mà còn phải quan tâm tới đường đi để tạo ra kết quả đó 🛣️
Ngay cả chatbot cũng đã có tính không ổn định nhất định do mô hình sinh ngôn ngữ không phải lúc nào cũng trả lời giống hệt nhau.
Nhưng với AI Agent, độ không ổn định còn lớn hơn vì ngoài model ra, còn có thêm:
Ví dụ:
Kết quả là cùng một yêu cầu nhưng hành vi bên trong có thể khác nhau.
Điều này khiến việc test trở nên khó hơn rất nhiều so với chatbot truyền thống, nơi bạn chủ yếu so sánh chất lượng câu trả lời.
Với agent, bạn còn phải đối mặt với câu hỏi:
Nó có làm đúng cách không, chứ không chỉ đúng kết quả không?
Đây là khác biệt quan trọng nhất.
Nếu chatbot sai, nhiều khi hậu quả là:
Nhưng khi agent sai, nó có thể:
Tức là rủi ro không còn nằm ở “nội dung câu trả lời”, mà nằm ở hành động thật sự xảy ra trên hệ thống.
Vì vậy, testing AI Agent phải quan tâm rất nhiều đến:
Đây là lớp rủi ro mà chatbot thường không có hoặc có rất ít.
Khi test chatbot, team thường tập trung vào những câu hỏi như:
Nhưng với AI Agent, như vậy là chưa đủ.
Ngoài quality, tester còn phải test thêm:
Tức là bài toán test agent rộng hơn rất nhiều.
Bạn không chỉ đang test “AI có thông minh không”, mà còn test:
hệ thống này có đáng tin để hành động thay người dùng hay không.
Với chatbot, dù không hoàn hảo, bạn vẫn khá dễ xây tiêu chí đánh giá:
Nhưng với AI Agent, pass/fail khó định nghĩa hơn nhiều.
Ví dụ một agent hoàn thành task, nhưng:
Vậy có tính là pass không?
Đây chính là lý do test AI Agent thường phải dùng thêm:
Agent khiến khái niệm “pass/fail” không còn đơn giản như với automation test truyền thống hay test chatbot cơ bản.
Khi chatbot trả lời sai, bạn thường kiểm tra:
Nhưng khi agent làm sai, bạn có thể phải kiểm tra cả chuỗi:
Tức là một lỗi có thể nằm ở rất nhiều lớp khác nhau.
Nếu hệ thống không có log tốt, trace rõ ràng, hoặc không theo dõi được reasoning path ở mức đủ dùng, việc debug sẽ cực kỳ mệt.
Vì vậy, test AI Agent không thể tách rời khỏi việc thiết kế hệ thống có observability tốt 🔍
Test chatbot thường thiên về kiểm tra chất lượng hội thoại và nội dung phản hồi.
Còn test AI Agent đòi hỏi tester phải nhìn rộng hơn:
Nói cách khác, khi test chatbot, bạn chủ yếu test khả năng trả lời.
Khi test agent, bạn đang test cả một hệ thống ra quyết định và hành động bán tự động.
Đó là lý do AI Agent khó test hơn rất nhiều.
Nếu phải tóm gọn, khi test AI Agent, tester nên đặc biệt quan tâm tới các điểm sau:
Đây là checklist mà test chatbot thông thường chưa chắc đã cần đầy đủ.
AI Agent khó test hơn chatbot vì nó không chỉ trả lời, mà còn lập kế hoạch, chọn công cụ, thực hiện hành động và phản ứng theo từng bước.
Chatbot sai thường là trả lời sai 💬
Agent sai có thể là hành động sai 🚨
Vì vậy, test AI Agent không còn chỉ là kiểm tra nội dung output, mà là kiểm tra cả:
Nói ngắn gọn:
Chatbot là bài toán đánh giá phản hồi.
AI Agent là bài toán đánh giá hành vi.
Và trong testing, hành vi luôn khó kiểm chứng hơn phản hồi.
You need to login in order to like this post: click here
YOU MIGHT ALSO LIKE