Get in touch
or send us a question?
CONTACT

Cloudflare ra mắt nút chặn các bot AI “thu thập”  dữ liệu web, tiết lộ rằng các bot từ ByteDance- chủ sở hữu Tiktok, rút trích nhiều dữ liệu nhất.

Cloudflare đã công bố ra mắt Nút chặn bot AI cho khách hàng ở mọi cấp độ, cả người dùng miễn phí và trả phí. Để giúp thúc đẩy nội dung do con người tạo ra và ngăn chặn các bot AI thu thập dữ liệu để đào tạo mà không được phép.

Nút chặn bot AI chỉ bằng một cú nhấp chuột

Cloudflare đã công bố khả năng chặn bot AI vào năm ngoái. Nó đã thành công trong việc chặn các bot AI, ngay cả những bot tuân thủ tốt các hướng dẫn của robots.txt và không sử dụng bất kỳ dữ liệu trái phép nào để huấn luyện.

Công ty chỉ ra rằng mặc dù các bot AI này tuân theo các tiêu chuẩn và quy tắc hiện có, nhưng 85% khách hàng chọn chặn các bot AI này truy cập vào trang web của riêng họ, đặc biệt là các bot AI mà chủ sở hữu trang web cho là có ý định không trong sạch.

Easy Button cho phép bạn dễ dàng chặn tất cả các bot AI chỉ bằng một cú nhấp chuột. Nếu khách hàng muốn bật nút này, chỉ cần chuyển đến tab Security > Bots trong Dashboard Cloudflare và bật AI Scrapers and Crawlers.

Cloudflare chỉ ra rằng họ sẽ tiếp tục cập nhật tính năng này và sẽ tiếp tục nghiên cứu nó. Bằng việc khảo sát các hoạt động trong mạng lưới của công ty.

Bot AI của ByteDance bị chặn nhiều nhất.

Cloudflare cũng cung cấp dữ liệu về các bot AI có nhiều khả năng cố gắng truy cập vào mạng của Cloudflare nhất là Bytespider, Amazonbot, ClaudeBot và GPTBot.

Bytespider thuộc sở hữu của ByteDance(công ty mẹ Tiktok). Có thông tin cho rằng họ thu thập dữ liệu để đào tạo các mô hình ngôn ngữ quy mô lớn (LLM) của công ty, đặc biệt là đối thủ cạnh tranh Doubao của ChatGPT từ Trung Quốc.

Tiếp theo là Amazonbot, đúng như tên gọi, thuộc sở hữu của Amazon. Nó chịu trách nhiệm biên soạn dữ liệu chỉ mục để nâng cao khả năng trả lời câu hỏi của Alexa.

Claudebot và GPTbot lần lượt thuộc sở hữu của Claude và OpenAI.

Các bot AI truy cập tới 39% ‘tài sản internet’

Dữ liệu cũng chỉ ra rằng ngoài việc Bytespider là bot AI được yêu cầu nhiều nhất trên mạng, Nó cũng thu thập nhiều thông tin nhất và bị chặn nhiều nhất, tiếp theo là GPTBot của OpenAI.

Đối với tổng thu thập dữ liệu bot AI, dữ liệu Cloudflare tháng 6 cho thấy các bot này truy cập vào top 1 triệu “tài sản internet” sử dụng mạng của Cloudflare, lên đến 39%. Nhưng chỉ 2,98% có các biện pháp để chặn hoặc đặt câu hỏi về yêu cầu truy cập từ các bot AI .

Những “tài sản trên Internet” có nhiều khả năng được các bot AI truy cập vào nhiều nhất là những “tài sản” có thứ hạng cao nhất ( độ phổ biến) Nhưng cũng chính những “tài sản” này thường chặn các yêu cầu.

Không tuân các quy tắc

Tuy nhiên, việc chặn bot AI chỉ có thể thực hiện được nếu người vận hành bot AI tôn trọng robots.txt, đây là tập hợp các lệnh AI tuân theo các quy tắc quốc tế.

Cloudflare đã phát hiện ra rằng một số nhà khai thác bot AI đang cố gắng đánh lừa hệ thống khiến họ nghĩ rằng nó là trình duyệt web. Nhưng Cloudflare xác nhận rằng các mô hình Machine Learning (ML) của họ có thể phát hiện các bot AI này.

Kênh báo cáo bất thường

Người dùng nghi ngờ rằng các bot AI đang hoạt động kỳ lạ có thể báo cáo chúng qua hai kênh.

Kênh đầu tiên dành cho khách hàng ở cấp Enterprise Bot Management, có thể báo cáo thông qua tab Bot Analytics bằng cách nhấp vào biểu đồ được coi là hành vi bất thường, sau đó nhấp vào False Negative và chọn Misbehaved AI Crawler.

Và kênh thứ 2 là có một công cụ báo cáo mà tất cả người dùng có thể sử dụng để báo cáo việc thu thập dữ liệu trái phép.

Theo Cloudflare เปิดตัวปุ่มบล็อกบอต AI ดูดข้อมูลเว็บ เผยบอตของ ByteDance เจ้าของ Tiktok ดูดข้อมูลเยอะสุด ,truy cập từ https://www.beartai.com/tech/it-news/1406344

(Lê Huyền dịch)