Cộng đồng an ninh mạng phản đối cơ chế kiểm soát quá mức trên mô hình Fable của Anthropic

Mô hình AI mới Fable của Anthropic đang vấp phải sự chỉ trích từ các chuyên gia bảo mật do cơ chế guardrails quá nhạy cảm, gây cản trở ngay cả với những tác vụ kỹ thuật thông...

Nguyen Hung

11 Tháng 6, 2026 2 Min Read

6 0

Anthropic vừa chính thức ra mắt Fable, phiên bản giới hạn dành cho công chúng của mô hình AI chuyên dụng về an ninh mạng đầy tham vọng mang tên Mythos. Tuy nhiên, thay vì nhận được sự ủng hộ, công cụ này đang vấp phải làn sóng phản đối từ cộng đồng chuyên gia bảo mật.

Nhiều nhà nghiên cứu an ninh mạng cho biết Fable thường xuyên từ chối các yêu cầu hợp lệ, thậm chí là những tác vụ đơn giản như đọc một bài blog, với lý do nội dung bị gắn cờ liên quan đến cybersecurity hoặc sinh học. Valentina “Chompie” Palmiotti, chuyên gia tại IBM X-Force, chia sẻ rằng mô hình này chặn hầu hết mọi yêu cầu có liên quan dù chỉ là thoáng qua đến lĩnh vực bảo mật.

Cơ chế guardrails gây tranh cãi

Mục tiêu của Anthropic khi thiết lập các rào cản này là nhằm ngăn chặn việc lạm dụng AI để phát triển malware hoặc khai thác vulnerability trong phần mềm. Tuy nhiên, các chuyên gia cho rằng cách triển khai hiện tại quá cứng nhắc. Matt Suiche, một chuyên gia kỳ cựu trong ngành, nhận định: “Nếu bạn yêu cầu AI viết code an toàn, nó sẽ mặc định đó là công việc liên quan đến cybersecurity thay vì coi đó là các tiêu chuẩn kỹ thuật phần mềm tốt nhất, dẫn đến việc bị từ chối hoặc chuyển hướng sang Claude Opus 4.8”. Theo ông, hệ thống này dường như hoạt động dựa trên từ khóa, khiến bất kỳ thuật ngữ nào trong lĩnh vực an ninh mạng cũng có thể kích hoạt cơ chế chặn.

Một số người dùng khác trên mạng xã hội cũng phàn nàn rằng ngay cả việc yêu cầu kiểm tra code (code review) cũng bị hệ thống gắn cờ cảnh báo.

Hướng đi trong tương lai

Dù gây nhiều phiền toái, một số chuyên gia như Suiche vẫn tỏ ra thông cảm: “Chúng ta vẫn đang ở giai đoạn đầu. Việc thắt chặt các rào cản ngay từ đầu để đảm bảo an toàn là điều dễ hiểu, và Anthropic chắc chắn sẽ điều chỉnh chúng theo thời gian khi hợp tác sâu hơn với cộng đồng bảo mật”.

Bên cạnh các cơ chế kiểm soát tích hợp, Anthropic hiện yêu cầu các chuyên gia phải đăng ký tham gia Cyber Verification Program để có quyền truy cập với ít hạn chế hơn khi thực hiện các công việc chuyên môn. Một mô hình tương tự cũng đang được OpenAI áp dụng thông qua chương trình Trusted Access for Cyber. Hiện tại, phía Anthropic vẫn chưa đưa ra phản hồi chính thức về những khiếu nại này.

Nguồn tham khảo: TechCrunch