Anthropic khôi phục Claude Fable 5 sau khi Mỹ gỡ bỏ lệnh kiểm soát xuất khẩu
Sau gần ba tuần bị đình chỉ do lo ngại về lỗ hổng bảo mật, Anthropic đã chính thức mở lại quyền truy cập toàn cầu cho mô hình AI Claude Fable 5.
Anthropic vừa thông báo khôi phục quyền truy cập toàn cầu cho mô hình AI Claude Fable 5. Quyết định này được đưa ra sau khi Bộ Thương mại Hoa Kỳ chính thức gỡ bỏ các biện pháp kiểm soát xuất khẩu áp đặt lên Fable 5 và phiên bản Mythos 5 vào ngày 30/6 vừa qua.
Trước đó, vào ngày 12/6, chính phủ Mỹ đã yêu cầu Anthropic ngừng cung cấp các mô hình này cho bất kỳ cá nhân không phải công dân Mỹ nào, bao gồm cả nhân viên của chính công ty, do lo ngại về các kỹ thuật jailbreak. Sự cố bắt nguồn từ việc các nhà nghiên cứu tại Amazon phát hiện một prompt có khả năng vượt qua các quy tắc an toàn của Fable 5, cho phép mô hình này xác định các lỗ hổng phần mềm và thậm chí viết mã khai thác (exploit).
Để giải quyết vấn đề, Anthropic đã triển khai một bộ lọc an toàn mới (classifier) được thiết kế để phát hiện và chặn các kỹ thuật tương tự với tỷ lệ thành công trên 99%. Trong trường hợp phát hiện yêu cầu vi phạm, hệ thống sẽ tự động chuyển hướng người dùng sang mô hình Claude Opus 4.8 an toàn hơn.
Mặc dù Anthropic khẳng định hành vi của Fable 5 chỉ là hoạt động bảo mật phòng thủ thông thường, nhưng sự việc đã làm dấy lên cuộc tranh luận gay gắt về quản lý rủi ro AI. Các chuyên gia cho rằng việc đình chỉ đột ngột là một biện pháp “quá tay”, trong khi chính phủ Mỹ vẫn đang loay hoay tìm kiếm quy trình kiểm soát chính thức đối với các mô hình AI tiên tiến (frontier models).
Để ngăn chặn các rủi ro trong tương lai, Anthropic đã công bố kế hoạch thiết lập một hệ thống xếp hạng mức độ nguy hiểm của các kỹ thuật jailbreak dựa trên bốn tiêu chí: khả năng gia tăng năng lực, phạm vi tấn công, độ dễ dàng khi vũ khí hóa và khả năng phát hiện. Ngoài ra, công ty cũng đã khởi động chương trình HackerOne để khuyến khích cộng đồng báo cáo các lỗ hổng mới.
Sự việc này phản ánh thách thức kép mà các phòng thí nghiệm AI đang đối mặt: một mô hình đủ mạnh để giúp các kỹ sư patch lỗi bảo mật cũng chính là công cụ đắc lực để kẻ tấn công tìm kiếm các zero-day. Hiện tại, Anthropic cam kết sẽ phối hợp chặt chẽ hơn với chính phủ và cung cấp quyền truy cập sớm để kiểm thử các mô hình thế hệ tiếp theo trước khi phát hành rộng rãi.
Nguồn tham khảo: The Hacker News



No Comment! Be the first one.