Anthropic ra mắt Claude Fable 5: AI mạnh mẽ nhất kèm cơ chế kiểm soát an ninh mạng
Anthropic vừa giới thiệu Claude Fable 5, mô hình AI mạnh mẽ nhất của hãng, đồng thời triển khai cơ chế phân loại an ninh mạng để ngăn chặn việc lạm dụng AI trong các cuộc tấn...
Anthropic vừa chính thức phát hành Claude Fable 5, mô hình AI có năng lực xử lý mạnh mẽ nhất từ trước đến nay của hãng. Điểm đáng chú ý trong lần ra mắt này là chiến lược phân tách sản phẩm dựa trên các lớp kiểm soát an ninh (safety classifiers) thay vì chỉ dựa vào khả năng tính toán.
Table Of Content
Hai phiên bản cho hai mục đích
Trong khi Fable 5 được cung cấp rộng rãi cho công chúng, phiên bản song sinh của nó là Claude Mythos 5 – với các rào cản an ninh mạng được gỡ bỏ – chỉ được cấp quyền truy cập cho nhóm chuyên gia bảo mật và các đơn vị vận hành hạ tầng trọng yếu. Anthropic khẳng định Mythos 5 là mô hình AI hỗ trợ an ninh mạng mạnh mẽ nhất thế giới hiện nay.
Sự khác biệt thực tế nằm ở cơ chế điều hướng: Fable 5 sẽ tự động chuyển các yêu cầu liên quan đến tấn công mạng, sinh học, hóa học hoặc trích xuất mô hình (distillation) sang phiên bản Claude Opus 4.8 nhẹ hơn để xử lý. Trong khi đó, Mythos 5 giữ nguyên toàn bộ khả năng cho người dùng đã qua kiểm duyệt.
Cơ chế kiểm soát an ninh mạng
Anthropic lo ngại rằng nếu khả năng tìm kiếm và exploit các vulnerability phần mềm của mô hình Mythos bị lạm dụng, nó sẽ trở thành công cụ đắc lực cho kẻ tấn công. Hệ thống phân loại (classifiers) của Fable 5 đóng vai trò như một bộ lọc giám sát các nỗ lực jailbreak hoặc hành vi lạm dụng.
Các bài kiểm tra cho thấy hệ thống này có khả năng chặn đứng các tác vụ tấn công mạng như do thám, di chuyển ngang (lateral movement) và các bước thực hiện tấn công thực tế. Mặc dù vẫn tồn tại tỷ lệ dương tính giả (false positive) dưới 5%, Anthropic cam kết sẽ tinh chỉnh các rào cản này trong thời gian tới để tối ưu trải nghiệm người dùng.
Thách thức từ khả năng tự động hóa khai thác
Trong giai đoạn thử nghiệm (Project Glasswing), Mythos Preview đã chứng minh khả năng tự động tìm kiếm và khai thác các zero-day trên nhiều hệ điều hành và trình duyệt phổ biến. Đáng chú ý, mô hình này có thể tự viết mã exploit cho các lỗ hổng cũ, ví dụ như CVE-2026-4747 trên server NFS của FreeBSD.
Điều này đặt ra thách thức lớn cho các chuyên gia bảo mật: việc tìm kiếm lỗ hổng giờ đây trở nên quá nhanh và rẻ. Nút thắt cổ chai hiện đã chuyển từ khâu phát hiện sang khâu vá lỗi (patch). Anthropic cảnh báo rằng các tổ chức cần giả định rằng một CVE mức độ nghiêm trọng cao có thể bị chuyển hóa thành exploit thực tế chỉ trong vài giờ sau khi công bố.
Yêu cầu lưu trữ dữ liệu mới
Để tăng cường khả năng phát hiện các cuộc tấn công mới và nỗ lực jailbreak, Anthropic áp dụng chính sách lưu trữ dữ liệu 30 ngày đối với tất cả lưu lượng truy cập trên các mô hình dòng Mythos. Hãng cam kết không sử dụng dữ liệu này để huấn luyện mô hình và sẽ xóa sau 30 ngày, trừ các trường hợp phục vụ điều tra an ninh hoặc nghĩa vụ pháp lý.
Việc ra mắt Fable 5 và Mythos 5 không chỉ là một bước tiến về công nghệ mà còn là lời nhắc nhở về cuộc đua giữa khả năng phòng thủ và tấn công trong kỷ nguyên AI, nơi tốc độ vá lỗi phải nhanh hơn bao giờ hết để bắt kịp với khả năng khai thác tự động.
Nguồn tham khảo: The Hacker News
No Comment! Be the first one.