Project Glasswing: Những bài học từ việc thử nghiệm AI trong nghiên cứu lỗ hổng

Trong vài tháng qua, Cloudflare đã thử nghiệm các mô hình ngôn ngữ lớn (LLM) tập trung vào bảo mật để tự động hóa việc phát hiện lỗ hổng trong hệ thống. Đáng chú ý nhất là Mythos Preview từ Anthropic, một mô hình đã cho thấy bước tiến vượt bậc trong khả năng phân tích mã nguồn thông qua dự án Project Glasswing.

Table Of Content

Khả năng vượt trội của Mythos Preview
Thách thức về độ tin cậy và cơ chế bảo vệ
Vượt qua vấn đề “nhiễu” trong báo cáo

Khả năng vượt trội của Mythos Preview

So với các mô hình AI đa năng trước đây, Mythos Preview không chỉ dừng lại ở việc phát hiện lỗi đơn lẻ mà còn thể hiện hai năng lực cốt lõi:

Xây dựng chuỗi exploit (Exploit chain construction): Thay vì chỉ báo cáo các lỗi nhỏ lẻ, mô hình có khả năng kết hợp nhiều lỗ hổng sơ khai thành một chuỗi tấn công hoàn chỉnh, mô phỏng tư duy của một nhà nghiên cứu bảo mật cấp cao.
Tự tạo Proof-of-Concept (PoC): Mythos Preview có thể tự viết mã, biên dịch và chạy thử nghiệm trong môi trường cô lập để xác nhận tính khai thác được của lỗ hổng. Nếu thất bại, nó tự điều chỉnh giả thuyết và thử lại, giúp loại bỏ các báo cáo mang tính suy đoán.

Thách thức về độ tin cậy và cơ chế bảo vệ

Dù có khả năng mạnh mẽ, Mythos Preview vẫn tồn tại các rào cản bảo mật (guardrails) không nhất quán. Trong quá trình thử nghiệm, mô hình đôi khi từ chối thực hiện các yêu cầu nghiên cứu hợp lệ, nhưng lại chấp nhận nếu yêu cầu được diễn đạt theo cách khác. Điều này cho thấy các cơ chế bảo vệ nội tại của mô hình chưa đủ tin cậy để thay thế các biện pháp kiểm soát an ninh nghiêm ngặt trong môi trường thực tế.

Vượt qua vấn đề “nhiễu” trong báo cáo

Một trong những khó khăn lớn nhất khi dùng AI là tỷ lệ báo cáo sai (false positives). Cloudflare nhận thấy rằng việc yêu cầu một tác nhân AI (coding agent) quét toàn bộ kho mã nguồn thường không hiệu quả do giới hạn về ngữ cảnh (context window) và cách tiếp cận dàn trải. Thay vào đó, việc xây dựng một harness (hệ thống điều phối) chuyên biệt mang lại kết quả tốt hơn nhiều:

Chia nhỏ phạm vi: Thay vì yêu cầu “tìm lỗ hổng”, hãy chỉ định cụ thể loại lỗ hổng và phạm vi chức năng cần kiểm tra.
Đánh giá đối kháng: Sử dụng một tác nhân AI thứ hai để kiểm chứng kết quả của tác nhân thứ nhất, giúp loại bỏ các báo cáo không chính xác.
Quy trình đa giai đoạn: Hệ thống của Cloudflare bao gồm các bước từ Recon (thu thập thông tin), Hunt (truy tìm), Validate (xác thực), đến Trace (truy vết đường đi của dữ liệu đầu vào từ người dùng).

Việc chuyển đổi từ mô hình “chat với AI” sang một hệ thống điều phối tự động (harness) cho phép các đội ngũ bảo mật đạt được độ bao phủ cao hơn, giảm thiểu thời gian xử lý các báo cáo giả và tập trung vào các lỗ hổng thực sự có thể bị khai thác.

Nguồn tham khảo: Cloudflare Blog