Microsoft cảnh báo: Mô tả công cụ MCP bị thao túng có thể khiến AI Agent rò rỉ dữ liệu doanh nghiệp

Microsoft vừa công bố nghiên cứu về một rủi ro bảo mật tiềm ẩn trong các hệ thống AI Agent. Theo đó, kẻ tấn công có thể lợi dụng các mô tả (description) của công cụ trong Model Context Protocol (MCP) để điều khiển AI Agent thực hiện các hành vi trái phép, bao gồm việc âm thầm chuyển dữ liệu doanh nghiệp ra bên ngoài.

Khi AI Agent trở thành mục tiêu

Khác với các mô hình ngôn ngữ truyền thống chỉ dừng lại ở việc đọc và tóm tắt văn bản, các AI Agent hiện nay như Microsoft 365 Copilot hay các agent tùy chỉnh trên Azure AI Foundry có khả năng thực hiện hành động thực tế: gửi email, tạo tệp tin, thay đổi lịch trình hoặc truy cập vào các hệ thống kinh doanh phức tạp. Điều này mở ra một bề mặt tấn công mới thông qua MCP – giao thức cho phép AI kết nối với các công cụ bên ngoài.

Cơ chế tấn công: “Đầu độc” mô tả công cụ

Mỗi công cụ MCP đều đi kèm với một đoạn mô tả văn bản để hướng dẫn AI cách sử dụng. Vấn đề nằm ở chỗ, AI Agent coi các đoạn mô tả này là chỉ dẫn tin cậy. Kẻ tấn công có thể cập nhật mô tả của một công cụ bên thứ ba đã được phê duyệt bằng cách chèn thêm các lệnh ẩn (hidden instructions) dưới dạng ghi chú định dạng.

Khi AI Agent đọc mô tả này, nó sẽ vô tình thực hiện các lệnh độc hại đi kèm. Ví dụ, một agent xử lý hóa đơn có thể bị điều khiển để đính kèm các hóa đơn chưa thanh toán vào một yêu cầu gửi đi đến server của kẻ tấn công. Vì mọi thao tác đều nằm trong quyền hạn của agent và sử dụng các công cụ đã được cấp phép, hệ thống bảo mật mặc định thường không phát hiện ra bất kỳ sự bất thường nào.

Khuyến nghị bảo mật cho doanh nghiệp

Microsoft nhấn mạnh đây không phải là lỗi của riêng Copilot mà là lỗ hổng trong “ranh giới tin cậy” khi kết nối các công cụ bên thứ ba. Để phòng ngừa, các tổ chức cần thực hiện:

Quản lý chuỗi cung ứng công cụ: Chỉ cho phép sử dụng các công cụ từ nhà cung cấp uy tín và hạn chế quyền truy cập theo nguyên tắc đặc quyền tối thiểu (least privilege).
Kiểm soát mô tả công cụ: Coi mô tả của công cụ như một phần của system prompt. Mọi thay đổi trong mô tả cần được kiểm duyệt kỹ lưỡng như khi review mã nguồn.
Con người trong vòng lặp (Human-in-the-loop): Đối với các hành động nhạy cảm như chuyển tiền hoặc chia sẻ dữ liệu ra ngoài, cần có sự phê duyệt thủ công từ con người.
Giám sát hành vi: Thiết lập log và giám sát các hành động của agent để phát hiện các endpoint lạ hoặc các truy vấn dữ liệu bất thường.

Thực tế cho thấy đây không còn là lý thuyết. Các nghiên cứu từ Invariant Labs, các báo cáo trên OWASP và vụ việc mã độc trong gói npm postmark-mcp vào năm 2025 đã chứng minh rằng các AI Agent đang là mục tiêu hấp dẫn. Với tỷ lệ tấn công thành công lên tới 72,8% theo benchmark MCPTox, việc thắt chặt an ninh cho các công cụ kết nối với AI là yêu cầu cấp bách đối với mọi doanh nghiệp.

Nguồn tham khảo: The Hacker News