GitHub tối ưu hóa tính năng Secret Scanning: Giảm thiểu cảnh báo giả nhờ AI

GitHub hợp tác cùng Microsoft Security & AI để tích hợp khả năng suy luận ngữ cảnh vào hệ thống Secret Scanning, giúp giảm hơn 75% cảnh báo giả mà vẫn duy trì hiệu suất bảo...

Nguyen Hung

12 Tháng 6, 2026 2 Min Read

4 0

Secret scanning đóng vai trò then chốt trong việc bảo vệ các nhà phát triển và tổ chức trước nguy cơ lộ lọt thông tin xác thực. Tuy nhiên, ở quy mô khổng lồ của GitHub, việc xử lý hàng tỷ lượt push mỗi ngày tạo ra thách thức lớn: các cảnh báo giả (false positives) quá nhiều sẽ gây nhiễu, khiến đội ngũ kỹ thuật tốn thời gian phân loại thay vì tập trung khắc phục sự cố thực tế.

Table Of Content

Cải thiện độ tin cậy thông qua ngữ cảnh
Cách tiếp cận: Tập trung vào ngữ cảnh thay vì dữ liệu thô
Kết quả thực tế

Cải thiện độ tin cậy thông qua ngữ cảnh

Để giải quyết vấn đề này, GitHub đã hợp tác với đội ngũ Microsoft Security & AI để đưa khả năng suy luận ngữ cảnh vào quy trình xác thực của Secret Scanning. Thay vì chỉ dựa vào các mẫu (pattern-based) để phát hiện token hay API key, hệ thống mới áp dụng phương pháp từ Agentic Secret Finder. Mục tiêu là hiểu rõ cách một giá trị được sử dụng trong mã nguồn thay vì chỉ đơn thuần so khớp định dạng.

Cách tiếp cận: Tập trung vào ngữ cảnh thay vì dữ liệu thô

Thách thức lớn nhất trong việc xác thực là xác định lượng thông tin cần thiết. Việc quét toàn bộ file hoặc repository sẽ gây tốn kém tài nguyên và độ trễ cao. Thay vào đó, GitHub tập trung vào việc trích xuất các tín hiệu quan trọng:

Phân tích cách sử dụng: Hệ thống kiểm tra xem giá trị đó có được gán vào biến, truyền vào header xác thực, client cơ sở dữ liệu hay các lệnh gọi cloud SDK hay không.
Tối ưu hóa tín hiệu: Thay vì phân tích lượng lớn mã nguồn, hệ thống chỉ tập trung vào ngữ cảnh cục bộ trong file để xác định xem giá trị đó có thực sự là một secret hay chỉ là các chuỗi ngẫu nhiên, UUID hoặc dữ liệu test.

Cách tiếp cận này giúp hệ thống duy trì độ chính xác cao, độ trễ thấp và khả năng mở rộng trên các codebase lớn mà không làm giảm phạm vi phát hiện.

Kết quả thực tế

Trong các thử nghiệm trên hàng trăm cảnh báo giả được xác nhận bởi khách hàng, phương pháp mới đã đạt được kết quả ấn tượng:

Mục tiêu ban đầu: Giảm 65% cảnh báo giả.
Kết quả đạt được: Giảm 75,76% cảnh báo giả.

Việc giảm thiểu đáng kể các cảnh báo không liên quan giúp các nhà phát triển tin tưởng hơn vào hệ thống, từ đó ưu tiên xử lý các lỗ hổng bảo mật thực sự một cách nhanh chóng và hiệu quả hơn. GitHub cho biết sẽ tiếp tục tinh chỉnh quy trình này trên các tập dữ liệu lớn hơn trong thời gian tới.

Nguồn tham khảo: GitHub Blog