Khi DNSSEC gặp sự cố: Phân tích vụ gián đoạn tên miền .de
Tìm hiểu về sự cố gián đoạn tên miền .de do lỗi cấu hình DNSSEC và cách Cloudflare xử lý để duy trì khả năng truy cập cho người dùng.
Vào ngày 5 tháng 5 năm 2026, DENIC – đơn vị quản lý tên miền cấp cao nhất (TLD) .de của Đức – đã gặp sự cố nghiêm trọng khi phát hành các chữ ký DNSSEC không hợp lệ. Sự cố này khiến hàng triệu tên miền .de trở nên không thể truy cập đối với các trình phân giải DNS có bật tính năng xác thực DNSSEC, bao gồm cả dịch vụ 1.1.1.1 của Cloudflare.
Table Of Content
DNSSEC và chuỗi tin cậy
DNSSEC (Domain Name System Security Extensions) đóng vai trò xác thực tính toàn vẹn của dữ liệu DNS thông qua các chữ ký số. Khi một zone được ký, các bản ghi RRSIG đi kèm cho phép trình phân giải xác minh rằng dữ liệu không bị can thiệp. Tuy nhiên, DNSSEC hoạt động dựa trên một chuỗi tin cậy nghiêm ngặt. Khi một mắt xích ở cấp TLD như .de bị lỗi cấu hình trong quá trình xoay vòng khóa (key rollover), toàn bộ các tên miền bên dưới đều bị ảnh hưởng.
Diễn biến sự cố và cơ chế “Serve Stale”
Từ 19:30 UTC, các trình phân giải bắt đầu nhận được chữ ký lỗi và trả về SERVFAIL. Tỷ lệ lỗi tăng dần theo thời gian khi các bản ghi trong bộ nhớ đệm (cache) hết hạn. Điểm đáng chú ý là Cloudflare đã tận dụng cơ chế “serve stale” (theo RFC 8767). Thay vì trả về lỗi ngay lập tức, trình phân giải 1.1.1.1 tiếp tục phục vụ các bản ghi đã hết hạn TTL từ bộ nhớ đệm, giúp giảm thiểu đáng kể tác động tiêu cực đến người dùng cuối.
Giải pháp giảm thiểu: Negative Trust Anchor (NTA)
Để khắc phục triệt để, Cloudflare đã áp dụng một quy tắc ghi đè (override rule) để đánh dấu .de là một zone không an toàn, tạm thời bỏ qua xác thực DNSSEC cho các truy vấn liên quan. Đây là giải pháp tương đương với việc sử dụng Negative Trust Anchor (NTA). Mặc dù việc này làm giảm tính bảo mật tạm thời, nhưng đây là sự đánh đổi cần thiết để đảm bảo tính sẵn sàng của dịch vụ khi lỗi xuất phát từ chính đơn vị quản lý TLD.
Bài học kinh nghiệm
Sự cố này một lần nữa khẳng định tính chất phân cấp của DNS: lỗi ở cấp cao nhất sẽ lan truyền xuống toàn bộ hệ thống bên dưới. Các kỹ sư của Cloudflare cũng thừa nhận cần cải thiện cách hiển thị mã lỗi Extended DNS Errors (EDE), vì trong sự cố này, hệ thống đã trả về mã lỗi không chính xác, gây khó khăn cho việc chẩn đoán nguyên nhân gốc rễ là do lỗi DNSSEC.
Sự phối hợp giữa các nhà vận hành DNS thông qua các diễn đàn như DNS-OARC đóng vai trò quan trọng trong việc ứng phó nhanh chóng với các sự cố hạ tầng Internet quy mô lớn. Hiện tại, DENIC đã tạm dừng các đợt xoay vòng khóa để điều tra kỹ thuật trước khi tiếp tục triển khai.
Nguồn tham khảo: Cloudflare Blog



No Comment! Be the first one.