Dự án Code Orange: Cloudflare hoàn tất chiến dịch nâng cấp hạ tầng và tăng cường khả năng phục hồi
Sau hai quý nỗ lực kỹ thuật, Cloudflare đã hoàn tất dự án 'Code Orange: Fail Small', tập trung vào việc tối ưu hóa quy trình triển khai cấu hình, giảm thiểu tác động khi xảy ra sự cố và chuẩn hóa quy...
Sau hơn hai quý tập trung nguồn lực, Cloudflare vừa chính thức hoàn tất dự án kỹ thuật nội bộ mang tên “Code Orange: Fail Small”. Mục tiêu cốt lõi của dự án này là xây dựng một hạ tầng mạng lưới vững chắc, an toàn và đáng tin cậy hơn cho mọi khách hàng, đặc biệt là sau những bài học rút ra từ các sự cố toàn cầu vào cuối năm 2025.
Table Of Content
Triển khai cấu hình an toàn với Snapstone
Thay vì áp dụng các thay đổi cấu hình nội bộ ngay lập tức trên toàn hệ thống, Cloudflare đã chuyển sang phương thức triển khai theo từng giai đoạn kết hợp với giám sát sức khỏe (health-mediated deployment). Công cụ trung tâm cho thay đổi này là Snapstone.
Snapstone cho phép đóng gói các cấu hình thành từng đơn vị, sau đó phát hành dần dần. Hệ thống này cung cấp khả năng giám sát thời gian thực và tự động rollback (hoàn tác) nếu phát hiện bất thường. Điều này giúp ngăn chặn các lỗi cấu hình nguy hiểm lan rộng ra toàn bộ mạng lưới trước khi chúng kịp ảnh hưởng đến lưu lượng truy cập của khách hàng.
Giảm thiểu tác động khi xảy ra sự cố
Cloudflare đã thực hiện rà soát toàn diện các kịch bản lỗi (failure modes) cho các dịch vụ quan trọng. Các nguyên tắc mới bao gồm:
- Fail stale: Sử dụng cấu hình tốt gần nhất nếu cấu hình mới gặp lỗi.
- Fail open/close: Tùy chọn trạng thái an toàn nhất để duy trì dịch vụ thay vì để hệ thống ngừng hoạt động hoàn toàn.
- Phân đoạn hệ thống: Chia nhỏ các dịch vụ (như Workers runtime) thành các phân đoạn độc lập dựa trên nhóm khách hàng. Nếu một thay đổi lỗi xảy ra, nó chỉ ảnh hưởng đến một tỷ lệ nhỏ lưu lượng truy cập trước khi được hệ thống tự động phát hiện và xử lý.
Cải tiến quy trình “Break Glass” và quản lý sự cố
Để đảm bảo khả năng ứng phó khi hạ tầng gặp sự cố nghiêm trọng, Cloudflare đã thiết lập các đường dẫn xác thực dự phòng cho 18 dịch vụ then chốt. Điều này giúp kỹ sư vẫn có thể truy cập, gỡ lỗi và thay đổi cấu hình ngay cả khi các hệ thống quản trị chính bị ảnh hưởng. Công ty cũng đã tổ chức các buổi diễn tập quy mô lớn với sự tham gia của hơn 200 nhân sự để đảm bảo tính sẵn sàng cao nhất.
Codex: Tiêu chuẩn hóa kỹ thuật bằng AI
Để tránh việc lặp lại các lỗi cũ (như lỗi không xử lý ngoại lệ trong code Rust hoặc Lua), Cloudflare đã xây dựng Codex – một kho lưu trữ các quy tắc kỹ thuật bắt buộc. Các quy tắc này được tích hợp vào quy trình phát triển thông qua các tác nhân AI, tự động kiểm tra code ngay từ khâu merge request. Nếu code vi phạm các tiêu chuẩn an toàn, hệ thống sẽ yêu cầu xem xét thủ công, giúp ngăn chặn lỗi ngay từ giai đoạn phát triển thay vì để xảy ra sự cố thực tế.
Cam kết minh bạch
Bên cạnh các cải tiến kỹ thuật, Cloudflare cũng thay đổi cách thức giao tiếp với khách hàng khi có sự cố. Mục tiêu là thông báo sớm nhất có thể, duy trì cập nhật định kỳ (mỗi 30-60 phút) và cung cấp các báo cáo hậu kiểm (post-mortem) chi tiết để khách hàng nắm bắt rõ nguyên nhân và các biện pháp khắc phục triệt để.
Dù dự án Code Orange đã hoàn tất, Cloudflare khẳng định việc nâng cao khả năng phục hồi là một quá trình liên tục, không bao giờ kết thúc trong vòng đời phát triển sản phẩm của họ.
Nguồn tham khảo: Cloudflare Blog



No Comment! Be the first one.