Báo cáo tình trạng hoạt động GitHub tháng 5/2026: Những cải tiến hạ tầng và sự cố kỹ thuật
GitHub công bố báo cáo chi tiết về hiệu năng hệ thống trong tháng 5/2026, bao gồm các nỗ lực chuyển đổi hạ tầng sang Azure và phân tích nguyên nhân của 9 sự cố kỹ thuật ảnh hưởng đến người...
GitHub vừa công bố báo cáo tình trạng hoạt động tháng 5/2026, đánh dấu bước tiến mới trong lộ trình nâng cao độ ổn định và khả năng phục hồi của nền tảng. Trong bối cảnh lưu lượng truy cập tăng mạnh do các quy trình phát triển hỗ trợ bởi AI, GitHub đang đẩy mạnh chuyển đổi hạ tầng sang Azure, phân tách các dịch vụ nguyên khối (monolith) thành các dịch vụ độc lập và loại bỏ các điểm lỗi tập trung.
Những cải tiến hạ tầng đáng chú ý
Tính đến tháng 5/2026, GitHub đã đạt được những cột mốc quan trọng:
- Chuyển đổi sang Azure: 40% lưu lượng truy cập từ monolith đã được chuyển sang Azure (tăng từ 8% trong tháng 2).
- Tối ưu hóa cơ sở dữ liệu: Hoàn tất việc cô lập cụm cơ sở dữ liệu chính, tách biệt người dùng, xác thực và phân quyền thành các miền độc lập để ngăn chặn lỗi lan truyền.
- Xác thực không trạng thái: Triển khai các token xác thực stateless, giúp giảm tải đáng kể cho cơ sở dữ liệu trong các đợt cao điểm.
GitHub khẳng định ưu tiên hàng đầu hiện nay là: độ khả dụng (availability), sau đó là năng lực hệ thống (capacity) và cuối cùng mới là tính năng (features).
Tổng hợp các sự cố trong tháng 5/2026
Trong tháng 5, GitHub đã ghi nhận 9 sự cố gây suy giảm hiệu năng dịch vụ. Dưới đây là một số điểm nhấn kỹ thuật:
- Sự cố ngày 04/05: Việc di chuyển schema (schema migration) trên bảng cơ sở dữ liệu lớn đã gây bão hòa kết nối, dẫn đến lỗi 5xx trên nhiều dịch vụ như Pull Requests, Actions và Copilot. GitHub đang bổ sung cơ chế ngắt mạch (circuit breakers) tự động để dừng các tiến trình di chuyển khi hệ thống quá tải.
- Sự cố GitHub Actions (05/05 – 06/05): Các vấn đề liên quan đến giới hạn tốc độ (rate limit) khi tạo VM và lỗi cấu hình trong quá trình khắc phục sự cố đã gây gián đoạn cho các runner. Đội ngũ kỹ thuật đang cải thiện logic điều tiết (throttling) và kiểm soát cấu hình chặt chẽ hơn.
- Sự cố ngày 06/05 (Lỗi 32-bit): Một bảng tra cứu Vitess sử dụng khóa số nguyên 32-bit đã đạt giới hạn tối đa, khiến việc tạo luồng đánh giá Pull Request bị lỗi. Giải pháp là nâng cấp lên kiểu dữ liệu 64-bit trên tất cả các shard.
- Sự cố ngày 26/05: Hệ thống kiểm duyệt tài khoản tự động đã vô tình đình chỉ tài khoản dịch vụ của GitHub Actions. GitHub đã bổ sung danh sách cho phép (allowlist) để bảo vệ các tài khoản dịch vụ quan trọng khỏi các hệ thống tự động.
- Sự cố ngày 28/05: Một nhà cung cấp upstream gặp lỗi API ảnh hưởng đến các mô hình GPT-5.x, gây gián đoạn cho GitHub Copilot. GitHub đang cải thiện cơ chế failover tự động cho các mô hình này.
Các sự cố trên cho thấy thách thức trong việc vận hành một hệ thống quy mô lớn. GitHub cam kết tiếp tục cải thiện quy trình kiểm thử, giám sát và xác thực cấu hình để giảm thiểu rủi ro trong tương lai.
Nguồn tham khảo: GitHub Blog



No Comment! Be the first one.