Cách Cloudflare xây dựng hạ tầng AI nội bộ trên chính nền tảng của mình
Khám phá cách Cloudflare tích hợp AI vào quy trình kỹ thuật thông qua hạ tầng tự xây dựng, giúp tăng tốc độ phát triển và tối ưu hóa hiệu suất cho hàng ngàn kỹ...
Trong 30 ngày qua, 93% đội ngũ R&D của Cloudflare đã sử dụng các công cụ lập trình hỗ trợ bởi AI. Dự án này, được thực hiện bởi đội ngũ iMARS (Internal MCP Agent/Server Rollout Squad), không chỉ dừng lại ở việc áp dụng công cụ mà còn tái định nghĩa cách các kỹ sư tương tác với hệ thống, từ CI/CD đến quản lý mã nguồn.
Table Of Content
Kiến trúc hệ thống
Cloudflare đã xây dựng một hệ sinh thái AI dựa trên chính các sản phẩm mà họ cung cấp cho khách hàng. Các thành phần chính bao gồm:
- Cloudflare Access: Đảm bảo xác thực Zero Trust cho mọi yêu cầu.
- AI Gateway: Quản lý tập trung các LLM, kiểm soát chi phí và chính sách lưu trữ dữ liệu.
- Workers AI: Nền tảng suy luận (inference) serverless chạy các mô hình mã nguồn mở trên mạng lưới toàn cầu của Cloudflare.
- MCP (Model Context Protocol) Servers: Kết nối các tác nhân AI với dữ liệu nội bộ thông qua một cổng portal thống nhất.
Tối ưu hóa với Workers AI
Thay vì phụ thuộc hoàn toàn vào các mô hình từ bên thứ ba, Cloudflare tăng cường sử dụng Workers AI. Việc chạy suy luận ngay trên mạng lưới của mình giúp giảm độ trễ đáng kể và tiết kiệm chi phí vận hành. Ví dụ, với mô hình Kimi K2.5, Cloudflare đã đạt được mức tiết kiệm chi phí lên tới 77% so với việc sử dụng các mô hình thương mại tương đương.
Cơ chế Proxy thông minh
Một điểm sáng trong kiến trúc là việc sử dụng một Worker đóng vai trò proxy duy nhất. Cách tiếp cận này cho phép Cloudflare:
- Quản lý tập trung các API key (không có key nào nằm trên máy cá nhân của kỹ sư).
- Ghi nhận quyền truy cập theo từng người dùng (per-user attribution) mà vẫn đảm bảo tính ẩn danh thông qua định danh UUID.
- Cập nhật danh mục mô hình AI mà không cần can thiệp vào cấu hình của từng máy trạm.
Giải quyết bài toán ngữ cảnh với Code Mode
Khi số lượng công cụ MCP tăng lên, lượng token tiêu tốn cho việc load schema trở nên quá tải. Cloudflare đã triển khai Code Mode tại tầng portal, cho phép mô hình AI tự khám phá và gọi các công cụ thông qua mã thay vì tải toàn bộ định nghĩa công cụ ngay từ đầu. Điều này giúp giảm đáng kể lượng token tiêu thụ và tối ưu hóa chi phí.
Dự án này chứng minh rằng việc xây dựng hạ tầng AI nội bộ không chỉ giúp tăng tốc độ phát triển (velocity) cho kỹ sư mà còn là bài kiểm tra thực tế hiệu quả nhất cho các sản phẩm mà Cloudflare đang cung cấp ra thị trường.
Nguồn tham khảo: Cloudflare Blog



No Comment! Be the first one.