Cách Cloudflare xây dựng nền tảng dữ liệu hợp nhất và AI Agent hỗ trợ
Khám phá cách Cloudflare giải quyết bài toán phân mảnh dữ liệu bằng Town Lake - nền tảng phân tích hợp nhất và Skipper - AI agent giúp truy vấn dữ liệu bằng ngôn ngữ tự...
Với mạng lưới trải rộng tại hơn 330 thành phố trên toàn cầu, Cloudflare xử lý hơn một tỷ sự kiện mỗi giây. Khối lượng dữ liệu khổng lồ này trước đây nằm rải rác trong nhiều hệ thống khác nhau như ClickHouse, Kafka, Google Cloud BigQuery và các bucket R2. Việc truy xuất thông tin trở nên khó khăn khi các nhà phân tích phải đối mặt với nhiều định dạng dữ liệu, chính sách lưu trữ khác nhau và rào cản về quyền truy cập.
Table Of Content
Giải pháp: Town Lake và Skipper
Để giải quyết tình trạng này, Cloudflare đã phát triển hai công cụ nội bộ: Town Lake, nền tảng phân tích dữ liệu hợp nhất, và Skipper, một AI agent cho phép truy vấn dữ liệu bằng tiếng Anh tự nhiên.
Town Lake: Kiến trúc Data Lakehouse
Town Lake hoạt động như một lớp trừu tượng hóa, cho phép truy vấn dữ liệu từ nhiều nguồn khác nhau thông qua giao diện SQL duy nhất. Các thành phần chính bao gồm:
- Query Engine: Sử dụng Apache Trino để thực hiện các truy vấn join dữ liệu từ Postgres, ClickHouse và Iceberg trên R2 mà không cần chuyển đổi trung gian.
- R2 Data Catalog: Dựa trên Apache Iceberg, cho phép quản lý dữ liệu theo thời gian, tối ưu hóa chi phí lưu trữ bằng cách nén dữ liệu cũ.
- DataHub: Hệ thống quản lý metadata, cung cấp thông tin chi tiết về bảng, cột và luồng dữ liệu (lineage).
- Lifeguard: Dịch vụ quản lý quyền truy cập (access control) tập trung, đảm bảo tính bảo mật và tuân thủ.
- Skimmer: Công cụ quét và phát hiện PII (thông tin định danh cá nhân) tự động bằng Workers AI, giúp bảo mật dữ liệu ngay từ khâu thiết kế.
- Transformer: Engine thực hiện các tác vụ ELT (Extract, Load, Transform) dựa trên Workflows, giúp tự động hóa các quy trình xử lý dữ liệu.
Quản trị dữ liệu bằng cơ chế “Default-closed”
Thay vì mở quyền truy cập mặc định, Town Lake áp dụng chính sách “đóng mặc định”. Mọi bảng dữ liệu mới đều phải qua bước quét của Skimmer để phân loại PII. Người dùng chỉ có thể truy vấn sau khi được phê duyệt. Quy trình này được tự động hóa, giúp giảm thiểu rào cản cho nhân viên trong khi vẫn đảm bảo an toàn thông tin.
Skipper: AI Agent thông minh
Skipper không chỉ là một giao diện chat, mà là một AI agent được thiết kế để hiểu ngữ cảnh dữ liệu của Cloudflare. Thay vì để LLM tự suy diễn, Skipper sử dụng nhiều lớp ngữ cảnh (grounded context) như: metadata từ DataHub, chú thích từ đội ngũ kỹ thuật, cấu trúc mã nguồn (code-derived knowledge) và các mô hình dữ liệu đã được kiểm chứng. Điều này giúp Skipper đưa ra các câu trả lời chính xác, có thể kiểm chứng và giảm thiểu tình trạng “ảo giác” (hallucination) của AI.
Việc xây dựng hệ thống này trên chính nền tảng của Cloudflare (Workers, R2, D1, Workers AI) là minh chứng cho khả năng mở rộng và sức mạnh của các sản phẩm mà công ty cung cấp cho khách hàng.
Nguồn tham khảo: Cloudflare Blog



No Comment! Be the first one.