Cách GitHub xây dựng Qubot: AI Agent phân tích dữ liệu nội bộ

Khám phá cách GitHub phát triển Qubot, một AI agent dựa trên GitHub Copilot giúp nhân viên truy vấn dữ liệu phức tạp bằng ngôn ngữ tự nhiên, tối ưu hóa quy trình phân tích nội...

Nguyen Hung

21 Tháng 6, 2026 2 Min Read

1 0

Tại các tổ chức lớn, việc tự phục vụ (self-serve) dữ liệu và trích xuất thông tin chuyên sâu luôn là một bài toán hóc búa. GitHub đã giải quyết thách thức này bằng cách phát triển Qubot, một AI agent được vận hành bởi GitHub Copilot, cho phép nhân viên truy vấn dữ liệu bằng ngôn ngữ tự nhiên mà không cần đến sự hỗ trợ trực tiếp từ các chuyên gia phân tích dữ liệu.

Table Of Content

Kiến trúc của Qubot
Đảm bảo chất lượng với Evaluation Framework
Những bài học kinh nghiệm

Kiến trúc của Qubot

Hệ thống Qubot được xây dựng dựa trên ba thành phần cốt lõi:

Giao diện người dùng: Qubot tích hợp linh hoạt vào Slack, VS Code và Copilot CLI. Khi người dùng đặt câu hỏi, một instance của Qubot sẽ được khởi chạy dưới dạng Copilot Cloud Agent. Kết quả không chỉ hiển thị trực tiếp mà còn được lưu trữ dưới dạng báo cáo markdown trong pull request để người dùng dễ dàng tham khảo hoặc tinh chỉnh.
Lớp ngữ cảnh (Context Layer): Đây là “bộ não” của hệ thống, phân loại dữ liệu theo các giai đoạn: dữ liệu thô (bronze), dữ liệu đã chuẩn hóa (silver) và dữ liệu chuyên sâu cho mục đích kinh doanh (gold). Thông tin được nạp vào runtime thông qua GitHub MCP Server.
Công cụ truy vấn (Query Engine): Qubot kết nối với Kusto và Trino thông qua MCP server. Hệ thống tự động lựa chọn công cụ phù hợp: Kusto cho các truy vấn khám phá nhanh trên dữ liệu sự kiện gần đây và Trino cho các phân tích lịch sử phức tạp.

Đảm bảo chất lượng với Evaluation Framework

Mọi thay đổi trong lớp ngữ cảnh đều phải trải qua quy trình kiểm thử nghiêm ngặt trước khi triển khai. GitHub sử dụng một framework đánh giá tự động bao gồm: bộ dữ liệu kiểm thử (test cases), trình điều phối chạy tự động (automated run orchestration) và công cụ tổng hợp thống kê để đo lường độ chính xác, độ trễ và tỷ lệ hoàn thành của các truy vấn.

Những bài học kinh nghiệm

Sau khi triển khai, GitHub nhận thấy rằng lớp ngữ cảnh (context layer) đóng vai trò quyết định. Dữ liệu được cấu trúc và quản lý tốt không chỉ giúp Qubot trả lời chính xác hơn mà còn tăng tốc độ phản hồi lên gấp ba lần.

Qubot đã thay đổi cách làm việc tại GitHub bằng cách giảm bớt áp lực cho đội ngũ dữ liệu, đồng thời khuyến khích các nhóm sản phẩm tự quản lý telemetry và định nghĩa dữ liệu của riêng họ. Đây là minh chứng cho thấy việc tập trung hóa tri thức phân tán vào một công cụ duy nhất có thể mang lại giá trị to lớn cho toàn bộ tổ chức.

Nguồn tham khảo: GitHub Blog