XDOF gọi vốn 70 triệu USD: Giải bài toán dữ liệu huấn luyện cho robot AI
Trong cuộc đua phát triển AI vật lý, dữ liệu huấn luyện chất lượng cao đang trở thành nút thắt cổ chai. Startup XDOF vừa huy động thành công 70 triệu USD để xây dựng hạ tầng thu thập và xử lý dữ liệu...
Khi các phòng thí nghiệm AI hàng đầu thế giới đang dồn lực đưa trí tuệ nhân tạo vào thế giới vật lý, một thách thức lớn đã xuất hiện: sự thiếu hụt dữ liệu huấn luyện chuyên biệt. Khác với các mô hình ngôn ngữ lớn (LLM) được đào tạo từ kho dữ liệu văn bản khổng lồ trên internet, robot cần những dữ liệu ghi lại tương tác vật lý thực tế – thứ vốn rất khan hiếm và khó thu thập.
Table Of Content
Startup XDOF, vừa chính thức lộ diện sau thời gian hoạt động trong bí mật, tin rằng nút thắt tiếp theo của ngành AI không nằm ở mô hình hay chip xử lý, mà nằm ở vòng lặp phản hồi dữ liệu (data feedback loop) cần thiết để dạy robot cách tương tác với môi trường xung quanh.
Xây dựng hạ tầng cho kỷ nguyên robot
XDOF tập trung xây dựng các đường ống dữ liệu (data pipelines), công cụ thu thập và hệ thống chú thích (annotation) mà các đơn vị phát triển AI khó có thể tự triển khai quy mô lớn. Với 70 triệu USD huy động được từ các quỹ đầu tư danh tiếng như Thrive Capital, Spark Capital và a16z, công ty hiện đang làm việc với khoảng 20 khách hàng, bao gồm nhiều phòng thí nghiệm AI hàng đầu.
CEO Philipp Wu, cựu nghiên cứu sinh tại UC Berkeley, cho biết ông từng đối mặt với vấn đề này khi thực hiện các nghiên cứu về robot. Ông cùng CTO Fred Shentu từng phát triển GELLO – một hệ thống điều khiển từ xa (teleoperation) chi phí thấp, cho phép con người điều khiển cánh tay robot để tạo ra dữ liệu huấn luyện. Dự án này đã trở thành nền tảng quan trọng cho nhiều nghiên cứu robot sau này.
Chiến lược dữ liệu ba tầng
Để giải quyết bài toán quy mô, XDOF triển khai chiến lược dữ liệu theo ba tầng:
- Dữ liệu teleoperation: Thu thập trực tiếp trên các robot đang được triển khai thực tế.
- Dữ liệu từ thiết bị hỗ trợ: Sử dụng các công cụ như GELLO để thu thập dữ liệu tổng quát hơn.
- Dữ liệu egocentric: Dữ liệu thu thập từ con người khi thực hiện các tác vụ hàng ngày thông qua các cảm biến đeo trên người.
Việc vận hành hệ thống này đòi hỏi nguồn lực khổng lồ, từ việc duy trì hàng trăm robot trong các nhà kho rộng lớn đến việc đào tạo đội ngũ vận hành. Đây chính là lý do các phòng thí nghiệm AI lớn chọn cách thuê ngoài thay vì tự xây dựng hạ tầng.
Bước tiến cùng cộng đồng nghiên cứu
Để khởi động, XDOF hợp tác với phòng thí nghiệm AI của UC Berkeley để công bố bộ dữ liệu ABC – được coi là tập hợp dữ liệu huấn luyện robot chất lượng cao lớn nhất từ trước đến nay. Bộ dữ liệu này bao gồm 130.000 quỹ đạo thao tác của robot, 300 giờ mô phỏng và 100 giờ đánh giá, giúp cộng đồng nghiên cứu có thể huấn luyện robot thực hiện các tác vụ phức tạp như gấp quần áo hay đóng gói sản phẩm.
Cái tên XDOF được lấy cảm hứng từ thuật ngữ “degrees of freedom” (bậc tự do) trong robot học. Với tham vọng của mình, XDOF đang đặt cược vào tương lai nơi AI không chỉ tồn tại trong máy chủ mà còn có khả năng thao tác linh hoạt trong thế giới thực.
Nguồn tham khảo: TechCrunch

No Comment! Be the first one.