Bộ dữ liệu cộng đồng LeRobot- “ImageNet” của ngành Robot học — Khi nào và Như thế nào?

May 11, 2025
15 min read

Bộ Dữ Liệu Cộng Đồng LeRobot: “ImageNet” Của Ngành Robot — Khi Nào Và Như Thế Nào?

🧭 TL;DR — Tại sao bài đăng này?

Trong bài đăng này, chúng ta:

Nhận thấy tác động ngày càng tăng của các bộ dữ liệu LeRobot do cộng đồng đóng góp
Làm nổi bật những thách thức hiện tại trong việc thu thập và quản lý dữ liệu robot
Chia sẻ các bước thực tế và các phương pháp hay nhất để tối đa hóa tác động của nỗ lực tập thể này

Mục tiêu của chúng tôi là định hình khái niệm khái quát hóa như một vấn đề dữ liệu và chỉ ra rằng việc xây dựng một “ImageNet của ngành robot” mở, đa dạng không chỉ khả thi mà còn đang diễn ra.

Giới Thiệu

Những tiến bộ gần đây trong các mô hình Vision-Language-Action (VLA) đã cho phép robot thực hiện một loạt các nhiệm vụ—từ các lệnh đơn giản như “nắm lấy khối lập phương” đến các hoạt động phức tạp hơn như gấp quần áo hoặc lau bàn. Các mô hình này nhằm mục đích đạt được khái quát hóa: khả năng thực hiện các tác vụ trong các môi trường mới, với các đối tượng chưa từng thấy và trong các điều kiện khác nhau.

“Thách thức lớn nhất trong ngành robot không phải là sự khéo léo mà là khái quát hóa—trên các cấp độ vật lý, thị giác và ngữ nghĩa.” — Trí Thông Minh Vật Lý

Một robot phải "tìm ra cách thực hiện chính xác ngay cả một nhiệm vụ đơn giản trong một môi trường mới hoặc với các đối tượng mới," và điều này đòi hỏi cả kỹ năng mạnh mẽ và hiểu biết thông thường về thế giới. Tuy nhiên, tiến trình thường bị giới hạn bởi sự sẵn có của dữ liệu đa dạng cho các hệ thống robot như vậy.

“Khái quát hóa phải xảy ra ở nhiều cấp độ. Ở cấp độ thấp, robot phải hiểu cách nhặt một cái thìa (bằng cán) hoặc đĩa (bằng mép), ngay cả khi nó chưa từng thấy những chiếc thìa hoặc đĩa cụ thể này trước đây và ngay cả khi chúng được đặt trong một đống bát đĩa bẩn. Ở cấp độ cao hơn, robot phải hiểu ngữ nghĩa của từng nhiệm vụ—đặt quần áo và giày dép ở đâu (lý tưởng nhất là trong giỏ giặt hoặc tủ quần áo, không phải trên giường) và loại công cụ nào phù hợp để lau vết đổ. Sự khái quát hóa này đòi hỏi cả kỹ năng vật lý mạnh mẽ và sự hiểu biết thông thường về môi trường, để robot có thể khái quát hóa ở nhiều cấp độ cùng một lúc, từ vật lý, đến thị giác, đến ngữ nghĩa. Điều này càng trở nên khó khăn hơn do sự sẵn có hạn chế của dữ liệu đa dạng cho các hệ thống robot như vậy.” — Trí Thông Minh Vật Lý

Từ Mô Hình Đến Dữ Liệu: Thay Đổi Góc Nhìn

Để đơn giản hóa, cốt lõi của các chính sách tổng quát nằm ở một ý tưởng đơn giản: đồng huấn luyện trên các bộ dữ liệu không đồng nhất. Bằng cách cho các mô hình VLA tiếp xúc với nhiều môi trường, nhiệm vụ và hình dạng robot khác nhau, chúng ta có thể dạy các mô hình không chỉ cách hành động mà còn tại sao—cách diễn giải một cảnh, hiểu một mục tiêu và điều chỉnh các kỹ năng trên các bối cảnh.

💡 “Khái quát hóa không chỉ là một thuộc tính của mô hình—nó là một hiện tượng dữ liệu.” Nó xuất hiện từ sự đa dạng, chất lượng và mức độ trừu tượng của dữ liệu huấn luyện.

Điều này đưa chúng ta đến một câu hỏi cơ bản:

Với các bộ dữ liệu hiện tại, giới hạn trên của khái quát hóa mà chúng ta có thể mong đợi là gì?

Liệu một robot có thể phản hồi một cách có ý nghĩa đối với một lời nhắc hoàn toàn mới—ví dụ: "tổ chức một bữa tiệc sinh nhật bất ngờ"—nếu nó chưa từng gặp bất cứ điều gì tương tự trong quá trình huấn luyện? Đặc biệt khi hầu hết các bộ dữ liệu được thu thập trong các phòng thí nghiệm học thuật, bởi một số lượng người hạn chế, trong các thiết lập được kiểm soát tốt?

Chúng tôi định hình khái quát hóa như một góc nhìn tập trung vào dữ liệu: coi nó như quá trình trừu tượng hóa các mẫu rộng hơn từ dữ liệu—về cơ bản là “thu nhỏ” để tiết lộ các cấu trúc và nguyên tắc không phụ thuộc vào nhiệm vụ. Sự thay đổi trong góc nhìn này nhấn mạnh vai trò của sự đa dạng của bộ dữ liệu, chứ không chỉ riêng kiến trúc mô hình, trong việc thúc đẩy khái quát hóa.

Tại Sao Ngành Robot Thiếu Thời Điểm ImageNet?

Cho đến nay, phần lớn các bộ dữ liệu robot đến từ các môi trường học thuật có cấu trúc. Ngay cả khi chúng ta mở rộng lên hàng triệu bản trình diễn, một bộ dữ liệu thường sẽ chiếm ưu thế, hạn chế sự đa dạng. Không giống như ImageNet—bộ dữ liệu đã tổng hợp dữ liệu quy mô internet và ghi lại thế giới thực một cách toàn diện hơn—ngành robot thiếu một chuẩn mực đa dạng, do cộng đồng thúc đẩy tương đương.

Điều này phần lớn là do việc thu thập dữ liệu cho ngành robot đòi hỏi phần cứng vật lý và nỗ lực đáng kể.

Xây Dựng Cộng Đồng LeRobot

Đó là lý do tại LeRobot, chúng tôi đang nỗ lực để làm cho việc thu thập dữ liệu robot dễ tiếp cận hơn—ở nhà, ở trường hoặc bất cứ đâu. Chúng tôi:

Đơn giản hóa quy trình ghi
Hợp lý hóa việc tải lên Hugging Face Hub, để thúc đẩy chia sẻ cộng đồng
Giảm chi phí phần cứng

Chúng tôi đã thấy kết quả: số lượng bộ dữ liệu do cộng đồng đóng góp trên Hub đang tăng lên nhanh chóng.

Nếu chúng ta chia nhỏ các bộ dữ liệu đã tải lên theo loại robot, chúng ta thấy rằng hầu hết các đóng góp là cho So100 và Koch, làm cho cánh tay robot và các nhiệm vụ điều khiển trở thành trọng tâm chính của bối cảnh bộ dữ liệu LeRobot hiện tại. Tuy nhiên, điều quan trọng cần nhớ là tiềm năng còn vượt xa hơn thế. Các lĩnh vực như xe tự hành, robot hỗ trợ và điều hướng di động có thể hưởng lợi nhiều từ dữ liệu được chia sẻ. Động lực này đưa chúng ta đến gần hơn với một tương lai nơi các bộ dữ liệu phản ánh một nỗ lực toàn cầu, không chỉ là đóng góp của một phòng thí nghiệm hoặc tổ chức duy nhất.

Dưới đây chỉ là một vài bộ dữ liệu do cộng đồng đóng góp nổi bật cho thấy ngành robot có thể đa dạng và giàu trí tưởng tượng như thế nào:

lirislab/close_top_drawer_teabox:: thao tác chính xác với ngăn kéo gia dụng
Chojins/chess_game_001_blue_stereo: một trận đấu cờ vua đầy đủ được ghi lại từ thiết lập camera stereo
pierfabre/chicken: vâng — một robot tương tác với các hình động vật đầy màu sắc, bao gồm cả một con gà 🐔

Khám phá các bộ dữ liệu sáng tạo bổ sung dưới thẻ LeRobot trên Hugging Face Hub và xem chúng một cách tương tác trong Trình Trực Quan Hóa Bộ Dữ Liệu LeRobot.

Mở Rộng Quy Mô Một Cách Có Trách Nhiệm

Khi việc thu thập dữ liệu robot trở nên dân chủ hơn, quản lý trở thành thách thức tiếp theo. Mặc dù các bộ dữ liệu này vẫn được thu thập trong các thiết lập bị hạn chế, nhưng chúng là một bước quan trọng hướng tới các chính sách robot giá cả phải chăng, đa năng. Không phải ai cũng có quyền truy cập vào phần cứng đắt tiền—nhưng với cơ sở hạ tầng được chia sẻ và sự hợp tác mở, chúng ta có thể xây dựng một thứ gì đó lớn hơn nhiều.

🧠 “Khái quát hóa không được giải quyết trong phòng thí nghiệm—nó được dạy bởi thế giới.” Dữ liệu của chúng ta càng đa dạng, các mô hình của chúng ta càng có khả năng hơn.

Dữ Liệu Tốt Hơn = Mô Hình Tốt Hơn

Tại sao chất lượng dữ liệu lại quan trọng? Dữ liệu chất lượng kém dẫn đến hiệu suất hạ nguồn kém, đầu ra thiên vị và các mô hình không khái quát hóa được. Do đó, việc thu thập dữ liệu hiệu quả và chất lượng cao đóng vai trò quan trọng trong việc thúc đẩy các chính sách robot tổng quát.

Trong khi các mô hình nền tảng về thị giác và ngôn ngữ đã phát triển mạnh trên các bộ dữ liệu quy mô lớn, cấp độ web, thì ngành robot lại thiếu một “Internet của robot”—một kho dữ liệu rộng lớn, đa dạng về các tương tác trong thế giới thực. Thay vào đó, dữ liệu robot bị phân mảnh trên các hình dạng, thiết lập cảm biến và chế độ điều khiển khác nhau, tạo thành các ốc đảo dữ liệu biệt lập.

Để khắc phục điều này, các phương pháp tiếp cận gần đây như Gr00t tổ chức dữ liệu huấn luyện dưới dạng một kim tự tháp, trong đó:

Dữ liệu web và video quy mô lớn tạo thành nền tảng
Dữ liệu tổng hợp thêm sự đa dạng mô phỏng
Các tương tác robot trong thế giới thực ở đỉnh đặt nền tảng cho mô hình trong quá trình thực thi vật lý

Trong khuôn khổ này, việc thu thập dữ liệu thế giới thực hiệu quả là không thể thiếu—nó neo các hành vi đã học được trong phần cứng robot thực tế và thu hẹp khoảng cách sim-to-real, cuối cùng cải thiện khả năng khái quát hóa, khả năng thích ứng và hiệu suất của các mô hình nền tảng robot.

Bằng cách mở rộng khối lượng và sự đa dạng của các bộ dữ liệu thế giới thực, chúng ta giảm phân mảnh giữa các nguồn dữ liệu không đồng nhất. Khi các bộ dữ liệu không liên kết về môi trường, hình dạng hoặc phân phối tác vụ, các mô hình gặp khó khăn trong việc chuyển giao kiến thức giữa các miền.

🔗 Dữ liệu thế giới thực hoạt động như mô liên kết—nó căn chỉnh các ưu tiên trừu tượng với hành động có cơ sở và cho phép mô hình xây dựng các biểu diễn mạch lạc và có thể chuyển giao hơn.

Do đó, việc tăng tỷ lệ tương tác robot thực tế không chỉ đơn thuần là tăng cường tính chân thực—nó củng cố về mặt cấu trúc các liên kết giữa tất cả các lớp của kim tự tháp, dẫn đến các chính sách mạnh mẽ và có khả năng hơn.

Những Thách Thức Với Các Bộ Dữ Liệu Cộng Đồng Hiện Tại

Tại LeRobot, chúng tôi đã bắt đầu phát triển một quy trình quản lý tự động để xử lý hậu kỳ các bộ dữ liệu cộng đồng. Trong giai đoạn xử lý hậu kỳ, chúng tôi đã xác định một số lĩnh vực mà những cải tiến có thể tăng cường hơn nữa chất lượng bộ dữ liệu và tạo điều kiện cho việc quản lý hiệu quả hơn trong tương lai:

1. Chú Thích Nhiệm Vụ Không Đầy Đủ Hoặc Không Nhất Quán

Nhiều bộ dữ liệu thiếu mô tả nhiệm vụ, thiếu chi tiết hoặc mơ hồ về nhiệm vụ cần thực hiện. Ngữ nghĩa hiện đang là cốt lõi của nhận thức, có nghĩa là hiểu bối cảnh và chi tiết cụ thể của một nhiệm vụ là rất quan trọng đối với hiệu suất của robot. Các biểu thức chi tiết đảm bảo rằng robot hiểu chính xác những gì được mong đợi, nhưng cũng cung cấp kiến thức và từ vựng rộng hơn cho hệ thống nhận thức. Sự mơ hồ có thể dẫn đến giải thích không chính xác và do đó, các hành động không chính xác.

Hướng dẫn nhiệm vụ có thể:

Trống
Quá ngắn (ví dụ: “Giữ”, “Lên”)
Không có bất kỳ ý nghĩa cụ thể nào (ví dụ: “task desc”, “desc”)

Các chú thích cấp độ nhiệm vụ con thường bị thiếu, gây khó khăn cho việc mô hình hóa các hệ thống phân cấp nhiệm vụ phức tạp. Mặc dù điều này có thể được xử lý bằng VLM, nhưng vẫn tốt hơn là có một chú thích nhiệm vụ do tác giả của bộ dữ liệu cung cấp.

2. Sự Không Nhất Quán Trong Ánh Xạ Tính Năng

Các tính năng như images.laptop được gắn nhãn mơ hồ:

Đôi khi nó là chế độ xem của người thứ ba
Những lần khác, nó giống như một camera kẹp (cổ tay) hơn

Ánh xạ thủ công các tính năng của bộ dữ liệu với các tên tiêu chuẩn mất thời gian và dễ xảy ra lỗi. Chúng ta có thể tự động suy luận loại tính năng bằng cách sử dụng VLM hoặc các mô hình thị giác máy tính để phân loại góc nhìn camera. Tuy nhiên, ghi nhớ điều này giúp có một bộ dữ liệu sạch hơn.

3. Các Tập Có Chất Lượng Thấp Hoặc Không Đầy Đủ

Một số bộ dữ liệu chứa:

Các tập chỉ có 1 hoặc rất ít khung hình
Các tệp dữ liệu bị xóa thủ công (ví dụ: các tệp .parquet bị xóa mà không cần lập chỉ mục lại), phá vỡ tính nhất quán tuần tự.

4. Kích Thước Hành Động/Trạng Thái Không Nhất Quán

Các bộ dữ liệu khác nhau sử dụng các kích thước hành động hoặc trạng thái khác nhau, ngay cả đối với cùng một robot (ví dụ: so100). Một số bộ dữ liệu hiển thị sự không nhất quán trong định dạng hành động/trạng thái.

Điều Gì Tạo Nên Một Bộ Dữ Liệu Tốt?

Bây giờ chúng ta đã biết rằng việc tạo một bộ dữ liệu chất lượng cao là điều cần thiết để huấn luyện các chính sách robot đáng tin cậy và có thể khái quát hóa, chúng tôi đã vạch ra một danh sách kiểm tra các phương pháp hay nhất để hỗ trợ bạn thu thập dữ liệu hiệu quả.

Chất Lượng Hình Ảnh

✅ Tốt nhất nên sử dụng hai góc nhìn camera
✅ Đảm bảo quay video ổn định (không rung)
✅ Duy trì ánh sáng trung tính, ổn định (tránh tông màu quá vàng hoặc xanh lam)
✅ Đảm bảo phơi sáng nhất quán và lấy nét sắc nét
✅ Cánh tay dẫn đầu không nên xuất hiện trong khung hình
✅ Các đối tượng chuyển động duy nhất phải là cánh tay theo sau và các vật phẩm được thao tác (tránh các chi/cơ thể người)
✅ Sử dụng nền tĩnh, không gây xao nhãng hoặc áp dụng các biến thể được kiểm soát
✅ Ghi ở độ phân giải cao (ít nhất 480x640 / 720p)

Siêu Dữ Liệu & Giao Thức Ghi

✅ Chọn đúng loại robot trong siêu dữ liệu Nếu bạn đang sử dụng một robot tùy chỉnh không có trong sổ đăng ký cấu hình LeRobot chính thức, chúng tôi khuyên bạn nên kiểm tra xem các robot tương tự được đặt tên như thế nào trong các bộ dữ liệu hiện có trên LeRobot Hub để đảm bảo tính nhất quán.
✅ Ghi video ở tốc độ khoảng 30 khung hình trên giây (FPS)
✅ Nếu xóa các tập, hãy đảm bảo cập nhật các tệp siêu dữ liệu cho phù hợp (chúng tôi sẽ cung cấp các công cụ thích hợp để chỉnh sửa bộ dữ liệu)

Quy Ước Đặt Tên Tính Năng

Sử dụng một sơ đồ đặt tên nhất quán và có thể diễn giải cho tất cả các góc nhìn camera và quan sát:

Định dạng:

<phương thức>. <vị trí>

Ví dụ:

images.top
images.front
images.left
images.right

Tránh các tên dành riêng cho thiết bị:

❌ images.laptop
❌ images.phone

Đối với camera gắn trên cổ tay, hãy chỉ định hướng:

images.wrist.left
images.wrist.right
images.wrist.top
images.wrist.bottom

Việc đặt tên nhất quán cải thiện sự rõ ràng và giúp các mô hình hạ nguồn diễn giải tốt hơn các cấu hình không gian và đầu vào đa dạng.

Chú Thích Nhiệm Vụ

✅ Sử dụng trường task để mô tả rõ ràng mục tiêu của robot
- Ví dụ: Nhặt khối lego màu vàng và bỏ vào hộp
✅ Giữ cho mô tả nhiệm vụ ngắn gọn (từ 25–50 ký tự)
✅ Tránh các tên mơ hồ hoặc chung chung như task1, demo2, v.v.

Dưới đây, chúng tôi cung cấp một danh sách kiểm tra đóng vai trò là hướng dẫn để ghi bộ dữ liệu, vạch ra các điểm chính cần ghi nhớ trong quá trình thu thập dữ liệu.

Bạn Có Thể Giúp Bằng Cách Nào?

Thế hệ robot tổng quát tiếp theo sẽ không được xây dựng bởi một người hoặc phòng thí nghiệm duy nhất—chúng sẽ được xây dựng bởi tất cả chúng ta. Cho dù bạn là sinh viên, nhà nghiên cứu hay chỉ đơn giản là tò mò về robot, đây là cách bạn có thể tham gia:

🎥 Ghi bộ dữ liệu của riêng bạn — Sử dụng các công cụ LeRobot để ghi lại và tải lên các bộ dữ liệu chất lượng tốt từ robot của bạn.
🧠 Cải thiện chất lượng bộ dữ liệu — Tuân theo danh sách kiểm tra của chúng tôi, dọn dẹp bản ghi của bạn và giúp đặt ra các tiêu chuẩn mới cho dữ liệu robot.
📦 Đóng góp cho Hub — Tải lên bộ dữ liệu, chia sẻ ví dụ và khám phá những gì người khác đang xây dựng.
💬 Tham gia cuộc trò chuyện — Đưa ra phản hồi, yêu cầu tính năng hoặc giúp định hình lộ trình bằng cách tham gia Máy Chủ Discord LeRobot của chúng tôi.
🌍 Phát triển phong trào — Giới thiệu LeRobot cho câu lạc bộ, lớp học hoặc phòng thí nghiệm của bạn. Càng nhiều cộng tác viên = khái quát hóa càng tốt.

Hãy bắt đầu ghi, bắt đầu đóng góp—bởi vì tương lai của robot tổng quát phụ thuộc vào dữ liệu mà chúng ta xây dựng ngày hôm nay.

AI Today - SkyAI