SmolVLA- Mô hình Vision-Language-Action hiệu quả được đào tạo trên Dữ liệu Cộng đồng Lerobot

  • 19 min read
SmolVLA- Mô hình Vision-Language-Action hiệu quả được đào tạo trên Dữ liệu Cộng đồng Lerobot

SmolVLA: Mô hình Tầm nhìn-Ngôn ngữ-Hành động Hiệu quả được Đào tạo trên Dữ liệu Cộng đồng Lerobot

Hôm nay, chúng tôi giới thiệu SmolVLA, một mô hình Tầm nhìn-Ngôn ngữ-Hành động mã nguồn mở, nhỏ gọn (450M) dành cho robot, chạy trên phần cứng tiêu dùng.

  • Được đào tạo trước chỉ trên các bộ dữ liệu mã nguồn mở do cộng đồng chia sẻ dưới thẻ lerobot.
  • SmolVLA-450M vượt trội hơn nhiều VLA lớn hơn và các đường cơ sở mạnh mẽ như ACT trong mô phỏng (LIBERO, Meta-World) và các tác vụ trong thế giới thực (SO100, SO101).
  • Hỗ trợ suy luận không đồng bộ để phản hồi nhanh hơn 30%tăng gấp đôi thông lượng tác vụ.

Các liên kết hữu ích:

📚 Bảng nội dung

Giới thiệu

Trong vài năm qua, Transformers đã thúc đẩy sự tiến bộ vượt bậc trong AI, từ các mô hình ngôn ngữ có khả năng suy luận giống con người đến các hệ thống đa phương thức có thể hiểu cả hình ảnh và văn bản. Tuy nhiên, trong lĩnh vực robot thực tế, những tiến bộ đã chậm hơn nhiều. Robot vẫn gặp khó khăn trong việc khái quát hóa trên các đối tượng, môi trường và tác vụ đa dạng. Sự tiến bộ hạn chế này bắt nguồn từ việc thiếu dữ liệu đa dạng, chất lượng cao và sự vắng mặt của các mô hình có thể suy luận và hành động giống như con người trong thế giới vật chất.

Để đáp ứng những thách thức này, lĩnh vực này gần đây đã chuyển sang các mô hình tầm nhìn-ngôn ngữ-hành động (VLA), nhằm mục đích thống nhất nhận thức, hiểu ngôn ngữ và dự đoán hành động trong một kiến trúc duy nhất. VLA thường lấy các quan sát trực quan thô và hướng dẫn bằng ngôn ngữ tự nhiên làm đầu vào và xuất ra các hành động tương ứng của robot. Mặc dù đầy hứa hẹn, nhưng phần lớn tiến bộ gần đây trong VLA vẫn bị khóa sau các mô hình độc quyền được đào tạo trên các bộ dữ liệu riêng tư quy mô lớn, thường yêu cầu thiết lập phần cứng tốn kém và nguồn lực kỹ thuật rộng lớn. Do đó, cộng đồng nghiên cứu robot rộng lớn hơn phải đối mặt với những rào cản đáng kể trong việc tái tạo và xây dựng dựa trên các mô hình này.

SmolVLA giải quyết khoảng cách này bằng cách cung cấp một mô hình VLA mã nguồn mở, nhỏ gọn và hiệu quả có thể được đào tạo trên phần cứng cấp tiêu dùng chỉ sử dụng các bộ dữ liệu có sẵn công khai. Bằng cách phát hành không chỉ trọng số mô hình mà còn sử dụng phần cứng nguồn mở rất hợp lý, SmolVLA nhằm mục đích dân chủ hóa quyền truy cập vào các mô hình tầm nhìn-ngôn ngữ-hành động và đẩy nhanh nghiên cứu hướng tới các tác nhân robot tổng quát.

Gặp gỡ SmolVLA!

SmolVLA-450M là mô hình VLA mã nguồn mở, nhỏ gọn nhưng có khả năng của chúng tôi. Nó là:

  • Đủ nhỏ để chạy trên CPU, đào tạo trên một GPU tiêu dùng duy nhất hoặc thậm chí là MacBook!
  • Được đào tạo trên dữ liệu robot công khai, do cộng đồng chia sẻ
  • Được phát hành với đầy đủ các công thức đào tạo và suy luận
  • Có thể được kiểm tra và triển khai trên phần cứng rất hợp lý (SO-100, SO-101, LeKiwi, v.v.)

Lấy cảm hứng từ các mô hình đào tạo của Mô hình Ngôn ngữ Lớn (LLM), SmolVLA trải qua giai đoạn đào tạo trước trên dữ liệu thao tác chung, sau đó là đào tạo sau cụ thể cho từng tác vụ. Về mặt kiến trúc, nó kết hợp Transformers với bộ giải mã flow-matching và được tối ưu hóa cho tốc độ và suy luận độ trễ thấp với các lựa chọn thiết kế sau:

  • Bỏ qua một nửa số lớp của mô hình tầm nhìn để suy luận nhanh hơn và kích thước nhỏ hơn
  • Xen kẽ các khối tự chú ý và chú ý chéo
  • Sử dụng ít token hình ảnh hơn
  • Tận dụng các VLM được đào tạo trước nhỏ hơn

Mặc dù sử dụng ít hơn 30 nghìn tập đào tạo—ít hơn một bậc so với các VLA khác—SmolVLA phù hợp hoặc vượt quá hiệu suất của các mô hình lớn hơn nhiều, cả trong mô phỏng và thế giới thực.

Để giúp robot thời gian thực dễ sử dụng hơn, chúng tôi giới thiệu một ngăn xếp suy luận không đồng bộ. Công nghệ này tách biệt cách robot thực hiện các hành động với cách chúng hiểu những gì chúng nhìn và nghe. Do sự tách biệt này, robot có thể phản ứng nhanh hơn trong môi trường thay đổi nhanh chóng.

🚀 Cách sử dụng SmolVLA?

SmolVLA được thiết kế để dễ sử dụng và tích hợp—cho dù bạn đang tinh chỉnh trên dữ liệu của riêng mình hay cắm nó vào một ngăn xếp robot hiện có.

Cài đặt

Đầu tiên, cài đặt các phụ thuộc cần thiết:

git clone https://github.com/huggingface/lerobot.git
cd lerobot
pip install -e ".[smolvla]"

Tinh chỉnh mô hình đã được đào tạo trước

Sử dụng smolvla_base, mô hình 450M đã được đào tạo trước của chúng tôi, với khung đào tạo lerobot:

python lerobot/scripts/train.py \
  --policy.path=lerobot/smolvla_base \
  --dataset.repo_id=lerobot/svla_so100_stacking \
  --batch_size=64 \
  --steps=200000

Đào tạo từ đầu

Nếu bạn muốn xây dựng từ kiến trúc (VLM + chuyên gia hành động đã được đào tạo trước) thay vì một điểm kiểm tra đã được đào tạo trước:

python lerobot/scripts/train.py \
  --policy.type=smolvla \
  --dataset.repo_id=lerobot/svla_so100_stacking \
  --batch_size=64 \
  --steps=200000

Bạn cũng có thể tải SmolVLAPolicy trực tiếp:

policy = SmolVLAPolicy.from_pretrained("lerobot/smolvla_base")

Phương pháp

SmolVLA không chỉ là một mô hình nhẹ nhưng có khả năng, mà còn là một phương pháp để đào tạo và đánh giá các chính sách robot tổng quát. Trong phần này, chúng tôi giới thiệu kiến trúc mô hình đằng sau SmolVLA và thiết lập suy luận không đồng bộ được sử dụng để đánh giá, đã được chứng minh là có khả năng thích ứng cao hơn và có khả năng phục hồi nhanh hơn.

SmolVLA bao gồm hai thành phần cốt lõi: một Mô hình Tầm nhìn-Ngôn ngữ (VLM) xử lý các đầu vào đa phương thức và một chuyên gia hành động xuất ra các lệnh điều khiển robot. Dưới đây, chúng tôi chia sẻ chi tiết về các thành phần chính của kiến trúc SmolVLA và Suy luận không đồng bộ. Bạn có thể tìm thêm chi tiết trong báo cáo kỹ thuật của chúng tôi.

Kiến trúc chính

Mô hình Tầm nhìn-Ngôn ngữ (VLM)

Chúng tôi sử dụng SmolVLM2 làm xương sống VLM của chúng tôi. Nó được tối ưu hóa cho các đầu vào đa hình ảnh và bao gồm một bộ mã hóa tầm nhìn SigLIP và một bộ giải mã ngôn ngữ SmolLM2.

  • Token hình ảnh được trích xuất thông qua bộ mã hóa tầm nhìn
  • Hướng dẫn ngôn ngữ được mã hóa thành token và được đưa trực tiếp vào bộ giải mã.
  • Trạng thái cảm biến vận động được chiếu thành một token duy nhất bằng cách sử dụng một lớp tuyến tính để căn chỉnh với chiều token của mô hình ngôn ngữ.

Các lớp bộ giải mã xử lý hình ảnh, ngôn ngữ và token trạng thái được nối. Các tính năng kết quả sau đó được chuyển cho chuyên gia hành động.

Chuyên gia Hành động: Biến đổi Flow Matching

Chuyên gia hành động của SmolVLA là một biến đổi nhỏ gọn (tham số ~100M) tạo ra các khối hành động, tức là các chuỗi hành động robot trong tương lai, được điều kiện trên các đầu ra của VLM. Nó được đào tạo bằng một mục tiêu flow matching, điều này dạy cho mô hình hướng dẫn các mẫu nhiễu trở lại sự thật cơ bản. Ngược lại, trong khi các biểu diễn hành động rời rạc (ví dụ: thông qua mã hóa thành token) rất mạnh mẽ, chúng thường yêu cầu giải mã tự hồi quy, chậm và kém hiệu quả tại thời điểm suy luận. Flow matching cho phép dự đoán trực tiếp, không tự hồi quy các hành động liên tục, cho phép điều khiển thời gian thực với độ chính xác cao.

Nói một cách trực quan hơn, trong quá trình đào tạo, chúng tôi thêm nhiễu ngẫu nhiên vào các chuỗi hành động thực của robot và yêu cầu mô hình dự đoán “vectơ hiệu chỉnh” đưa chúng trở lại quỹ đạo chính xác. Điều này tạo thành một trường vectơ mượt mà trên không gian hành động, giúp mô hình học các chính sách điều khiển chính xác và ổn định.

Chúng tôi triển khai điều này bằng cách sử dụng kiến trúc biến đổi với các khối chú ý xen kẽ (xem hình 2) và giảm kích thước ẩn của nó xuống 75% của VLM, giữ cho mô hình nhẹ để triển khai.

Lựa chọn thiết kế để đạt hiệu quả và độ bền

Trong khi kết hợp mô hình tầm nhìn-ngôn ngữ với một mô-đun dự đoán hành động là một mẫu thiết kế phổ biến trong các hệ thống VLA gần đây—chẳng hạn như Pi0, GR00T, Chính sách khuếch tán — chúng tôi đã xác định một số lựa chọn kiến trúc giúp tăng cường đáng kể độ bền và hiệu suất. Trong SmolVLA, chúng tôi áp dụng ba kỹ thuật chính: giảm số lượng token hình ảnh, bỏ qua các lớp trên trong VLMxen kẽ các lớp chú ý chéo và tự chú ý trong chuyên gia hành động.

Giảm số lượng token hình ảnh

Hình ảnh có độ phân giải cao cải thiện nhận thức nhưng có thể làm chậm đáng kể quá trình suy luận. Để đạt được sự cân bằng, SmolVLA giới hạn số lượng token hình ảnh ở 64 trên mỗi khung hình trong cả quá trình đào tạo và suy luận. Ví dụ: hình ảnh 512×512 được nén thành chỉ 64 token, thay vì 1024, sử dụng PixelShuffle như một kỹ thuật xáo trộn hiệu quả. Trong khi Mô hình Tầm nhìn-Ngôn ngữ (VLM) cơ bản ban đầu được đào tạo trước bằng cách sử dụng lát hình ảnh để có phạm vi bao phủ rộng hơn, SmolVLA chỉ sử dụng hình ảnh toàn cục tại thời điểm chạy để giữ cho suy luận nhẹ và nhanh.

Suy luận nhanh hơn thông qua Bỏ qua lớp

Thay vì luôn dựa vào lớp cuối cùng của VLM—điều này có thể tốn kém và đôi khi không tối ưu—chúng tôi sử dụng các tính năng từ các lớp trung gian. Các nghiên cứu trước đây đã chỉ ra rằng các lớp ban đầu thường cung cấp các biểu diễn tốt hơn cho các tác vụ hạ lưu. Trong SmolVLA, chuyên gia hành động chỉ tham gia vào các tính năng VLM lên đến một lớp NN có thể cấu hình trong quá trình đào tạo, được đặt thành một nửa tổng số lớp. Điều này giảm một nửa chi phí tính toán của cả VLM và chuyên gia hành động, giúp tăng tốc đáng kể suy luận với sự mất mát hiệu suất tối thiểu.

Chú ý chéo và tự chú ý xen kẽ

Bên trong chuyên gia hành động, các lớp chú ý luân phiên giữa:

  • Chú ý chéo (CA), nơi các token hành động tham gia vào các tính năng của VLM
  • Tự chú ý (SA), nơi các token hành động tham gia lẫn nhau (quan hệ nhân quả—chỉ đến quá khứ)

Chúng tôi phát hiện ra rằng thiết kế xen kẽ này vừa nhẹ hơn vừa hiệu quả hơn so với việc sử dụng các khối chú ý đầy đủ. Các mô hình chỉ dựa vào CA hoặc chỉ dựa vào SA có xu hướng hy sinh sự mượt mà hoặc sự tiếp đất.

Trong SmolVLA, CA đảm bảo rằng các hành động được điều kiện tốt về nhận thức và hướng dẫn, trong khi SA cải thiện sự mượt mà về thời gian—đặc biệt quan trọng đối với việc điều khiển trong thế giới thực, nơi các dự đoán giật có thể dẫn đến hành vi không an toàn hoặc không ổn định.

Suy luận không đồng bộ

Các chính sách visuomotor hiện đại xuất ra các khối hành động—các chuỗi hành động để thực hiện. Có hai cách để quản lý chúng:

  • Đồng bộ (sync): Robot thực hiện một khối, sau đó tạm dừng trong khi khối tiếp theo được tính toán. Đơn giản, nhưng gây ra sự chậm trễ khi robot không thể phản ứng với các đầu vào mới.
  • Không đồng bộ (async): Trong khi thực hiện khối hiện tại, robot đã gửi quan sát mới nhất đến Máy chủ chính sách (có thể được lưu trữ trên GPU) cho khối tiếp theo. Điều này tránh thời gian chờ và cải thiện khả năng phản ứng.

Ngăn xếp không đồng bộ của chúng tôi tách rời việc thực hiện hành động khỏi dự đoán khối, dẫn đến khả năng thích ứng cao hơn và hoàn toàn không có độ trễ thực thi tại thời điểm chạy. Nó dựa trên các cơ chế chính sau:

  • 1. Kích hoạt sớm: Khi độ dài hàng đợi giảm xuống dưới một ngưỡng (ví dụ: 70%), chúng tôi gửi một quan sát đến Máy chủ chính sách, yêu cầu một khối hành động mới.
  • 2. Các luồng tách rời: Vòng điều khiển tiếp tục thực thi → suy luận xảy ra song song (không chặn).
  • 3. Hợp nhất khối: Các hành động chồng chéo từ các khối kế tiếp được ghép với một quy tắc hợp nhất đơn giản để tránh giật.

Chúng tôi thực sự hào hứng về việc phát hành suy luận không đồng bộ vì nó đảm bảo khả năng thích ứng lớn hơn và cải thiện hiệu suất mà không cần thay đổi mô hình. Tóm lại, suy luận không đồng bộ giúp robot phản hồi nhanh bằng cách chồng chéo quá trình thực thi và dự đoán từ xa.

Bộ dữ liệu cộng đồng

Trong khi các mô hình tầm nhìn và ngôn ngữ phát triển mạnh trên các bộ dữ liệu quy mô web như LAION, ImageNet và Common Crawl, thì robot lại thiếu một tài nguyên tương đương. Không có “Internet của robot”. Thay vào đó, dữ liệu bị phân mảnh trên các loại robot, cảm biến, sơ đồ điều khiển và định dạng khác nhau—tạo thành các “đảo dữ liệu” bị ngắt kết nối. Trong bài đăng trước của chúng tôi, chúng tôi đã khám phá cách sự phân mảnh này có thể được giải quyết thông qua các nỗ lực hợp tác, mở. Giống như ImageNet đã xúc tác các đột phá trong thị giác máy tính bằng cách cung cấp một điểm chuẩn lớn, đa dạng, chúng tôi tin rằng các bộ dữ liệu robot do cộng đồng điều khiển có thể đóng vai trò nền tảng tương tự cho các chính sách robot tổng quát.

SmolVLA là bước đầu tiên của chúng tôi hướng tới tầm nhìn đó: Nó được đào tạo trước trên một hỗn hợp được tuyển chọn gồm các bộ dữ liệu có sẵn công khai, do cộng đồng đóng góp được thiết kế để phản ánh sự thay đổi trong thế giới thực. Thay vì chỉ tối ưu hóa cho kích thước bộ dữ liệu, chúng tôi tập trung vào sự đa dạng: một loạt các hành vi, quan điểm của camera và hiện thân để thúc đẩy sự chuyển giao và khái quát hóa.

Tất cả dữ liệu đào tạo được sử dụng trong SmolVLA đến từ Bộ dữ liệu cộng đồng LeRobot, bộ dữ liệu robot được chia sẻ trên Hugging Face Hub dưới thẻ lerobot. Được thu thập trong các cài đặt đa dạng, từ phòng thí nghiệm đến phòng khách, các bộ dữ liệu này đại diện cho một nỗ lực mở, phi tập trung để mở rộng quy mô dữ liệu robot thế giới thực.

Chúng tôi đã sử dụng một công cụ lọc tùy chỉnh do Alexandre ChapinVille Kuosmanen tạo ra để chọn các bộ dữ liệu dựa trên số lượng khung hình, chất lượng hình ảnh và phạm vi tác vụ. Sau một đánh giá thủ công tỉ mỉ (đặc biệt cảm ơn Marina Barannikov), chúng tôi đã tuyển chọn một bộ sưu tập gồm 487 bộ dữ liệu chất lượng cao tập trung vào cánh tay robot SO100, được chuẩn hóa ở 30 FPS. Điều này mang lại khoảng 10 triệu khung hình—ít nhất nhỏ hơn một bậc so với các bộ dữ liệu điểm chuẩn phổ biến khác, nhưng đa dạng hơn đáng kể.

Cải thiện chú thích tác vụ

Một vấn đề phổ biến trên các bộ dữ liệu cộng đồng là mô tả tác vụ bị ồn ào hoặc thiếu. Nhiều tập không có chú thích hoặc bao gồm các nhãn mơ hồ như “mô tả tác vụ” hoặc “Di chuyển”, “Chọn”. Để cải thiện chất lượng và chuẩn hóa đầu vào văn bản trên các bộ dữ liệu, chúng tôi đã sử dụng Qwen2.5-VL-3B-Instruct để tạo ra các mô tả ngắn gọn, hướng đến hành động.

Với các khung mẫu và nhãn gốc, mô hình được nhắc để viết lại hướng dẫn dưới 30 ký tự, bắt đầu bằng một động từ hành động (ví dụ: “Chọn”, “Đặt”, “Mở”).

Lời nhắc đã sử dụng là:

Đây là mô tả tác vụ hiện tại: {current_task}. Tạo một câu rất ngắn, rõ ràng và đầy đủ mô tả hành động được thực hiện bởi cánh tay robot (tối đa 30 ký tự). Không bao gồm các từ không cần thiết.
Hãy ngắn gọn.
Dưới đây là một số ví dụ: Chọn khối lập phương và đặt nó vào hộp, mở ngăn kéo, v.v.
Bắt đầu trực tiếp bằng một động từ hành động như "Chọn", "Đặt", "Mở", v.v.
Tương tự như các ví dụ đã cung cấp, hành động chính được thực hiện bởi cánh tay robot là gì?

Chuẩn hóa chế độ xem camera

Một thách thức khác là việc đặt tên camera không nhất quán. Một số bộ dữ liệu sử dụng các tên rõ ràng như trên cùng hoặc wrist.right, trong khi những bộ dữ liệu khác sử dụng các nhãn mơ hồ như images.laptop, có nghĩa khác nhau. Để khắc phục điều này, chúng tôi đã tự thực hiện các bộ dữ liệu và ánh xạ từng chế độ xem camera với một sơ đồ tiêu chuẩn hóa:

OBS_IMAGE_1: Chế độ xem từ trên xuống OBS_IMAGE_2: Chế độ xem gắn trên cổ tay OBS_IMAGE_3+: Các quan điểm bổ sung

Chúng tôi tiếp tục cô lập những đóng góp của việc đào tạo trước bộ dữ liệu cộng đồng và tinh chỉnh đa tác vụ. Nếu không được đào tạo trước trên các bộ dữ liệu cộng đồng LeRobot, SmolVLA ban đầu đạt được 51,7% thành công trên SO100. Sau khi đào tạo trước trên dữ liệu do cộng đồng thu thập, hiệu suất tăng lên 78,3%, một cải thiện tuyệt đối +26,6%. Việc tinh chỉnh đa tác vụ tiếp tục tăng cường hiệu suất, cho thấy khả năng chuyển tác vụ mạnh mẽ ngay cả trong các chế độ dữ liệu thấp.

Kết quả

Chúng tôi đánh giá SmolVLA trên các tiêu chuẩn mô phỏng và thế giới thực để kiểm tra khả năng khái quát hóa, hiệu quả và độ bền của nó. Mặc dù nhỏ gọn, nó liên tục vượt trội hoặc phù hợp với hiệu suất của các mô hình và chính sách lớn hơn đáng kể được đào tạo trước trên dữ liệu robot quy mô lớn hơn.

Trong các cài đặt thế giới thực, SmolVLA được đánh giá trên hai bộ đa dạng: SO100 và SO101. Các tác vụ này bao gồm chọn-đặt, xếp chồng và sắp xếp, với cả cấu hình đối tượng trong phân phối và ngoài phân phối. Trên SO101, SmolVLA cũng vượt trội trong khả năng khái quát hóa:

Cuối cùng, chúng tôi đánh giá SmolVLA trong các chế độ suy luận đồng bộ và không đồng bộ. Suy luận không đồng bộ tách rời việc thực hiện hành động khỏi suy luận mô hình, cho phép chính sách phản ứng trong khi robot đang di chuyển.

  • Cả hai chế độ đều đạt được thành công tác vụ tương tự (≈78%), nhưng suy luận không đồng bộ:
    • Hoàn thành các tác vụ nhanh hơn ~30% (9,7 giây so với 13,75 giây)
    • Cho phép hoàn thành nhiều hơn gấp 2 lần trong các cài đặt thời gian cố định (19 so với 9 khối lập phương)

Điều này dẫn đến hiệu suất trong thế giới thực nhạy bén và mạnh mẽ hơn, đặc biệt là trong các môi trường động với các đối tượng đang thay đổi hoặc các nhiễu loạn bên ngoài.

Kết luận

SmolVLA là đóng góp của chúng tôi cho việc xây dựng các mô hình nền tảng robot mở, hiệu quả và có thể tái tạo. Mặc dù có kích thước nhỏ, nó phù hợp hoặc vượt trội so với các mô hình độc quyền lớn hơn trên một loạt các tác vụ mô phỏng và thế giới thực. Bằng cách chỉ dựa vào các bộ dữ liệu do cộng đồng đóng góp và phần cứng giá cả phải chăng, SmolVLA hạ thấp rào cản gia nhập cho các nhà nghiên cứu, nhà giáo dục và những người có sở thích. Nhưng đây chỉ là sự khởi đầu. SmolVLA không chỉ là một mô hình — nó là một phần của phong trào mã nguồn mở ngày càng phát triển hướng tới robot có thể mở rộng, hợp tác.

Kêu gọi hành động:

  • Dùng thử! Tinh chỉnh SmolVLA trên dữ liệu của riêng bạn, triển khai nó trên phần cứng giá cả phải chăng hoặc so sánh nó với ngăn xếp hiện tại của bạn và chia sẻ nó trên twitter/linkedin.
  • Tải lên bộ dữ liệu! Có một robot? Thu thập và chia sẻ dữ liệu của bạn bằng định dạng lerobot. Giúp mở rộng bộ dữ liệu cộng đồng cung cấp sức mạnh cho SmolVLA.
  • Tham gia thảo luận trên blog. Thả câu hỏi, ý tưởng hoặc phản hồi của bạn vào phần thảo luận bên dưới. Chúng tôi rất sẵn lòng giúp đỡ với việc tích hợp, đào tạo hoặc triển khai.
  • Đóng góp. Cải thiện bộ dữ liệu, báo cáo vấn đề, đề xuất ý tưởng mới. Mọi đóng góp đều giúp ích.
  • Truyền bá. Chia sẻ SmolVLA với các nhà nghiên cứu, nhà phát triển hoặc nhà giáo dục đồng nghiệp quan tâm đến các chính sách robot thời gian thực, hiệu quả.
  • Giữ liên lạc: Theo dõi tổ chức LeRobotmáy chủ Discord để biết các bản cập nhật, hướng dẫn và bản phát hành mới.

Cùng nhau, chúng ta có thể làm cho robot trong thế giới thực có khả năng hơn, giá cả phải chăng hơn và cởi mở hơn. ✨

Recommended for You

Không để GPU nào bị bỏ lại phía sau- Mở khóa hiệu quả với vLLM đồng vị trí trong TRL

Không để GPU nào bị bỏ lại phía sau- Mở khóa hiệu quả với vLLM đồng vị trí trong TRL

Liger GRPO gặp TRL

Liger GRPO gặp TRL

Bài viết của khách