Giới thiệu NVIDIA Cosmos Policy cho Điều khiển Robot Nâng cao
NVIDIA Cosmos Policy mang đến khả năng suy luận nâng cao cho AI vật lý.
- 12 min read
Giới thiệu NVIDIA Cosmos Policy cho Điều khiển Robot Nâng cao
Chúng tôi liên tục mở rộng các mô hình nền tảng thế giới (WFMs) NVIDIA Cosmos™ để giải quyết các vấn đề khó khăn nhất trong lĩnh vực robot, phát triển xe tự hành và thị giác công nghiệp AI.
Để hỗ trợ thêm cho nỗ lực này, chúng tôi giới thiệu Cosmos Policy, nghiên cứu mới nhất của chúng tôi về việc nâng cao khả năng điều khiển và lập kế hoạch cho robot bằng Cosmos WFMs.
Tóm tắt nhanh (TL;DR)
-
Cosmos Policy: Một chính sách điều khiển robot tiên tiến, được hậu huấn luyện từ mô hình nền tảng thế giới Cosmos Predict-2. Chính sách này trực tiếp mã hóa các hành động của robot và các trạng thái tương lai vào mô hình, đạt được hiệu suất hàng đầu trên các bộ dữ liệu LIBERO và RoboCasa.
- 📦 Mô hình trên HuggingFace
- 🔧 Mã nguồn trên GitHub
-
Cosmos Cookoff: Một cuộc thi hackathon mở, nơi các nhà phát triển có thể trải nghiệm các mô hình nền tảng thế giới Cosmos và đẩy giới hạn của AI vật lý.
- 🍳 Tham gia Cosmos Cookoff
Tổng quan: Cosmos Policy là gì?
Cosmos Policy là một chính sách điều khiển và lập kế hoạch cho robot, thu được bằng cách tinh chỉnh Cosmos Predict, một mô hình nền tảng thế giới được huấn luyện để dự đoán các khung hình tiếp theo. Thay vì giới thiệu các thành phần kiến trúc mới hoặc các mô-đun hành động riêng biệt, Cosmos Policy điều chỉnh mô hình được tiền huấn luyện trực tiếp thông qua một giai đoạn hậu huấn luyện duy nhất trên dữ liệu biểu diễn robot.
Một Chính sách là bộ não ra quyết định của hệ thống, ánh xạ các quan sát (như hình ảnh camera) thành các hành động vật lý (như di chuyển cánh tay robot) để hoàn thành nhiệm vụ.
Điểm khác biệt là gì?
Thành tựu đột phá của Cosmos Policy nằm ở cách nó biểu diễn dữ liệu. Thay vì xây dựng các mạng nơ-ron riêng biệt cho nhận thức và điều khiển của robot, nó coi các hành động của robot, trạng thái vật lý và điểm số thành công giống như các khung hình trong một video.
Tất cả những điều này được mã hóa dưới dạng các khung hình tiềm ẩn bổ sung. Chúng được học bằng quy trình khuếch tán tương tự như tạo video, cho phép mô hình kế thừa sự hiểu biết đã học trước đó về vật lý, trọng lực và cách các cảnh phát triển theo thời gian.
Tiềm ẩn (Latent) đề cập đến ngôn ngữ toán học, nén mà mô hình sử dụng để hiểu dữ liệu bên trong (thay vì pixel thô).
Kết quả là, một mô hình duy nhất có thể:
- Dự đoán các khối hành động để hướng dẫn chuyển động của robot bằng phối hợp tay-mắt (tức là điều khiển thị giác-vận động).
- Dự đoán các quan sát robot trong tương lai để mô hình hóa thế giới.
- Dự đoán các lợi ích dự kiến (tức là hàm giá trị) để lập kế hoạch.
Cả ba khả năng này đều được học đồng thời trong một mô hình thống nhất.
Cosmos Policy có thể được triển khai dưới dạng chính sách trực tiếp, nơi chỉ tạo ra các hành động tại thời điểm suy luận, hoặc dưới dạng chính sách lập kế hoạch, nơi nhiều hành động ứng viên được đánh giá bằng cách dự đoán các trạng thái và giá trị tương lai của chúng.
Mô hình nền tảng: Cosmos Predict và tại sao nó quan trọng
Các công trình gần đây về thao tác robot ngày càng dựa vào các backbone tiền huấn luyện lớn để cải thiện khả năng khái quát hóa và hiệu quả dữ liệu. Hầu hết các phương pháp này đều dựa trên các mô hình ngôn ngữ thị giác (VLMs) được huấn luyện trên các tập dữ liệu hình ảnh-văn bản quy mô lớn và được tinh chỉnh để dự đoán hành động của robot.
Các mô hình này học cách hiểu video và mô tả những gì chúng thấy, nhưng chúng không học cách thực hiện hành động một cách vật lý. Một VLM có thể đề xuất các hành động cấp cao như “rẽ trái” hoặc “nhặt cốc màu tím”, nhưng nó không biết cách thực hiện chính xác.
Ngược lại, các WFM được huấn luyện để dự đoán cách các cảnh phát triển theo thời gian và tạo ra động lực thời gian với video. Những khả năng này liên quan trực tiếp đến việc điều khiển robot, nơi các hành động phải tính đến cách môi trường và trạng thái của chính robot thay đổi theo thời gian.
Cosmos Predict được huấn luyện cho AI vật lý bằng một mục tiêu khuếch tán trên các tiềm ẩn không-thời gian liên tục, cho phép nó mô hình hóa các phân phối phức tạp, chiều cao và đa phương thức trên các chân trời thời gian dài.
Thiết kế này làm cho Cosmos Predict trở thành nền tảng tự nhiên cho điều khiển thị giác-vận động:
- Mô hình đã học được sự chuyển đổi trạng thái thông qua dự đoán khung hình tiếp theo.
- Công thức khuếch tán của nó hỗ trợ đầu ra đa phương thức, rất quan trọng đối với các nhiệm vụ có nhiều chuỗi hành động hợp lệ.
- Bộ khử nhiễu dựa trên transformer có thể mở rộng cho các chuỗi dài và nhiều phương thức.
Cosmos Policy được xây dựng dựa trên Cosmos Predict2 hậu huấn luyện để tạo ra các hành động robot cùng với các quan sát tương lai và ước tính giá trị, sử dụng quy trình khuếch tán gốc của mô hình. Điều này cho phép chính sách kế thừa hoàn toàn sự hiểu biết của mô hình được tiền huấn luyện về cấu trúc thời gian và tương tác vật lý trong khi vẫn đơn giản để huấn luyện và triển khai.
⚡ Cập nhật quan trọng: Phiên bản Cosmos Predict 2.5 mới nhất đã có tại đây. Hãy xem thẻ mô hình.
Kết quả nổi bật
Cosmos Policy được đánh giá trên các bộ dữ liệu mô phỏng và các tác vụ thao tác robot thực tế, so sánh với các chính sách khuếch tán được huấn luyện từ đầu, các chính sách robot dựa trên video và các mô hình ngôn ngữ-thị giác-hành động (VLA) được tinh chỉnh.
Cosmos Policy được đánh giá trên LIBERO và RoboCasa, hai bộ dữ liệu tiêu chuẩn cho thao tác robot đa nhiệm và dài hạn.
Trên LIBERO, Cosmos Policy liên tục vượt trội hơn các chính sách khuếch tán và phương pháp dựa trên VLA trước đó trên các bộ tác vụ, đặc biệt là các tác vụ đòi hỏi sự phối hợp thời gian chính xác và thực hiện đa bước.
| Mô hình | Tỷ lệ thành công không gian (%) | Tỷ lệ thành công đối tượng (%) | Tỷ lệ thành công mục tiêu (%) | Tỷ lệ thành công dài (%) | Tỷ lệ thành công trung bình (%) |
|---|---|---|---|---|---|
| Diffusion Policy | 78.3 | 92.5 | 68.3 | 50.5 | 72.4 |
| Dita | 97.4 | 94.8 | 93.2 | 83.6 | 92.3 |
| π0 | 96.8 | 98.8 | 95.8 | 85.2 | 94.2 |
| UVA | – | – | – | 90.0 | – |
| UniVLA | 96.5 | 96.8 | 95.6 | 92.0 | 95.2 |
| π0.5 | 98.8 | 98.2 | 98.0 | 92.4 | 96.9 |
| Video Policy | – | – | – | 94.0 | – |
| OpenVLA-OFT | 97.6 | 98.4 | 97.9 | 94.5 | 97.1 |
| CogVLA | 98.6 | 98.8 | 96.6 | 95.4 | 97.4 |
| Cosmos Policy (của chúng tôi) | 98.1 | 100.0 | 98.2 | 97.6 | 98.5 |
Trên RoboCasa, Cosmos Policy đạt tỷ lệ hoàn thành cao hơn so với các mô hình cơ sở được huấn luyện từ đầu, chứng tỏ khả năng khái quát hóa được cải thiện trên các kịch bản thao tác gia đình đa dạng.
| Mô hình | Số lần thử nghiệm đào tạo cho mỗi nhiệm vụ | Tỷ lệ hoàn thành trung bình (%) |
|---|---|---|
| GR00T-N1 | 300 | 49.6 |
| UVA | 50 | 50.0 |
| DP-VLA | 3000 | 57.3 |
| GR00T-N1 + DreamGen | 300 (+10000 tổng hợp) | 57.6 |
| GR00T-N1 + DUST | 300 | 58.5 |
| UWM | 1000 | 60.8 |
| π0 | 300 | 62.5 |
| GR00T-N1.5 | 300 | 64.1 |
| Video Policy | 300 | 66.0 |
| FLARE | 300 | 66.4 |
| GR00T-N1.5 + HAMLET | 300 | 66.4 |
| Cosmos Policy (của chúng tôi) | 50 | 67.1 |
Trên cả hai bộ dữ liệu, việc khởi tạo từ Cosmos Predict mang lại lợi thế hiệu suất đáng kể so với việc huấn luyện các kiến trúc tương đương mà không cần tiền huấn luyện video.
Thực thi chính sách trực tiếp so với Lập kế hoạch
Khi triển khai dưới dạng chính sách trực tiếp, Cosmos Policy đã đạt hoặc vượt hiệu suất hàng đầu trên hầu hết các tác vụ. Khi được tăng cường với lập kế hoạch dựa trên mô hình, chúng tôi quan sát thấy tỷ lệ hoàn thành tác vụ cao hơn 12,5% trung bình trong hai tác vụ thao tác thực tế đầy thử thách.
Thao tác thực tế
Cosmos Policy cũng được đánh giá trên các tác vụ thao tác hai tay trong thế giới thực bằng nền tảng robot ALOHA. Chính sách này thực hiện thành công các tác vụ thao tác dài hạn trực tiếp từ quan sát trực quan.
Tìm hiểu thêm về kiến trúc và kết quả tại đây.
Điều gì tiếp theo: Cosmos Cookoff
Cosmos Policy đại diện cho một bước đi ban đầu trong việc điều chỉnh các mô hình nền tảng thế giới cho việc điều khiển và lập kế hoạch robot. Chúng tôi đang tích cực làm việc với những người dùng đầu tiên để phát triển nghiên cứu này cho cộng đồng robot của chúng tôi.
Song song đó, Cosmos Policy tiếp tục có sẵn cho các nhà phát triển thông qua công thức Cosmos Cookbook thực tế, hướng dẫn cách bạn có thể áp dụng và xây dựng nó.
Để hỗ trợ thử nghiệm thực tế với các mô hình Cosmos, chúng tôi công bố Cosmos Cookoff, một cuộc thi hackathon mở tập trung vào việc xây dựng các ứng dụng và quy trình làm việc sử dụng các mô hình Cosmos và công thức cookbook. Cuộc thi Cookoff mới nhất đang diễn ra, mời các nhà phát triển AI vật lý trong lĩnh vực robot, xe tự hành và phân tích video khám phá, tạo mẫu nhanh và học hỏi cùng các chuyên gia.
🍳 Tham gia Cosmos Cookoff
- 📅 Thời gian: Ngày 29 tháng 1 – ngày 26 tháng 2
- 👥 Hình thức đội: Đội tối đa 4 thành viên
- 🏆 Giải thưởng: Giải tiền mặt $5.000, NVIDIA DGX Spark™, GPU NVIDIA GeForce RTX™ 5090 và hơn thế nữa!
- 🧑⚖️ Giám khảo: Các dự án sẽ được đánh giá bởi các chuyên gia từ Datature, Hugging Face, Nebius, Nexar và NVIDIA, những người mang kinh nghiệm sâu sắc về các mô hình mở, đám mây/tính toán và các triển khai AI biên và thị giác thực tế.
📣 Bắt đầu
- Khám phá thêm các công thức nấu ăn với Cosmos Cookbook để sử dụng cho các trường hợp của riêng bạn.
- Khám phá các mô hình và bộ dữ liệu Cosmos mở mới trên Hugging Face và GitHub hoặc thử nghiệm các mô hình trên build.nvidia.com.
- Trong suốt tháng 2, chúng tôi tổ chức các buổi hướng dẫn trực tiếp, các buổi nói chuyện của đối tác và AMA giới thiệu các nhà lãnh đạo ngành như Intbot, Milestone Systems, Nebius và hơn thế nữa — thêm chúng vào lịch của bạn.
- Hãy là một phần của cộng đồng và tham gia kênh Cosmos Discord của chúng tôi.
- Bạn đã sử dụng Cosmos? Tìm hiểu thêm về cách đóng góp cho Cosmos Cookbook.
Cộng đồng
</div>
</div>
<label class="border-t-1 flex cursor-default items-center rounded-b-lg border-b-2 border-l-2 border-r-2 border-gray-200 px-2.5 py-1.5 text-sm text-gray-400 shadow-sm cursor-not-allowed opacity-70"><svg class="flex-none text-sm mr-1.5 text-gray-300 dark:text-gray-500" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 24 24"><path fill="currentColor" d="M19 2H5a3.009 3.009 0 0 0-3 3v8.86l3.88-3.88a3.075 3.075 0 0 1 4.24 0l2.871 2.887l.888-.888a3.008 3.008 0 0 1 4.242 0L22 15.86V5a3.009 3.009 0 0 0-3-3z" opacity=".5"></path><path fill="currentColor" d="M10.12 9.98a3.075 3.075 0 0 0-4.24 0L2 13.86V19a3.009 3.009 0 0 0 3 3h14a3 3 0 0 0 2.16-.92L10.12 9.98z"></path><path fill="currentColor" d="m22 15.858l-3.879-3.879a3.008 3.008 0 0 0-4.242 0l-.888.888l8.165 8.209c.542-.555.845-1.3.844-2.076v-3.142z" opacity=".25"></path></svg>
<div class="hidden md:block">Tải lên hình ảnh, âm thanh và video bằng cách kéo vào ô nhập văn bản, dán hoặc **nhấp vào đây**.
</div>
<div class="md:hidden">Chạm hoặc dán vào đây để tải lên hình ảnh</div>
<input accept="image/png, image/jpeg, image/gif, image/webp, video/mp4, video/quicktime, video/webm, audio/mpeg, audio/wav" class="hidden" disabled type="file" multiple></label></div>
</div>
<div class="flex flex-col space-y-2 md:flex-row md:items-center md:space-x-2 md:space-y-0"><button class="btn btn-large" disabled><svg class="text-gray-400 mr-1.5" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 24 24"><path class="uim-primary" d="M17 13H7a1 1 0 0 1 0-2h10a1 1 0 0 1 0 2z" fill="currentColor"></path><path class="uim-tertiary" d="M12 2a10 10 0 0 0-7.743 16.33l-1.964 1.963A1 1 0 0 0 3 22h9a10 10 0 0 0 0-20zM9 7h6a1 1 0 0 1 0 2H9a1 1 0 0 1 0-2zm6 10H9a1 1 0 0 1 0-2h6a1 1 0 0 1 0 2zm2-4H7a1 1 0 0 1 0-2h10a1 1 0 0 1 0 2z" opacity=".5" fill="currentColor"></path><path class="uim-primary" d="M15 17H9a1 1 0 0 1 0-2h6a1 1 0 0 1 0 2zm0-8H9a1 1 0 0 1 0-2h6a1 1 0 0 1 0 2z" fill="currentColor"></path></svg>
Bình luận
</button>
<p class="py-1 text-gray-800"><span class="ml-2 mr-3.5 hidden text-gray-400 md:inline">·</span>
<a class="underline hover:text-gray-500" href="/join?next=%2Fblog%2Fnvidia%2Fcosmos-policy-for-robot-control">Đăng ký</a> hoặc
<a class="underline hover:text-gray-500" href="/login?next=%2Fblog%2Fnvidia%2Fcosmos-policy-for-robot-control">đăng nhập</a> để bình luận
</p></div></div></div></div></div></div>
<div class="w-56 flex-none pt-28 max-lg:hidden"><div class="SVELTE_HYDRATER contents" data-target="UpvoteControl" data-props="{"classNames":"lg:max-w-60 lg:flex-col lg:items-start!","maxShown":12,"apiUrlPrefix":"/api/blog/nvidia/cosmos-policy-for-robot-control","postLoginRedirectUrl":"/blog/nvidia/cosmos-policy-for-robot-control","style":"horizontal","color":"gray","upvotedColor":"orange","upvoted":false,"upvoters":[{"_id":"5f31c8cf7e5835433862146f","avatarUrl":"/avatars/64217ccdbf3b9610b3ec69224093bd83.svg","isPro":false,"fullname":"Dmytro Zhylko","user":"Zhylkaaa","type":"user"},{"_id":"60a551a34ecc5d054c8ad93e","avatarUrl":"https://cdn-avatars.huggingface.co/v1/production/uploads/60a551a34ecc5d054c8ad93e/dhcBFtwNLcKqqASxniyVw.jpeg","isPro":false,"fullname":"Mishig Davaadorj","user":"mishig","type":"user"},{"_id":"60aea70372c8037df49b7f35","avatarUrl":"/avatars/5b6b2ea60d7c70bd2ddcff501aa7981e.svg","isPro":false,"fullname":"Ke Ding","user":"kding1","type":"user"},{"_id":"624ac233c04d55ec0f42b11e","avatarUrl":"/avatars/58a9abce945e71a65abc8a54085de6d7.svg","isPro":false,"fullname":"oh sehun","user":"sehun","type":"user"},{"_id":"62a9099491f40d05b8edd08a","avatarUrl":"https://cdn-avatars.huggingface.co/v1/production/uploads/62a9099491f40d05b8edd08a/sjGgvtaiDrRZp1uC3x8Pm.jpeg","isPro":false,"fullname":"Alperen Degirmenci","user":"adegirmenci","type":"user"},{"_id":"6319b36409baf858241f0f89","avatarUrl":"/avatars/909635453bf62a2a7118a01dd51b811c.svg","isPro":true,"fullname":"shaun smith","user":"evalstate","type":"user"},{"_id":"63322ca16eae0bb0a01dea0b","avatarUrl":"/avatars/dea69d3bf7921f912b1fb8a2f94567c5.svg","isPro":false,"fullname":"Reed li","user":"RobotDall","type":"user"},{"_id":"63b738acbd2d1535227daa4c","avatarUrl":"https://cdn-avatars.huggingface.co/v1/production/uploads/63b738acbd2d1535227daa4c/dbPQFvHwC-Cf-ssMGYUo6.jpeg","isPro":false,"fullname":"Tsung-Yi Lin","user":"tsungyi","type":"user"},{"_id":"63edc468679c2cc40abd4b16","avatarUrl":"https://cdn-avatars.huggingface.co/v1/production/uploads/63edc468679c2cc40abd4b16/G6dSJ_tFG28QIRt9MaxHv.jpeg","isPro":false,"fullname":"Yi-Hao","user":"yihaopeng","type":"user"},{"_id":"63f516f6b51da4d61da6bca8","avatarUrl":"/avatars/328b0d299ff3370a853b957dc72974b9.svg","isPro":false,"fullname":"Paula Ramos","user":"pjramg","type":"user"},{"_id":"647e8118770c299e56fc2bc8","avatarUrl":"/avatars/adf80f3473dda42450148789ae5c208f.svg","isPro":false,"fullname":"Jinwei Gu","user":"jwgu","type":"user"},{"_id":"65316d2f6e2c934031307c48","avatarUrl":"/avatars/eaebf31d93f13361a09a576250c66091.svg","isPro":false,"fullname":"Will Cowles","user":"willcowles","type":"user"}],"upvotes":25}"><div class="flex flex-wrap items-center gap-2.5 pt-1 lg:max-w-60 lg:flex-col lg:items-start! z-1 lg:sticky lg:top-8"><a href="/login?next=%2Fblog%2Fnvidia%2Fcosmos-policy-for-robot-control" class="self-start">
<div class="shadow-alternate group flex h-9 cursor-pointer select-none items-center gap-2 rounded-lg border pl-3 pr-3.5 border-gray-300 bg-white dark:bg-gray-850 "><input disabled type="checkbox" class="peer hidden">
<svg class="text-xs text-gray-500 peer-checked:text-gray-500 group-hover:text-gray-500" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 12 12"><path fill="currentColor" d="M5.19 2.67a.94.94 0 0 1 1.62 0l3.31 5.72a.94.94 0 0 1-.82 1.4H2.7a.94.94 0 0 1-.82-1.4l3.31-5.7v-.02Z"></path></svg>
Ủng hộ
<div class="font-semibold text-orange-500">25</div></div>
<li class="text-xs text-gray-600 hover:text-gray-700 dark:text-gray-400 dark:hover:text-gray-300 order-last ml-3"><button class="btn bg-linear-to-br -ml-3 translate-x-px rounded-full border-2 border-white px-1.5 py-0.5 text-xs">+13</button></li></ul></div>
Link bài viết gốc
- Tags:
- Ai
- 29 January 2026
- Huggingface.co