NVIDIA Cosmos Reason 2 Mang đến Khả năng Suy luận Nâng cao cho AI Vật lý

NVIDIA Cosmos Reason 2 Mang đến Khả năng Suy luận Nâng cao cho AI Vật lý

  • 7 min read
NVIDIA Cosmos Reason 2 Mang đến Khả năng Suy luận Nâng cao cho AI Vật lý
NVIDIA Cosmos Reason 2 Mang đến Khả năng Suy luận Nâng cao cho AI Vật lý

NVIDIA Cosmos Reason 2 mang đến khả năng suy luận nâng cao cho AI vật lý

NVIDIA hôm nay đã ra mắt Cosmos Reason 2, bước tiến mới nhất trong các mô hình ngôn ngữ thị giác suy luận mở cho AI vật lý. Cosmos Reason 2 vượt trội hơn phiên bản trước về độ chính xác và đứng đầu bảng xếp hạng Physical AI Bench và Physical Reasoning như mô hình mở số 1 về hiểu biết thị giác.

NVIDIA Cosmos Reason 2: Mô hình ngôn ngữ thị giác suy luận cho AI vật lý

Kể từ khi ra mắt, các mô hình ngôn ngữ thị giác (VLM) đã nhanh chóng cải thiện các tác vụ như nhận dạng đối tượng và mẫu trong hình ảnh. Tuy nhiên, chúng vẫn gặp khó khăn với các tác vụ mà con người thực hiện một cách tự nhiên, như lập kế hoạch trước nhiều bước, đối phó với sự không chắc chắn hoặc thích ứng với các tình huống mới. Cosmos Reason được thiết kế để thu hẹp khoảng cách này bằng cách cung cấp cho robot và các tác nhân AI khả năng phán đoán và suy luận mạnh mẽ hơn để giải quyết các vấn đề phức tạp từng bước.

Cosmos Reason 2 là một mô hình ngôn ngữ thị giác suy luận (VLM) tiên tiến, mở, cho phép robot và các tác nhân AI nhìn, hiểu, lập kế hoạch và hành động trong thế giới vật lý như con người. Nó sử dụng khả năng phán đoán, vật lý và kiến thức đã biết để nhận dạng cách các vật thể di chuyển trong không gian và thời gian nhằm xử lý các tác vụ phức tạp, thích ứng với các tình huống mới và tìm ra cách giải quyết vấn đề theo từng bước.

✨ Những điểm nổi bật chính

  • Cải thiện hiểu biết về không gian-thời gian và độ chính xác của dấu thời gian.
  • Tối ưu hóa hiệu suất với các tùy chọn triển khai linh hoạt từ biên đến đám mây với các kích thước mô hình 2B và 8B tham số.
  • Hỗ trợ tập hợp các khả năng hiểu không gian và nhận thức thị giác mở rộng — định vị điểm 2D/3D, tọa độ hộp giới hạn, dữ liệu quỹ đạo và hỗ trợ OCR.
  • Cải thiện khả năng hiểu ngữ cảnh dài với 256K token đầu vào, tăng từ 16K của Cosmos Reason 1.
  • Thích ứng với nhiều trường hợp sử dụng với các công thức “Cosmos Cookbook” dễ sử dụng.

🤖 Các trường hợp sử dụng phổ biến

  • Các tác nhân AI phân tích video — Các tác nhân này có thể trích xuất thông tin chi tiết có giá trị từ khối lượng lớn dữ liệu video để tối ưu hóa quy trình. Cosmos Reason 2 xây dựng dựa trên khả năng của Cosmos Reason 1 và hiện cung cấp hỗ trợ OCR, cũng như định vị điểm 2D/3D và bộ hiểu biết đánh dấu.

    Các nhà phát triển có thể đẩy nhanh quá trình phát triển các tác nhân AI phân tích video bằng cách sử dụng bản dựng “NVIDIA blueprint for video search and summarization (VSS)” với Cosmos Reason làm VLM.

    Salesforce đang chuyển đổi an toàn và tuân thủ tại nơi làm việc bằng cách phân tích cảnh quay video được ghi lại bởi robot Cobalt với Agentforce và bản dựng VSS với Cosmos Reason làm VLM.

  • Gán nhãn và phê bình dữ liệu — Cho phép các nhà phát triển tự động hóa việc gán nhãn và phê bình chất lượng cao cho các tập dữ liệu khổng lồ, đa dạng. Cosmos Reason cung cấp dấu thời gian và mô tả chi tiết cho các video đào tạo thực tế hoặc được tạo ra một cách tổng hợp.

    Uber đang khám phá Cosmos Reason 2 để cung cấp chú thích video chính xác, có thể tìm kiếm cho dữ liệu đào tạo xe tự hành (AV), cho phép xác định hiệu quả các tình huống lái xe quan trọng. Công thức “Reason 2 for AV Video Captioning and VQA” được đồng tác giả này cho thấy cách tinh chỉnh và đánh giá Cosmos Reason 2-8B trên các video AV đã được gán nhãn. Trên nhiều chỉ số đánh giá, những cải thiện có thể đo lường đã đạt được: điểm BLEU đã cải thiện 10,6% (0,113 → 0,125), VQA dựa trên MCQ đã tăng 0,67 điểm phần trăm (80,18% → 80,85%) và LingoQA đã tăng 13,8% (63,2% → 77,0%). Những cải thiện này cho thấy khả năng thích ứng miền hiệu quả cho các ứng dụng AV.

  • Lập kế hoạch và suy luận robot — Hoạt động như bộ não cho việc ra quyết định có chủ đích, có phương pháp trong mô hình hành động ngôn ngữ thị giác (VLA) của robot. Cosmos Reason 2 hiện cung cấp tọa độ quỹ đạo ngoài việc xác định các bước tiếp theo.

    Encord cung cấp hỗ trợ gốc cho Cosmos Reason 2 trong thư viện “Data Agent” và nền tảng dữ liệu AI của mình, cho phép các nhà phát triển tận dụng Cosmos Reason 2 làm VLA cho robot và các trường hợp sử dụng AI vật lý khác.

Các công ty như Hitachi, Milestone và VAST Data đang sử dụng Cosmos Reason để thúc đẩy robot, lái xe tự hành và các tác nhân AI phân tích video cho an toàn giao thông và tại nơi làm việc.

Hãy thử Cosmos Reason 2 trên build.nvidia.com và trải nghiệm các tính năng mới nhất với các lời nhắc mẫu để tạo hộp giới hạn và quỹ đạo robot. Tải lên video và hình ảnh của riêng bạn để phân tích thêm.

Tải xuống các mô hình Cosmos Reason 2 (2B8B) trên Hugging Face hoặc sử dụng Cosmos Reason 2 trên đám mây. Mô hình sẽ sớm có sẵn trên Amazon Web Services, Google Cloud và Microsoft Azure. Để bắt đầu, hãy xem tài liệu Cosmos Reason 2 và “Cosmos Cookbook”.

Các mô hình khác từ dòng Cosmos:

🔮 Cosmos Predict 2.5

Cosmos Predict là một mô hình AI tạo sinh dự đoán trạng thái tương lai của thế giới vật lý dưới dạng video, dựa trên đầu vào văn bản, hình ảnh hoặc video.

  • Đứng đầu bảng xếp hạng “Physical AI Bench” về chất lượng, độ chính xác và tính nhất quán tổng thể.
  • Tạo clip kéo dài tới 30 giây nhất quán về mặt vật lý và thời gian cho mỗi lần tạo.
  • Hỗ trợ nhiều tốc độ khung hình và độ phân giải.
  • Được đào tạo trước trên 200 triệu clip.
  • Có sẵn dưới dạng các mô hình được đào tạo trước 2B và 14B cũng như nhiều mô hình được đào tạo sau 2B cho đa khung nhìn, điều kiện hành động và đào tạo xe tự hành.

Xem thẻ mô hình »

🔁 Cosmos Transfer 2.5

Cosmos Transfer là mô hình đa điều khiển nhẹ nhất của chúng tôi được xây dựng để chuyển đổi phong cách từ video sang thế giới.

  • Tỷ lệ một mô phỏng hoặc video không gian trên nhiều môi trường và điều kiện ánh sáng.
  • Cải thiện tuân thủ lời nhắc và căn chỉnh vật lý.
  • Sử dụng với NVIDIA Isaac Sim™ hoặc NVIDIA Omniverse NuRec để chuyển đổi từ mô phỏng sang thực tế.

Xem thẻ mô hình »

🤖 NVIDIA GR00T N1.6

NVIDIA GR00T N1.6 là một mô hình hành động ngôn ngữ thị giác suy luận mở (VLA), được chế tạo đặc biệt cho robot hình người, giúp mở khóa khả năng kiểm soát toàn bộ cơ thể và sử dụng NVIDIA Cosmos Reason để suy luận và hiểu ngữ cảnh tốt hơn.

Tài liệu

▶️ Xem bản demo Cosmos → https://youtu.be/iWs-2TD5Dcc

🧑🏻‍🍳 Đọc Cosmos Cookbook → https://nvda.ws/4qevli8

📚 Khám phá Mô hình & Bộ dữ liệu → https://github.com/nvidia-cosmos

⬇️ Thử Mô hình Cosmos trong Danh mục được lưu trữ của chúng tôi → https://nvda.ws/3Yg0Dcx

💻 Tham gia Cộng đồng Cosmos → https://discord.gg/u23rXTHSC9

🗳️ Đóng góp cho Cosmos Cookbook → https://nvda.ws/4aQcBkk

Recommended for You

NVIDIA mang đến các agent sự sống với DGX Spark và Reachy Mini

NVIDIA mang đến các agent sự sống với DGX Spark và Reachy Mini

NVIDIA mang đến các agent sự sống với DGX Spark và Reachy Mini

Giới thiệu Falcon-H1-Arabic- Đẩy lùi ranh giới AI ngôn ngữ Ả Rập với kiến trúc lai

Giới thiệu Falcon-H1-Arabic- Đẩy lùi ranh giới AI ngôn ngữ Ả Rập với kiến trúc lai

Giới thiệu Falcon-H1-Arabic, một mô hình ngôn ngữ lớn tiên tiến được thiết kế đặc biệt cho tiếng Ả Rập. Khám phá kiến trúc lai đột phá và tác động của nó đối với các ứng dụng AI ngôn ngữ Ả Rập.