Gemini Robotics 1.5 đưa các tác nhân AI vào thế giới vật chất

Kỷ nguyên mới của các tác nhân vật lý sẽ giúp robot nhận thức, lập kế hoạch, suy nghĩ, sử dụng công cụ và hành động để giải quyết các nhiệm vụ phức tạp.

  • 11 min read
Gemini Robotics 1.5 đưa các tác nhân AI vào thế giới vật chất
Kỷ nguyên mới của các tác nhân vật lý sẽ giúp robot nhận thức, lập kế hoạch, suy nghĩ, sử dụng công cụ và hành động để giải quyết các nhiệm vụ phức tạp.

Gemini Robotics 1.5 mang AI đến thế giới vật lý

Chúng tôi đang thúc đẩy một kỷ nguyên của các tác nhân vật lý - cho phép robot nhận thức, lên kế hoạch, suy nghĩ, sử dụng công cụ và hành động để giải quyết tốt hơn các nhiệm vụ phức tạp, nhiều bước.

Đầu năm nay, chúng tôi đã đạt được những tiến bộ đáng kinh ngạc trong việc đưa khả năng hiểu đa phương thức của Gemini vào thế giới vật chất, bắt đầu với dòng mô hình Gemini Robotics.

Hôm nay, chúng tôi thực hiện một bước nữa để thúc đẩy các robot thông minh, đa năng thực sự. Chúng tôi giới thiệu hai mô hình mở ra trải nghiệm đại diện với tư duy nâng cao:

  • Gemini Robotics 1.5 – Mô hình ngôn ngữ hành động (VLA) có khả năng cao nhất của chúng tôi biến thông tin trực quan và hướng dẫn thành lệnh điều khiển để robot thực hiện một nhiệm vụ. Mô hình này suy nghĩ trước khi hành động và thể hiện quy trình của mình, giúp robot đánh giá và hoàn thành các nhiệm vụ phức tạp một cách minh bạch hơn. Nó cũng học hỏi trên nhiều hiện thân, đẩy nhanh quá trình học kỹ năng.
  • Gemini Robotics-ER 1.5 – Mô hình ngôn ngữ hình ảnh (VLM) có khả năng cao nhất của chúng tôi lý luận về thế giới vật chất, gọi các công cụ kỹ thuật số một cách tự nhiên và tạo ra các kế hoạch chi tiết, nhiều bước để hoàn thành một nhiệm vụ. Mô hình này hiện đạt được hiệu suất hiện đại trên các chuẩn mực hiểu không gian.

Những tiến bộ này sẽ giúp các nhà phát triển xây dựng các robot có khả năng và linh hoạt hơn, có thể chủ động hiểu môi trường của chúng để hoàn thành các nhiệm vụ phức tạp, nhiều bước theo cách tổng quát.

Bắt đầu từ hôm nay, chúng tôi cung cấp Gemini Robotics-ER 1.5 cho các nhà phát triển thông qua Gemini API trong Google AI Studio. Gemini Robotics 1.5 hiện có sẵn cho các đối tác được chọn. Đọc thêm về việc xây dựng với thế hệ tác nhân vật lý tiếp theo trên blog dành cho nhà phát triển.

Gemini Robotics 1.5: Mở khóa trải nghiệm đại diện cho các nhiệm vụ vật lý

Hầu hết các nhiệm vụ hàng ngày đều yêu cầu thông tin theo ngữ cảnh và nhiều bước để hoàn thành, khiến chúng trở nên vô cùng khó khăn đối với robot ngày nay.

Ví dụ: nếu một robot được hỏi, “Dựa trên vị trí của tôi, bạn có thể phân loại các đồ vật này vào các thùng đựng phân ủ, tái chế và rác thải thích hợp không?”, nó sẽ cần tìm kiếm các hướng dẫn tái chế địa phương có liên quan trên internet, nhìn vào các đồ vật trước mặt và tìm ra cách phân loại chúng dựa trên các quy tắc đó — và sau đó thực hiện tất cả các bước cần thiết để cất chúng đi hoàn toàn. Vì vậy, để giúp robot hoàn thành các loại nhiệm vụ phức tạp, nhiều bước này, chúng tôi đã thiết kế hai mô hình hoạt động cùng nhau trong một khuôn khổ đại diện.

Mô hình lý luận thể hiện của chúng tôi, Gemini Robotics-ER 1.5, điều phối các hoạt động của robot, giống như một bộ não cấp cao. Mô hình này vượt trội trong việc lập kế hoạch và đưa ra các quyết định logic trong môi trường vật lý. Nó có khả năng hiểu không gian hiện đại, tương tác bằng ngôn ngữ tự nhiên, ước tính mức độ thành công và tiến độ của nó, đồng thời có thể gọi các công cụ một cách tự nhiên như Google Search để tìm kiếm thông tin hoặc sử dụng bất kỳ chức năng do người dùng bên thứ ba xác định nào.

Gemini Robotics-ER 1.5 sau đó cung cấp cho Gemini Robotics 1.5 các hướng dẫn bằng ngôn ngữ tự nhiên cho từng bước, sử dụng khả năng hiểu ngôn ngữ và tầm nhìn để thực hiện trực tiếp các hành động cụ thể. Gemini Robotics 1.5 cũng giúp robot suy nghĩ về các hành động của mình để giải quyết tốt hơn các nhiệm vụ phức tạp về mặt ngữ nghĩa, và thậm chí có thể giải thích các quá trình suy nghĩ của mình bằng ngôn ngữ tự nhiên - làm cho các quyết định của nó minh bạch hơn.

Sơ đồ cho thấy mô hình lý luận thể hiện của chúng tôi, Gemini Robotics-ER 1.5 và mô hình ngôn ngữ hành động thị giác của chúng tôi, Gemini Robotics 1.5, chủ động làm việc cùng nhau để thực hiện các nhiệm vụ phức tạp trong thế giới vật lý.

Cả hai mô hình này đều được xây dựng dựa trên dòng mô hình Gemini cốt lõi và đã được tinh chỉnh với các tập dữ liệu khác nhau để chuyên về các vai trò tương ứng của chúng. Khi kết hợp, chúng làm tăng khả năng tổng quát hóa của robot đối với các nhiệm vụ dài hơn và môi trường đa dạng hơn.

Gemini Robotics 1.5: Sử dụng các khả năng đại diện

Hiểu môi trường của nó

Gemini Robotics-ER 1.5 là mô hình tư duy đầu tiên được tối ưu hóa cho lý luận thể hiện. Nó đạt được hiệu suất hiện đại trên cả chuẩn mực học thuật và nội bộ, lấy cảm hứng từ các trường hợp sử dụng thực tế từ chương trình thử nghiệm đáng tin cậy của chúng tôi.

Chúng tôi đã đánh giá Gemini Robotics-ER 1.5 trên 15 chuẩn mực học thuật bao gồm Trả lời câu hỏi về lý luận thể hiện (ERQA) và Point-Bench, đo lường hiệu suất của mô hình trên việc chỉ, trả lời câu hỏi bằng hình ảnh và trả lời câu hỏi bằng video.

Xem chi tiết trong báo cáo kỹ thuật của chúng tôi.

Biểu đồ thanh hiển thị kết quả hiệu suất hiện đại của Gemini Robotics-ER 1.5 so với các mô hình tương tự. Mô hình của chúng tôi đạt được hiệu suất tổng hợp cao nhất trên 15 chuẩn mực lý luận thể hiện học thuật, bao gồm Point-Bench, RefSpatial, RoboSpatial-Pointing, Where2Place, BLINK, CV-Bench, ERQA, EmbSpatial, MindCube, RoboSpatial-VQA, SAT, Cosmos-Reason1, Min Video Pairs, OpenEQA và VSI-Bench.

Suy nghĩ trước khi hành động

Các mô hình ngôn ngữ hành động thị giác theo truyền thống dịch các hướng dẫn hoặc kế hoạch ngôn ngữ trực tiếp thành chuyển động của robot. Vượt xa việc chỉ dịch các hướng dẫn hoặc kế hoạch, Gemini Robotics 1.5, giờ đây có thể suy nghĩ trước khi hành động. Điều này có nghĩa là nó có thể tạo ra một chuỗi lý luận và phân tích nội bộ bằng ngôn ngữ tự nhiên để thực hiện các nhiệm vụ yêu cầu nhiều bước hoặc yêu cầu sự hiểu biết ngữ nghĩa sâu sắc hơn.

Ví dụ: khi hoàn thành một nhiệm vụ như “Phân loại đồ giặt của tôi theo màu sắc”, robot trong video bên dưới sẽ suy nghĩ ở các cấp độ khác nhau. Đầu tiên, nó hiểu rằng phân loại theo màu sắc có nghĩa là cho quần áo trắng vào thùng màu trắng và các màu khác vào thùng màu đen. Sau đó, nó suy nghĩ về các bước cần thực hiện, như nhặt chiếc áo len màu đỏ và cho vào thùng màu đen, và về chuyển động chi tiết liên quan, như di chuyển chiếc áo len đến gần hơn để nhặt nó dễ dàng hơn.

Gemini Robotics 1.5: Ngôn ngữ và hình ảnh thành kế hoạch hành động

Trong quá trình tư duy đa cấp này, mô hình ngôn ngữ hành động thị giác có thể quyết định biến các nhiệm vụ dài hơn thành các phân đoạn ngắn hơn, đơn giản hơn mà robot có thể thực hiện thành công. Nó cũng giúp mô hình tổng quát hóa để giải quyết các nhiệm vụ mới và mạnh mẽ hơn trước những thay đổi trong môi trường của nó.

Học hỏi trên nhiều hiện thân

Robot có đủ hình dạng và kích cỡ, đồng thời có các khả năng cảm biến khác nhau và các mức độ tự do khác nhau, gây khó khăn cho việc chuyển các chuyển động học được từ robot này sang robot khác.

Gemini Robotics 1.5 cho thấy khả năng đáng chú ý để học hỏi trên các hiện thân khác nhau. Nó có thể chuyển các chuyển động học được từ robot này sang robot khác mà không cần chuyên biệt hóa mô hình cho mỗi hiện thân mới. Đột phá này đẩy nhanh quá trình học các hành vi mới, giúp robot trở nên thông minh hơn và hữu ích hơn.

Ví dụ: chúng tôi quan sát thấy rằng các nhiệm vụ chỉ được trình bày cho robot ALOHA 2 trong quá trình đào tạo, cũng chỉ hoạt động trên robot hình người của Apptronik, Apollo, và robot hai tay Franka, và ngược lại.

Gemini Robotics 1.5: học hỏi trên các hiện thân

Cách chúng tôi đang thúc đẩy AI và Robotics một cách có trách nhiệm

Khi chúng tôi mở khóa toàn bộ tiềm năng của AI thể hiện, chúng tôi đang chủ động phát triển các phương pháp tiếp cận an toàn và liên kết mới để cho phép triển khai có trách nhiệm các robot AI đại diện trong môi trường lấy con người làm trung tâm.

Hội đồng Trách nhiệm & An toàn (RSC) và nhóm Phát triển & Đổi mới có Trách nhiệm (ReDI) của chúng tôi hợp tác với nhóm Robotics để đảm bảo rằng việc phát triển các mô hình này phù hợp với Nguyên tắc AI của chúng tôi.

Gemini Robotics 1.5 triển khai một cách tiếp cận toàn diện về an toàn thông qua lý luận ngữ nghĩa cấp cao, bao gồm suy nghĩ về an toàn trước khi hành động, đảm bảo đối thoại tôn trọng với con người thông qua việc tuân thủ Chính sách an toàn của Gemini hiện có và kích hoạt các hệ thống con an toàn cấp thấp (ví dụ: để tránh va chạm) trên bo mạch robot khi cần thiết.

Để hướng dẫn quá trình phát triển an toàn các mô hình Gemini Robotics của mình, chúng tôi cũng đang phát hành một bản nâng cấp của chuẩn ASIMOV, một bộ sưu tập toàn diện các tập dữ liệu để đánh giá và cải thiện an toàn ngữ nghĩa, với phạm vi phủ sóng đuôi tốt hơn, chú thích được cải thiện, các loại câu hỏi an toàn mới và phương thức video mới.

Trong các đánh giá an toàn của chúng tôi trên chuẩn ASIMOV, Gemini Robotics-ER 1.5 cho thấy hiệu suất hiện đại và khả năng tư duy của nó đóng góp đáng kể vào việc cải thiện sự hiểu biết về an toàn ngữ nghĩa và tuân thủ tốt hơn các ràng buộc an toàn vật lý.

Tìm hiểu thêm về nghiên cứu an toàn của chúng tôi trong báo cáo kỹ thuật của chúng tôi hoặc truy cập trang web an toàn của chúng tôi.

Một cột mốc hướng tới việc giải quyết AGI trong thế giới vật chất

Gemini Robotics 1.5 đánh dấu một cột mốc quan trọng hướng tới việc giải quyết AGI trong thế giới vật chất. Bằng cách giới thiệu các khả năng đại diện, chúng tôi đang vượt ra ngoài các mô hình phản ứng với các lệnh và tạo ra các hệ thống có thể thực sự lý luận, lập kế hoạch, chủ động sử dụng các công cụ và tổng quát hóa.

Đây là một bước nền tảng hướng tới việc xây dựng các robot có thể điều hướng sự phức tạp của thế giới vật chất bằng trí thông minh và sự khéo léo, và cuối cùng, trở nên hữu ích hơn và tích hợp vào cuộc sống của chúng ta.

Chúng tôi rất vui mừng được tiếp tục công việc này với cộng đồng nghiên cứu rộng lớn hơn và rất nóng lòng muốn xem cộng đồng robot xây dựng những gì với mô hình Gemini Robotics-ER mới nhất của chúng tôi.

Lời cảm ơn

Công việc này được phát triển bởi nhóm Gemini Robotics: Abbas Abdolmaleki, Saminda Abeyruwan, Joshua Ainslie, Jean-Baptiste Alayrac, Montserrat Gonzalez Arenas, Ashwin Balakrishna, Nathan Batchelor, Alex Bewley, Jeff Bingham, Michael Bloesch, Konstantinos Bousmalis, Philemon Brakel, Anthony Brohan, Thomas Buschmann, Arunkumar Byravan, Serkan Cabi, Ken Caluwaerts, Federico Casarini, Christine Chan, Oscar Chang, London Chappellet-Volpini, Jose Enrique Chen, Xi Chen, Hao-Tien Lewis Chiang, Krzysztof Choromanski, Adrian Collister, David B. D’Ambrosio, Sudeep Dasari, Todor Davchev, Meet Kirankumar Dave, Coline Devin, Norman Di Palo, Tianli Ding, Carl Doersch, Adil Dostmohamed, Yilun Du, Debidatta Dwibedi, Sathish Thoppar

Recommended for You

Củng cố Khung Khung An Toàn Tiền Tuyến của chúng tôi

Củng cố Khung Khung An Toàn Tiền Tuyến của chúng tôi

Chúng tôi đang củng cố Khung An toàn Tiền tuyến (FSF) để giúp xác định và giảm thiểu các rủi ro nghiêm trọng từ các mô hình AI tiên tiến.

Genie 3- Một chân trời mới cho các mô hình thế giới

Genie 3- Một chân trời mới cho các mô hình thế giới

Genie 3 có thể tạo ra các thế giới động mà bạn có thể điều hướng trong thời gian thực ở tốc độ 24 khung hình/giây, duy trì tính nhất quán trong vài phút ở độ phân giải 720p.