Gemini Robotics 1.5 đưa các tác nhân AI vào thế giới vật lý
Mô hình
- 13 min read
Gemini Robotics 1.5 mang các tác nhân AI vào thế giới vật lý
Chúng tôi đang thúc đẩy một kỷ nguyên của các tác nhân vật lý — cho phép robot cảm nhận, lập kế hoạch, suy nghĩ, sử dụng công cụ và hành động để giải quyết tốt hơn các tác vụ phức tạp, nhiều bước.
Ngày 25 tháng 9 năm 2025 Models
Carolina Parada
<a href="https://www.facebook.com/sharer/sharer.php?u=https://deepmind.google/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/"
target="_blank"
rel="noopener noreferrer"
class="share-list__item"
aria-label="Share on Facebook, opens in new window">
<svg class="share-list__icon"
role="img"
aria-label="Facebook logo"
focusable="false"
width="24"
height="24">
<use href="#facebook"></use>
</svg>
</a>
<a href="https://www.linkedin.com/sharing/share-offsite/?url=https://deepmind.google/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/"
target="_blank"
rel="noopener noreferrer"
class="share-list__item"
aria-label="Share on LinkedIn, opens in new window">
<svg class="share-list__icon"
role="img"
aria-label="LinkedIn logo"
focusable="false"
width="24"
height="24">
<use href="#linkedin"></use>
</svg>
</a>
<a href="mailto:?subject=Gemini%20Robotics%201.5%20brings%20AI%20agents%20into%20the%20physical%20world&body=https://deepmind.google/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/"
class="share-list__item"
aria-label="Share via email">
<svg class="share-list__icon"
role="img"
aria-label="Email icon"
focusable="false"
width="24"
height="24">
<use href="#email"></use>
</svg>
</a>
<button type="button"
class="share-list__item share-list__item--copy"
aria-label="Copy link to clipboard"
data-copy-url="https://deepmind.google/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/">
<svg class="share-list__icon"
role="img"
aria-label="Link icon"
focusable="false"
width="24"
height="24">
<use href="#link"></use>
</svg>
<span class="share-list__confirmation">Copied</span>
</button>
Chúng tôi đang thúc đẩy một kỷ nguyên của các tác nhân vật lý — cho phép robot cảm nhận, lập kế hoạch, suy nghĩ, sử dụng công cụ và hành động để giải quyết tốt hơn các tác vụ phức tạp, nhiều bước.
Đầu năm nay, chúng tôi đã có những tiến bộ đáng kinh ngạc trong việc đưa khả năng hiểu đa phương thức của Gemini vào thế giới vật lý, bắt đầu với các mô hình thuộc họ Gemini Robotics.
Hôm nay, chúng tôi thực hiện một bước nữa để phát triển các robot thông minh, đa năng thực sự. Chúng tôi giới thiệu hai mô hình mở khóa trải nghiệm tác nhân với khả năng tư duy nâng cao:
- Gemini Robotics 1.5 – Mô hình VLA (tầm nhìn-ngôn ngữ-hành động) mạnh mẽ nhất của chúng tôi chuyển đổi thông tin hình ảnh và hướng dẫn thành các lệnh điều khiển động cơ để robot thực hiện một nhiệm vụ. Mô hình này suy nghĩ trước khi hành động và thể hiện quy trình của mình, giúp robot đánh giá và hoàn thành các nhiệm vụ phức tạp một cách minh bạch hơn. Nó cũng học hỏi trên các hiện thân khác nhau, đẩy nhanh việc học kỹ năng.
- Gemini Robotics-ER 1.5 – Mô hình VLM (tầm nhìn-ngôn ngữ) mạnh mẽ nhất của chúng tôi lý luận về thế giới vật lý, gọi trực tiếp các công cụ kỹ thuật số và tạo ra các kế hoạch chi tiết, nhiều bước để hoàn thành một nhiệm vụ. Mô hình này hiện đạt hiệu suất hàng đầu trên các tiêu chuẩn hiểu không gian.
Những tiến bộ này sẽ giúp các nhà phát triển xây dựng các robot có khả năng và linh hoạt hơn, có thể chủ động hiểu môi trường của chúng để hoàn thành các nhiệm vụ phức tạp, nhiều bước một cách tổng quát.
Bắt đầu từ hôm nay, chúng tôi cung cấp Gemini Robotics-ER 1.5 cho các nhà phát triển thông qua API Gemini trong Google AI Studio. Hiện tại, Gemini Robotics 1.5 đang có sẵn cho các đối tác chọn lọc. Đọc thêm về việc xây dựng với thế hệ tác nhân vật lý tiếp theo trên blog dành cho nhà phát triển.
Gemini Robotics 1.5: Mở khóa trải nghiệm tác nhân cho các nhiệm vụ vật lý
Hầu hết các nhiệm vụ hàng ngày đều yêu cầu thông tin theo ngữ cảnh và nhiều bước để hoàn thành, khiến chúng trở nên cực kỳ thách thức đối với robot hiện nay.
Ví dụ, nếu robot được hỏi: “Dựa trên vị trí của tôi, bạn có thể phân loại các vật thể này vào thùng ủ phân compost, tái chế và rác thải đúng quy định không?”, nó sẽ cần tìm kiếm các hướng dẫn tái chế tại địa phương có liên quan trên internet, xem xét các vật thể trước mặt và xác định cách phân loại chúng dựa trên các quy tắc đó — và sau đó thực hiện tất cả các bước cần thiết để hoàn thành việc cất chúng đi. Vì vậy, để giúp robot hoàn thành các loại nhiệm vụ phức tạp, nhiều bước này, chúng tôi đã thiết kế hai mô hình hoạt động cùng nhau trong một khuôn khổ tác nhân.
Mô hình lý luận hiện thân của chúng tôi, Gemini Robotics-ER 1.5, điều phối các hoạt động của robot, giống như một bộ não cấp cao. Mô hình này xuất sắc trong việc lập kế hoạch và đưa ra quyết định logic trong môi trường vật lý. Nó có khả năng hiểu không gian hàng đầu, tương tác bằng ngôn ngữ tự nhiên, ước tính sự thành công và tiến độ của mình, đồng thời có thể gọi trực tiếp các công cụ như Google Search để tìm kiếm thông tin hoặc sử dụng bất kỳ hàm nào do người dùng xác định của bên thứ ba.
Sau đó, Gemini Robotics-ER 1.5 cung cấp cho Gemini Robotics 1.5 các hướng dẫn bằng ngôn ngữ tự nhiên cho từng bước, mô hình này sử dụng khả năng hiểu ngôn ngữ và thị giác của nó để thực hiện trực tiếp các hành động cụ thể. Gemini Robotics 1.5 cũng giúp robot suy nghĩ về hành động của mình để giải quyết tốt hơn các nhiệm vụ phức tạp về ngữ nghĩa, và thậm chí có thể giải thích quy trình suy nghĩ của nó bằng ngôn ngữ tự nhiên — làm cho các quyết định của nó trở nên minh bạch hơn.
Hiểu môi trường xung quanh
Gemini Robotics-ER 1.5 là mô hình tư duy đầu tiên được tối ưu hóa cho lý luận hiện thân. Nó đạt được hiệu suất hàng đầu trên cả các tiêu chuẩn học thuật và nội bộ, lấy cảm hứng từ các trường hợp sử dụng thực tế từ chương trình thử nghiệm đáng tin cậy của chúng tôi.
Chúng tôi đã đánh giá Gemini Robotics-ER 1.5 trên 15 tiêu chuẩn học thuật bao gồm Embodied Reasoning Question Answering (ERQA) và Point-Bench, đo lường hiệu suất của mô hình trên các nhiệm vụ chỉ điểm, trả lời câu hỏi về hình ảnh và trả lời câu hỏi về video.
Xem chi tiết trong báo cáo kỹ thuật của chúng tôi.
Suy nghĩ trước khi hành động
Các mô hình tầm nhìn-ngôn ngữ-hành động (VLA) theo truyền thống dịch các hướng dẫn hoặc kế hoạch ngôn ngữ trực tiếp thành chuyển động của robot. Ngoài việc chỉ dịch hướng dẫn hoặc kế hoạch, Gemini Robotics 1.5 giờ đây có thể suy nghĩ trước khi hành động. Điều này có nghĩa là nó có thể tạo ra một chuỗi suy luận và phân tích nội bộ bằng ngôn ngữ tự nhiên để thực hiện các nhiệm vụ đòi hỏi nhiều bước hoặc cần hiểu ngữ nghĩa sâu sắc hơn.
Ví dụ, khi hoàn thành một nhiệm vụ như, “Sắp xếp đồ giặt của tôi theo màu sắc”, robot trong video dưới đây sẽ suy nghĩ ở nhiều cấp độ. Đầu tiên, nó hiểu rằng sắp xếp theo màu sắc có nghĩa là đặt quần áo trắng vào thùng trắng và các màu khác vào thùng đen. Sau đó, nó suy nghĩ về các bước cần thực hiện, như nhặt chiếc áo len đỏ và đặt nó vào thùng đen, và về chuyển động chi tiết cần thiết, như di chuyển chiếc áo len lại gần để nhặt dễ dàng hơn.
Trong quá trình suy nghĩ đa cấp này, mô hình VLA có thể quyết định chia nhỏ các nhiệm vụ dài hơn thành các phân đoạn ngắn hơn mà robot có thể thực thi thành công. Nó cũng giúp mô hình tổng quát hóa để giải quyết các nhiệm vụ mới và trở nên mạnh mẽ hơn trước những thay đổi trong môi trường của nó.
Học hỏi qua các hiện thân khác nhau
Robot có nhiều hình dạng và kích cỡ khác nhau, đồng thời có các khả năng cảm biến khác nhau và mức độ tự do khác nhau, khiến việc chuyển giao chuyển động đã học từ robot này sang robot khác trở nên khó khăn.
Gemini Robotics 1.5 cho thấy khả năng đáng chú ý trong việc học hỏi qua các hiện thân khác nhau. Nó có thể chuyển giao các chuyển động đã học từ robot này sang robot khác, mà không cần chuyên môn hóa mô hình cho từng hiện thân mới. Bước đột phá này đẩy nhanh quá trình học các hành vi mới, giúp robot trở nên thông minh và hữu ích hơn.
Ví dụ, chúng tôi nhận thấy rằng các nhiệm vụ chỉ được trình bày cho robot ALOHA 2 trong quá trình đào tạo, cũng hoạt động trên robot hình người Apollo của Apptronik và robot Franka hai tay, và ngược lại.
Cách chúng tôi đang phát triển AI và Robot một cách có trách nhiệm
Khi chúng tôi mở khóa toàn bộ tiềm năng của AI hiện thân, chúng tôi đang chủ động phát triển các phương pháp an toàn và liên kết mới để cho phép các robot tác nhân được triển khai một cách có trách nhiệm trong môi trường lấy con người làm trung tâm.
Hội đồng Trách nhiệm & An toàn (RSC) và nhóm Phát triển & Đổi mới có Trách nhiệm (ReDI) của chúng tôi hợp tác với nhóm Robotics để đảm bảo rằng việc phát triển các mô hình này tuân thủ Nguyên tắc AI của chúng tôi.
Gemini Robotics 1.5 triển khai một phương pháp tiếp cận toàn diện về an toàn thông qua lý luận ngữ nghĩa cấp cao, bao gồm việc suy nghĩ về an toàn trước khi hành động, đảm bảo đối thoại tôn trọng với con người thông qua việc liên kết với các Chính sách An toàn Gemini hiện có và kích hoạt các hệ thống con an toàn cấp thấp (ví dụ: để tránh va chạm) trên robot khi cần thiết.
Để định hướng việc phát triển an toàn các mô hình Gemini Robotics, chúng tôi cũng đang phát hành bản nâng cấp của điểm chuẩn ASIMOV, một bộ dữ liệu toàn diện để đánh giá và cải thiện an toàn ngữ nghĩa, với phạm vi bao phủ đuôi tốt hơn, chú thích được cải thiện, các loại câu hỏi an toàn mới và các phương thức video mới.
Trong các đánh giá an toàn của chúng tôi trên điểm chuẩn ASIMOV, Gemini Robotics-ER 1.5 cho thấy hiệu suất hàng đầu, và khả năng suy nghĩ của nó đóng góp đáng kể vào việc cải thiện sự hiểu biết về an toàn ngữ nghĩa và tuân thủ tốt hơn các ràng buộc an toàn vật lý.
Tìm hiểu thêm về nghiên cứu an toàn của chúng tôi trong báo cáo kỹ thuật của chúng tôi hoặc truy cập trang web an toàn của chúng tôi.
Một cột mốc quan trọng để giải quyết AGI trong thế giới vật lý
Gemini Robotics 1.5 đánh dấu một cột mốc quan trọng để giải quyết AGI trong thế giới vật lý. Bằng cách giới thiệu các khả năng tác nhân, chúng tôi đang vượt ra ngoài các mô hình phản ứng với lệnh và tạo ra các hệ thống thực sự có thể suy luận, lập kế hoạch, sử dụng công cụ một cách chủ động và tổng quát hóa.
Đây là một bước đi nền tảng để xây dựng các robot có thể điều hướng sự phức tạp của thế giới vật lý bằng trí thông minh và sự khéo léo, và cuối cùng, trở nên hữu ích hơn và tích hợp vào cuộc sống của chúng ta.
Chúng tôi rất vui mừng được tiếp tục công việc này với cộng đồng nghiên cứu rộng lớn hơn và mong muốn được thấy những gì cộng đồng robot sẽ xây dựng với mô hình Gemini Robotics-ER mới nhất của chúng tôi.
Khám phá Gemini Robotics 1.5
- Đọc báo cáo kỹ thuật
- Đăng ký chương trình thử nghiệm đáng tin cậy của chúng tôi
- Tìm hiểu thêm trên blog dành cho nhà phát triển
Lời cảm ơn Công việc này được phát triển bởi nhóm Gemini Robotics: Abbas Abdolmaleki, Saminda Abeyruwan, Joshua Ainslie, Jean-Baptiste Alayrac, Montserrat Gonzalez Arenas, Ashwin Balakrishna, Nathan Batchelor, Alex Bewley, Jeff Bingham, Michael Bloesch, Konstantinos Bousmalis, Philemon Brakel, Anthony Brohan, Thomas Buschmann, Arunkumar Byravan, Serkan Cabi, Ken Caluwaerts, Federico Casarini, Christine Chan, Oscar Chang, London Chappellet-Volpini, Jose Enrique Chen, Xi Chen, Hao-Tien Lewis Chiang, Krzysztof Choromanski, Adrian Collister, David B. D’Ambrosio, Sudeep Dasari, Todor Davchev, Meet Kirankumar Dave, Coline Devin, Norman Di Palo, Tianli Ding, Carl Doersch, Adil Dostmohamed, Yilun Du, Debidatta Dwibedi, Sathish Thoppay Egambaram, Michael Elabd, Tom Erez, Xiaolin Fang, Claudio Fantacci, Cody Fong, Erik Frey, Chuyuan Fu, Ruiqi Gao, Marissa Giustina, Keerthana Gopalakrishnan, Laura Graesser, Oliver Groth, Agrim Gupta, Roland Hafner, Steven Hansen, Leonard Hasenclever, Sam Haves, Nicolas Heess, Brandon Hernaez, Alex Hofer, Jasmine Hsu, Lu Huang, Sandy H. Huang, Atil Iscen, Mithun George Jacob, Deepali Jain, Sally Jesmonth, Abhishek Jindal, Ryan Julian, Dmitry Kalashnikov, Stefani Karp, Matija Kecman, J. Chase Kew, Donnie Kim, Frank Kim, Junkyung Kim, Thomas Kipf, Sean Kirmani, Ksenia Konyushkova, Yuheng Kuang, Thomas Lampe, Antoine Laurens, Tuan Anh Le, Isabel Leal, Alex X. Lee, Tsang-Wei Edward Lee, Guy Lever, Jacky Liang, Li-Heng Lin, Fangchen Liu, Shangbang Long, Caden Lu, Sharath Maddinenua, Anirudha Majumdar, Kevis-Kokitsi Maninis, Andrew Marmon, Sergio Martinez, Assaf Hurwitz Michaely, Niko Milonopoulos, Joss Moore, Robert Moreno, Michael Neunert, Francesco Nori, Joy Ortiz, Kenneth Oslund, Carolina Parada, Emilio Parisotto, Peter Pastor Sampedro, Acorn Pooley, Thomas Power, Alessio Quaglino, Haroon Qureshi, Rajkumar Vasudeva Raju, Helen Ran, Dushyant Rao, Kanishka Rao, Isaac Reid, David Rendleman, Krista Reymann, Miguel Rivas, Francesco Romano, Yulia Rubanova, Pannag R Sanketi, Dhruv Shah, Mohit Sharma, Kathryn Shea, Mohit Shridhar, Charles Shu, Vikas Sindhwani, Sumeet Singh, Radu Soricut, Rachel Sterneck, Ian Storz, Razvan Surdulescu, Jie Tan, Jonathan Tompson, Saran Tunyasuvunakool, Jake Varley, Grace Vesom, Giulia Vezzani, Maria Bauza Villalonga, Oriol Vinyals, René Wagner, Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Chengda Wu, Markus Wulfmeier, Fei Xia, Ted Xiao, Annie Xie, Jinyu Xie, Peng Xu, Sichun Xu, Ying Xu, Zhuo Xu, Jimmy Yan, Sherry Yang, Skye Yang, Yuxiang Yang, Hiu Hong Yu, Wenhao Yu, Li Yang Ku, Wentao Yuan, Yuan Yuan, Jingwei Zhang, Tingnan Zhang, Zhiyuan Zhang, Allan Zhou, Guangyao Zhou và Yuxiang Zhou.
Chúng tôi cũng muốn cảm ơn: Amy Nommeots-Nomm, Ashley Gibb, Bhavya Sukhija, Bryan Gale, Catarina Barros, Christy Koh, Clara Barbu, Demetra Brady, Hiroki Furuta, Jennie Lees, Kendra Byrne, Keran Rong, Kevin Murphy, Kieran Connell, Kuang-Huei Lee, M. Emre Karagozler, Martina Zambelli, Matthew Jackson, Michael Noseworthy, Miguel Lázaro-Gredilla, Mili Sanwalka, Mimi Jasarevic, Nimrod Gileadi, Rebeca Santamaria-Fernandez, Rui Yao, Siobhan Mcloughlin, Sophie Bridgers, Stefano Saliceti, Steven Bohez, Svetlana Grant, Tim Hertweck, Verena Rieser, Yandong Ji.
Để được lãnh đạo và hỗ trợ cho nỗ lực này, chúng tôi muốn cảm ơn: Jean-Baptiste Alayrac, Zoubin Ghahramani, Koray Kavukcuoglu và Demis Hassabis. Chúng tôi muốn ghi nhận nhiều nhóm trên khắp Google và Google DeepMind đã đóng góp vào nỗ lực này, bao gồm Pháp lý, Tiếp thị, Truyền thông, Hội đồng Trách nhiệm & An toàn, Đổi mới & Phát triển có Trách nhiệm, Chính sách, Chiến lược và Vận hành, cũng như các nhóm Kinh doanh và Phát triển Doanh nghiệp của chúng tôi. Chúng tôi muốn cảm ơn tất cả mọi người trong nhóm Robotics không được đề cập rõ ràng ở trên vì sự hỗ trợ và hướng dẫn liên tục của họ. Cuối cùng, chúng tôi muốn cảm ơn nhóm Apptronik vì sự hỗ trợ của họ.
Bài viết liên quan
Gemini Robotics mang AI vào thế giới vật lý Tháng 3 năm 2025 Models Tìm hiểu thêm
Gemini Robotics On-Device mang AI đến các thiết bị robot cục bộ Tháng 6 năm 2025 Models Tìm hiểu thêm
Link bài viết gốc
- Tags:
- Ai
- September 2025
- Deepmind.google