Gemini Robotics-ER 1.6- Thúc đẩy các tác vụ robot trong thế giới thực thông qua suy luận hiện thân tăng cường
Cung cấp sức mạnh cho các tác vụ robot thực tế thông qua suy luận hiện thân được nâng cao
- 8 min read
Gemini Robotics-ER 1.6: Thúc đẩy các tác vụ robot trong thế giới thực thông qua lý luận hiện thân nâng cao
Ngày đăng: 14 tháng 4, 2026 Tác giả: Laura Graesser và Peng Xu
Để robot thực sự hữu ích trong cuộc sống hàng ngày và trong công nghiệp, chúng không chỉ đơn thuần là làm theo chỉ dẫn mà còn phải có khả năng lý luận về thế giới vật lý. Từ việc điều hướng trong một cơ sở phức tạp đến việc đọc kim trên đồng hồ áp suất, “lý luận hiện thân” (embodied reasoning) chính là cầu nối giúp robot chuyển hóa trí tuệ kỹ thuật số thành hành động vật lý.
Hôm nay, chúng tôi giới thiệu Gemini Robotics-ER 1.6, một bản nâng cấp quan trọng cho mô hình ưu tiên lý luận của chúng tôi, cho phép robot hiểu môi trường xung quanh với độ chính xác chưa từng có. Bằng cách tăng cường khả năng lý luận không gian và hiểu đa góc nhìn, chúng tôi đang mang đến một cấp độ tự chủ mới cho thế hệ tác nhân vật lý tiếp theo.
Mô hình này chuyên sâu vào các khả năng lý luận quan trọng đối với robot, bao gồm: hiểu thị giác và không gian, lập kế hoạch tác vụ và phát hiện mức độ thành công. Nó đóng vai trò là mô hình lý luận cấp cao cho robot, có khả năng thực hiện các tác vụ bằng cách gọi trực tiếp các công cụ như Google Search để tìm thông tin, các mô hình thị giác-ngôn ngữ-hành động (VLA) hoặc bất kỳ hàm nào khác do người dùng định nghĩa.
Gemini Robotics-ER 1.6 cho thấy sự cải thiện đáng kể so với Gemini Robotics-ER 1.5 và Gemini 3.0 Flash, đặc biệt là trong các khả năng lý luận không gian và vật lý như chỉ điểm (pointing), đếm và phát hiện thành công. Chúng tôi cũng mở khóa một khả năng mới: đọc thông số thiết bị, cho phép robot đọc các đồng hồ đo và kính quan sát mức chất lỏng phức tạp — một trường hợp sử dụng mà chúng tôi phát hiện ra thông qua sự hợp tác chặt chẽ với đối tác Boston Dynamics.
Kể từ hôm nay, Gemini Robotics-ER 1.6 đã sẵn sàng cho các nhà phát triển thông qua Gemini API và Google AI Studio.
Hình 1: Kết quả đối chuẩn cho thấy Gemini Robotics-ER 1.6 vượt trội hơn hẳn các phiên bản trước.
Chỉ điểm: Nền tảng của lý luận không gian
Chỉ điểm là một khả năng cơ bản của mô hình lý luận hiện thân. Việc xác định các điểm tọa độ có thể được dùng để diễn đạt nhiều khái niệm, bao gồm:
- Lý luận không gian: Phát hiện đối tượng và đếm với độ chính xác cao.
- Logic quan hệ: Thực hiện các so sánh (ví dụ: xác định vật nhỏ nhất trong một nhóm); định nghĩa mối quan hệ “từ-đến” (ví dụ: di chuyển vật X đến vị trí Y).
- Lý luận chuyển động: Lập bản đồ quỹ đạo và xác định các điểm cầm nắm tối ưu.
- Tuân thủ ràng buộc: Lý luận thông qua các yêu cầu phức tạp như “hãy chỉ ra mọi đồ vật đủ nhỏ để đặt vừa trong chiếc cốc màu xanh”.
Gemini Robotics-ER 1.6 có thể sử dụng các điểm chỉ dẫn như những bước trung gian để lý luận về các tác vụ phức tạp hơn. Ví dụ, nó có thể dùng các điểm này để đếm vật phẩm trong ảnh hoặc xác định các điểm quan trọng để thực hiện các phép toán giúp cải thiện ước tính khoảng cách thực tế.
Ví dụ về khả năng chỉ điểm chính xác của Gemini Robotics-ER 1.6 so với sự thiếu chính xác của ER 1.5 và Gemini 3.0 Flash.
Phát hiện thành công: Động cơ của sự tự chủ
Trong robot học, việc biết khi nào một tác vụ kết thúc cũng quan trọng như việc biết cách bắt đầu. Phát hiện thành công là nền tảng của sự tự chủ, đóng vai trò là bộ máy ra quyết định quan trọng để robot chọn giữa việc thử lại một lần thất bại hoặc tiến tới giai đoạn tiếp theo của kế hoạch.
Việc đạt được sự hiểu biết về thị giác trong robot học rất thách thức, đòi hỏi khả năng nhận thức và lý luận tinh vi kết hợp với kiến thức rộng về thế giới để xử lý các yếu tố gây nhiễu như vật cản, ánh sáng kém và chỉ dẫn mơ hồ. Ngoài ra, hầu hết các hệ thống robot hiện đại đều sử dụng nhiều camera (như camera góc rộng phía trên và camera gắn ở cổ tay). Điều này có nghĩa là hệ thống cần hiểu cách kết hợp các góc nhìn khác nhau để tạo ra một bức tranh nhất quán tại mỗi thời điểm và theo thời gian.
Gemini Robotics-ER 1.6 cải tiến lý luận đa góc nhìn, giúp hệ thống hiểu tốt hơn các luồng camera và mối quan hệ giữa chúng, ngay cả trong môi trường động hoặc bị che khuất.
Đọc thông số thiết bị: Lý luận thị giác trong thế giới thực
Một ví dụ điển hình về sức mạnh của Gemini Robotics-ER 1.6 là khả năng kết hợp lý luận không gian và kiến thức thế giới để giải quyết các vấn đề thực tế: đọc thông số thiết bị.
Yêu cầu này xuất phát từ nhu cầu kiểm tra cơ sở hạ tầng, một trọng tâm quan trọng của đối tác Boston Dynamics. Các cơ sở công nghiệp chứa nhiều thiết bị như nhiệt kế, đồng hồ áp suất, kính quan sát mức hóa chất… cần được theo dõi liên tục. Robot Spot của Boston Dynamics có thể đi thăm các thiết bị này và chụp ảnh chúng.
Việc đọc thông số thiết bị đòi hỏi lý luận thị giác phức tạp. Robot phải nhận diện chính xác các đầu vào — bao gồm kim đo, mức chất lỏng, ranh giới bình chứa, vạch chia độ — và hiểu mối quan hệ giữa chúng. Đối với kính quan sát, robot phải ước tính mức chất lỏng trong khi tính đến sự biến dạng do góc chụp của camera. Các đồng hồ đo thường có văn bản mô tả đơn vị cần được đọc và giải mã, và một số có nhiều kim chỉ các chữ số thập phân khác nhau cần được kết hợp lại.
“Các khả năng như đọc thông số thiết bị và lý luận tác vụ đáng tin cậy hơn sẽ cho phép Spot nhìn, hiểu và phản ứng với các thách thức thực tế một cách hoàn toàn tự chủ.” — Marco da Silva, Phó Chủ tịch và Tổng Giản đốc mảng Spot tại Boston Dynamics.
Gemini Robotics-ER 1.6 đạt được độ chính xác cao nhờ sử dụng thị giác tác nhân (agentic vision), kết hợp lý luận thị giác với thực thi mã. Mô hình thực hiện qua các bước trung gian: đầu tiên là phóng to (zoom) vào ảnh để đọc rõ các chi tiết nhỏ trên đồng hồ, sau đó sử dụng chỉ điểm và thực thi mã để ước tính tỷ lệ và khoảng cách, và cuối cùng áp dụng kiến thức thế giới để giải mã ý nghĩa.
Hình 2: Các thành phần khác nhau của Gemini Robotics-ER 1.6 đóng góp vào hiệu suất cao trong tác vụ đọc thông số thiết bị.
Đọc đồng hồ analog với độ chính xác cao
Mô hình robot an toàn nhất từ trước đến nay
An toàn được tích hợp vào mọi cấp độ của mô hình lý luận hiện thân. Gemini Robotics-ER 1.6 là mô hình robot an toàn nhất của chúng tôi cho đến nay, cho thấy sự tuân thủ vượt trội đối với các chính sách an toàn của Gemini trong các tác vụ lý luận không gian đối kháng.
Mô hình cũng cải thiện đáng kể khả năng tuân thủ các ràng buộc an toàn vật lý. Ví dụ, nó đưa ra các quyết định an toàn hơn thông qua các đầu ra không gian (như chỉ điểm) về việc đối tượng nào có thể được thao tác an toàn dựa trên ràng buộc của kẹp gắp hoặc vật liệu (ví dụ: “không chạm vào chất lỏng”, “không nhấc vật nặng quá 20kg”).
Chúng tôi cũng thử nghiệm khả năng xác định các mối nguy hiểm an toàn trong các tình huống văn bản và video dựa trên các báo cáo chấn thương thực tế. Trong các tác vụ này, các mô hình Gemini Robotics-ER cải thiện hơn so với Gemini 3.0 Flash (+6% trong văn bản, +10% trong video) về khả năng nhận diện chính xác rủi ro gây chấn thương.
Hình 3: Gemini Robotics-ER 1.6 cải thiện đáng kể khả năng tuân thủ các ràng buộc an toàn vật lý.
Hợp tác cùng chúng tôi cải thiện lý luận hiện thân cho robot
Chúng tôi cam kết đảm bảo Gemini Robotics-ER mang lại giá trị tối đa cho cộng đồng robot. Nếu các khả năng hiện tại còn hạn chế đối với ứng dụng chuyên biệt của bạn, chúng tôi mời bạn gửi phản hồi thông qua biểu mẫu (kèm 10–50 hình ảnh được gắn nhãn minh họa các lỗi cụ thể) để giúp chúng tôi xây dựng các tính năng lý luận mạnh mẽ hơn.
Hãy thử Gemini Robotics-ER 1.6 ngay bây giờ trên Google AI Studio.
Link bài viết gốc
- Tags:
- Ai
- April 2026
- Deepmind.google