Giới thiệu Mô hình Sử dụng Máy tính Gemini 2.5
Có sẵn trong bản xem trước thông qua API, mô hình Sử dụng Máy tính của chúng tôi là một mô hình chuyên dụng được xây dựng dựa trên khả năng của Gemini 2.5 Pro để cung cấp năng lượng cho các tác nhân có thể tương tác với giao diện người dùng.
- 9 min read
Giới thiệu Mô hình Sử dụng Máy tính Gemini 2.5
Hôm nay, chúng tôi phát hành mô hình Sử dụng Máy tính Gemini 2.5 thông qua API, vượt trội hơn các giải pháp thay thế hàng đầu trong các tác vụ trên trình duyệt và thiết bị di động.
Trước đó trong năm nay, chúng tôi đã đề cập rằng chúng tôi sẽ mang khả năng sử dụng máy tính đến cho các nhà phát triển thông qua Gemini API. Hôm nay, chúng tôi phát hành Mô hình Sử dụng Máy tính Gemini 2.5, mô hình chuyên dụng mới của chúng tôi được xây dựng trên khả năng lý luận và hiểu biết trực quan của Gemini 2.5 Pro, cung cấp sức mạnh cho các tác nhân có khả năng tương tác với giao diện người dùng (UI). Nó vượt trội hơn các giải pháp thay thế hàng đầu trên nhiều tiêu chuẩn kiểm soát web và thiết bị di động, tất cả đều có độ trễ thấp hơn. Các nhà phát triển có thể truy cập các khả năng này thông qua Gemini API trong Google AI Studio và Vertex AI.
Trong khi các mô hình AI có thể giao tiếp với phần mềm thông qua API có cấu trúc, nhiều tác vụ kỹ thuật số vẫn yêu cầu tương tác trực tiếp với giao diện người dùng đồ họa, ví dụ: điền và gửi biểu mẫu. Để hoàn thành các tác vụ này, các tác nhân phải điều hướng các trang web và ứng dụng giống như cách con người làm: bằng cách nhấp, nhập và cuộn. Khả năng điền các biểu mẫu một cách tự nhiên, thao tác các thành phần tương tác như danh sách thả xuống và bộ lọc, và hoạt động đằng sau các thông tin đăng nhập là một bước quan trọng tiếp theo trong việc xây dựng các tác nhân đa năng, mạnh mẽ.
Cách thức hoạt động
Các khả năng cốt lõi của mô hình được hiển thị thông qua công cụ computer_use mới trong Gemini API và nên được vận hành trong một vòng lặp. Đầu vào cho công cụ là yêu cầu của người dùng, ảnh chụp màn hình của môi trường và lịch sử các hành động gần đây. Đầu vào cũng có thể chỉ định xem có loại trừ các chức năng khỏi danh sách đầy đủ các hành động UI được hỗ trợ hay chỉ định các chức năng tùy chỉnh bổ sung để đưa vào hay không.
Mô hình sau đó phân tích các đầu vào này và tạo ra một phản hồi, thường là một lệnh gọi hàm đại diện cho một trong các hành động UI như nhấp hoặc nhập. Phản hồi này cũng có thể chứa một yêu cầu xác nhận của người dùng cuối, điều này là bắt buộc đối với một số hành động nhất định như thực hiện mua hàng. Mã phía máy khách sau đó thực thi hành động đã nhận.
Sau khi hành động được thực thi, một ảnh chụp màn hình mới của GUI và URL hiện tại được gửi lại cho mô hình Sử dụng Máy tính dưới dạng phản hồi hàm khởi động lại vòng lặp. Quá trình lặp đi lặp lại này tiếp tục cho đến khi tác vụ hoàn thành, xảy ra lỗi hoặc tương tác bị chấm dứt bởi phản hồi an toàn hoặc quyết định của người dùng.
Mô hình Sử dụng Máy tính Gemini 2.5 được tối ưu hóa chủ yếu cho trình duyệt web, nhưng cũng thể hiện hứa hẹn mạnh mẽ cho các tác vụ kiểm soát UI trên thiết bị di động. Nó chưa được tối ưu hóa cho kiểm soát cấp hệ điều hành máy tính để bàn.
Xem một vài bản trình diễn dưới đây để xem mô hình hoạt động (hiển thị ở tốc độ 3X).
Lời nhắc: “Từ https://tinyurl.com/pet-care-signup, hãy lấy tất cả chi tiết cho bất kỳ thú cưng nào có cư trú tại California và thêm chúng làm khách trong CRM spa của tôi tại https://pet-luxe-spa.web.app/. Sau đó, thiết lập một cuộc hẹn thăm khám theo dõi với chuyên gia Anima Lavar vào ngày 10 tháng 10 vào bất kỳ thời gian nào sau 8 giờ sáng. Lý do cho chuyến thăm giống như phương pháp điều trị được yêu cầu của họ.”
Lời nhắc: “Câu lạc bộ nghệ thuật của tôi đã động não các nhiệm vụ trước hội chợ của chúng tôi. Ban điều hành hỗn loạn và tôi cần sự giúp đỡ của bạn để sắp xếp các nhiệm vụ vào một số danh mục tôi đã tạo. Truy cập sticky-note-jam.web.app và đảm bảo các ghi chú được đặt rõ ràng trong đúng phần. Kéo chúng đến đó nếu không.”
Cách thức hoạt động
Mô hình Sử dụng Máy tính Gemini 2.5 thể hiện hiệu suất mạnh mẽ trên nhiều tiêu chuẩn kiểm soát web và thiết bị di động. Bảng dưới đây bao gồm kết quả từ các số liệu tự báo cáo, các đánh giá do Browserbase thực hiện và các đánh giá chúng tôi tự chạy. Chi tiết đánh giá có sẵn trong thông tin đánh giá Sử dụng Máy tính Gemini 2.5 và trong bài đăng trên blog của Browserbase. Trừ khi có chỉ định khác, điểm số hiển thị là cho các công cụ sử dụng máy tính được hiển thị thông qua API.
Mô hình cung cấp chất lượng hàng đầu cho điều khiển trình duyệt ở độ trễ thấp nhất, như được đo bằng hiệu suất trên bộ khai thác Browserbase cho Online-Mind2Web.
Cách chúng tôi tiếp cận an toàn
Chúng tôi tin rằng cách duy nhất để xây dựng các tác nhân có lợi cho mọi người là có trách nhiệm ngay từ đầu. Các tác nhân AI kiểm soát máy tính tạo ra các rủi ro riêng, bao gồm lạm dụng có chủ ý bởi người dùng, hành vi mô hình bất ngờ và chèn lời nhắc và lừa đảo trong môi trường web. Vì vậy, điều quan trọng là phải triển khai các biện pháp bảo vệ an toàn một cách cẩn thận.
Chúng tôi đã đào tạo các tính năng an toàn trực tiếp vào mô hình để giải quyết ba rủi ro chính này (được mô tả trong Thẻ Hệ thống Sử dụng Máy tính Gemini 2.5).
Hơn nữa, chúng tôi cũng cung cấp cho các nhà phát triển các biện pháp kiểm soát an toàn, cho phép các nhà phát triển ngăn mô hình tự động hoàn thành các hành động có khả năng rủi ro cao hoặc có hại. Các ví dụ về các hành động này bao gồm gây hại cho tính toàn vẹn của hệ thống, xâm phạm an ninh, bỏ qua CAPTCHA hoặc điều khiển các thiết bị y tế. Các biện pháp kiểm soát:
- Dịch vụ an toàn từng bước: Dịch vụ an toàn ngoài mô hình, thời gian suy luận đánh giá từng hành động mà mô hình đề xuất trước khi nó được thực thi.
- Hướng dẫn hệ thống: Các nhà phát triển có thể chỉ định thêm rằng tác nhân từ chối hoặc yêu cầu người dùng xác nhận trước khi thực hiện các loại hành động có tính chất rủi ro cao cụ thể. (Ví dụ trong tài liệu).
Các khuyến nghị bổ sung cho các nhà phát triển về các biện pháp an toàn và thực hành tốt nhất có thể được tìm thấy trong tài liệu của chúng tôi. Mặc dù các biện pháp bảo vệ này được thiết kế để giảm rủi ro, chúng tôi kêu gọi tất cả các nhà phát triển kiểm tra kỹ lưỡng hệ thống của họ trước khi ra mắt.
Cách những người thử nghiệm sớm đã sử dụng nó
Các nhóm của Google đã triển khai mô hình này để sản xuất cho các trường hợp sử dụng bao gồm kiểm tra UI, có thể làm cho việc phát triển phần mềm nhanh hơn đáng kể. Các phiên bản của mô hình này cũng đã cung cấp sức mạnh cho Project Mariner, Firebase Testing Agent, và một số khả năng tác nhân trong AI Mode in Search.
Người dùng từ chương trình truy cập sớm của chúng tôi cũng đã thử nghiệm mô hình để cung cấp sức mạnh cho trợ lý cá nhân, tự động hóa quy trình làm việc và kiểm tra UI, và đã thấy kết quả mạnh mẽ. Theo lời của họ:
“Rất nhiều quy trình làm việc của chúng tôi yêu cầu tương tác với các giao diện dành cho con người, trong đó tốc độ đặc biệt quan trọng. Gemini 2.5 Computer Use vượt xa đối thủ cạnh tranh, thường nhanh hơn 50% và tốt hơn so với các giải pháp tốt nhất tiếp theo mà chúng tôi đã xem xét.” - Poke.com, một trợ lý AI chủ động trong iMessage, WhatsApp và SMS với nhiều quy trình làm việc của bên thứ ba và tác nhân.
“Các tác nhân của chúng tôi chạy hoàn toàn tự động, thực hiện công việc mà những sai sót nhỏ trong việc thu thập và phân tích cú pháp dữ liệu là không thể chấp nhận được. Gemini 2.5 Computer Use vượt trội hơn các mô hình khác trong việc phân tích cú pháp bối cảnh một cách đáng tin cậy trong các trường hợp phức tạp, tăng hiệu suất lên đến 18% trên các đánh giá khó khăn nhất của chúng tôi.” — Autotab, một tác nhân AI thả vào.
“Khi các tập lệnh thông thường gặp sự cố, mô hình đánh giá trạng thái màn hình hiện tại và tự động xác định các hành động cần thiết để hoàn thành quy trình làm việc. Việc triển khai này hiện đã phục hồi thành công hơn 60% các lần thực thi (trước đây phải mất nhiều ngày để khắc phục).” — Nhóm nền tảng thanh toán của Google, đã triển khai mô hình Sử dụng Máy tính như một cơ chế dự phòng để giải quyết các thử nghiệm UI đầu cuối dễ bị hỏng đã đóng góp vào 25% tổng số lỗi thử nghiệm.
Cách bắt đầu
Bắt đầu từ hôm nay, mô hình có sẵn trong bản xem trước công khai, có thể truy cập thông qua Gemini API trên Google AI Studio và Vertex AI.
- Thử ngay bây giờ: Trong một môi trường trình diễn do Browserbase tổ chức.
- Bắt đầu xây dựng: Đi sâu vào tài liệu tham khảo và tài liệu của chúng tôi (xem tài liệu Vertex AI để sử dụng cho doanh nghiệp) để tìm hiểu cách xây dựng vòng lặp tác nhân của riêng bạn cục bộ với Playwright hoặc trong một VM đám mây với Browserbase.
- Tham gia cộng đồng: Chúng tôi rất vui khi thấy những gì bạn xây dựng. Chia sẻ phản hồi và giúp định hướng lộ trình của chúng tôi trong Diễn đàn nhà phát triển của chúng tôi.
Link bài viết gốc
- Tags:
- Ai
- 08 October 2025
- Blog.google



