ScreenSuite - Bộ đánh giá toàn diện nhất dành cho các tác nhân GUI!

June 7, 2025
7 min read

ScreenSuite - Bộ công cụ đánh giá toàn diện nhất cho GUI Agents!

TL;DR

Trong vài tuần qua, chúng tôi đã làm việc không mệt mỏi để làm cho GUI agents trở nên mở, dễ tiếp cận và dễ tích hợp hơn. Trên đường đi, chúng tôi đã tạo ra bộ công cụ đo điểm chuẩn lớn nhất cho hiệu suất của GUI agents 👉 hãy để chúng tôi giới thiệu ScreenSuite.

Chúng tôi rất vui mừng được chia sẻ nó với bạn ngày hôm nay: ScreenSuite là cách toàn diện và dễ dàng nhất để đánh giá Vision Language Models (VLMs) trên nhiều khả năng agentic!

WTF is a GUI Agent?

Nói tóm lại, một AI Agent là một robot hoạt động trong thế giới ảo. (định nghĩa kỹ lưỡng hơn tại đây)

Đặc biệt, một “GUI Agent” là một agent sống trong một GUI. Hãy nghĩ “một agent có thể thực hiện các cú nhấp chuột và điều hướng trên máy tính để bàn hoặc điện thoại của tôi”, à la Claude Computer Use.

Điều này có nghĩa là về bản chất, mô hình AI cung cấp năng lượng cho agent sẽ được giao một nhiệm vụ như “Điền phần còn lại của cột Excel này”, cùng với ảnh chụp màn hình của GUI. Sử dụng thông tin này, nó sau đó sẽ quyết định thực hiện hành động trên hệ thống: click(x=130, y=540) để mở trình duyệt web, type(”Giá trị cho XYZ trong 2025"), scroll(down=2) để đọc thêm… Để xem một GUI agent trong hành động, bạn có thể thử Open Computer Agent của chúng tôi, được cung cấp bởi Qwen2.5-VL-72B.

Một GUI agent tốt sẽ có thể điều hướng một máy tính giống như chúng ta, do đó mở khóa tất cả các tác vụ máy tính: cuộn qua Google Maps, chỉnh sửa một tệp, mua một mặt hàng trực tuyến. Điều này liên quan đến một loạt các khả năng có thể khó đánh giá.

Introducing ScreenSuite 🥳

Tài liệu tham khảo, ví dụ: Xu et al. (2025) hoặc Qin et al. (2025), thường chia các khả năng của GUI agent thành nhiều loại:

Nhận thức: nhận thức chính xác thông tin được hiển thị trên màn hình
Nối đất (Grounding): hiểu vị trí của các yếu tố - điều này là tối quan trọng để nhấp vào đúng vị trí
Hành động một bước: giải quyết các hướng dẫn chính xác trên một hành động
Multi-step agents: giải quyết một mục tiêu cấp cao hơn thông qua một số hành động trong môi trường GUI.

Vì vậy, đóng góp đầu tiên của chúng tôi là thu thập và thống nhất một bộ toàn diện gồm 13 điểm chuẩn trải rộng trên toàn bộ phạm vi khả năng của GUI agent này.

Nếu bạn nhìn vào danh mục cuối cùng được liệt kê ở trên, việc đánh giá các khả năng agentic đa bước đặc biệt khó khăn vì nó yêu cầu các máy ảo để chạy môi trường của agent, cho dù đó là Windows, Android, Ubuntu… Để giải quyết vấn đề này, chúng tôi cung cấp hỗ trợ cho cả remote sandboxes của E2B desktop, và chúng tôi đã tạo từ đầu một tùy chọn mới để dễ dàng khởi chạy máy ảo Ubuntu hoặc Android trong Docker!

Chi tiết triển khai

Chúng tôi đã cẩn thận thiết kế bộ điểm chuẩn của mình với tính mô-đun và tính nhất quán trong tâm trí, đảm bảo sự liên kết mạnh mẽ giữa các tác vụ và môi trường. Khi cần thiết, đặc biệt đối với các điểm chuẩn trực tuyến, chúng tôi tận dụng smolagents làm lớp framework để hợp lý hóa việc thực thi và điều phối agent.

Để hỗ trợ khả năng tái tạo và dễ sử dụng, chúng tôi đã xây dựng các container Docker tùy chỉnh cho phép triển khai cục bộ toàn bộ môi trường Ubuntu Desktop hoặc Android.

Không giống như nhiều điểm chuẩn GUI hiện có dựa trên cây trợ năng hoặc các siêu dữ liệu khác cùng với đầu vào trực quan, ngăn xếp của chúng tôi cố ý chỉ có tầm nhìn. Mặc dù điều này có thể dẫn đến các điểm số khác nhau trên một số bảng xếp hạng đã được thiết lập, nhưng chúng tôi cho rằng nó tạo ra một thiết lập thực tế và đầy thách thức hơn, một thiết lập phản ánh tốt hơn cách con người nhận thức và tương tác với các giao diện đồ họa.

Tất cả các framework agentic (Android World, OSWorld, GAIAWeb, Mind2Web) đều sử dụng smolagents và chỉ dựa vào vision, mà không có bất kỳ cây trợ năng hoặc DOM nào được thêm vào (trái ngược với cài đặt đánh giá được báo cáo trong các nguồn khác).
Mind2Web (Multimodal) ban đầu sử dụng lựa chọn đa lựa chọn dựa trên tên phần tử dựa trên cây trợ năng và ảnh chụp màn hình, nhưng sau đó đã được điều chỉnh để nhấp chính xác trong hộp giới hạn chỉ sử dụng vision, điều này làm tăng đáng kể độ khó của tác vụ.

Ranking leading VLMs on ScreenSuite 📊

Chúng tôi đã đánh giá các VLM hàng đầu trên điểm chuẩn

Qwen-2.5-VL series of models từ 3B đến 72B. Các mô hình này được biết đến với khả năng bản địa hóa tuyệt vời, nói cách khác, chúng biết tọa độ của bất kỳ yếu tố nào trong hình ảnh, điều này khiến chúng phù hợp với các GUI agents cần nhấp chính xác.
UI-Tars-1.5-7B, all-rounder của ByteDance.
Holo1-7B, mô hình mới nhất của H company, hiển thị bản địa hóa cực kỳ hiệu quả cho kích thước của nó.
GPT-4o

Điểm số của chúng tôi nói chung phù hợp với điểm số được báo cáo trong các nguồn khác nhau! Với cảnh báo rằng chúng tôi đánh giá chỉ trên vision, gây ra một số khác biệt, hãy xem chi tiết triển khai ở trên.

💡 Lưu ý rằng ScreenSuite không có ý định sao chép chính xác các điểm chuẩn được xuất bản trong ngành: chúng tôi đánh giá các mô hình về khả năng agentic GUI dựa trên vision. Do đó, trên các điểm chuẩn như Mind2Web, nơi các điểm chuẩn khác cung cấp cho agent chế độ xem về ngữ cảnh giàu thông tin như DOM hoặc cây trợ năng, cài đặt đánh giá của chúng tôi khó hơn nhiều, do đó ScreenSuite không khớp với các nguồn khác.

Start your custom evaluation in 30s ⚡️

Đi tới repository.

Clone repository với các submodule: git clone --recurse-submodules git@github.com:huggingface/screensuite.git
Cài đặt package: uv sync --extra submodules --python 3.11
Chạy python run.py
- Ngoài ra, hãy chạy python examples/run_benchmarks.py để kiểm soát chi tiết hơn, như chạy đánh giá cho một số mô hình song song.

Các điểm chuẩn multistep yêu cầu một máy bare-metal để chạy và triển khai môi trường desktop/mobile *emulators (xem README.md)

Next steps 🚀

Dễ dàng chạy các đánh giá nhất quán và có ý nghĩa cho phép cộng đồng nhanh chóng lặp lại và đạt được tiến bộ trong lĩnh vực này, như chúng ta đã thấy với Eleuther LM evaluation harness, Open LLM Leaderboard và Chatbot Arena.

Chúng tôi hy vọng sẽ thấy nhiều mô hình mở có khả năng hơn trong tháng tới có thể chạy một loạt các tác vụ một cách đáng tin cậy và thậm chí chạy cục bộ!

Để hỗ trợ nỗ lực này:

⭐️ Đi gắn dấu sao ScreenSuite repo và cung cấp cho chúng tôi phản hồi trong các issues/PR!
👉 Theo dõi smolagents org để luôn cập nhật.

AI Today - SkyAI