Meta's Gaia2 vượt xa độ chính xác của công cụ và sở thích người dùng để kiểm tra tính mạnh mẽ trong thế giới thực
Một vấn đề dai dẳng khi đánh giá các tác nhân là làm thế nào để đo lường hiệu suất của chúng trong các kịch bản thực tế.
- 6 min read
Mô hình Gaia2 của Meta vượt xa độ chính xác của công cụ và sở thích người dùng để kiểm tra tính bền vững trong thế giới thực
Emilia David
25 tháng 9 năm 2025
Một vấn đề dai dẳng trong việc đánh giá các tác nhân là làm thế nào để đo lường hiệu suất của chúng trong các kịch bản thực tế.
Mặc dù các điểm chuẩn khác đã cố gắng giải quyết vấn đề này, nhưng các nhà nghiên cứu của Meta tin rằng cần có một phương pháp đánh giá thực tế hơn đối với các tác nhân, một phương pháp kiểm tra khả năng thích ứng của chúng trong các kịch bản đời thực.
Hãy đến với nền tảng đánh giá mới của Meta, Môi trường Nghiên cứu Tác nhân (ARE), và một mô hình điểm chuẩn mới trong đó gọi là Gaia2. ARE “hỗ trợ việc chạy dàn dựng, tạo môi trường và kết nối các ứng dụng tổng hợp hoặc thực tế để phát triển và đánh giá tác nhân.”
Trong khi đó, Gaia2, một bản nâng cấp của điểm chuẩn tác nhân Gaia trước đó của Meta, đo lường hiệu suất của tác nhân trên môi trường ARE.
Ý tưởng của Meta là các môi trường thử nghiệm hiện tại cho các tác nhân thường cần phải bắt kịp, vì vậy người đánh giá liên tục cần phải điều chỉnh các điểm chuẩn.
“Chúng tôi cho rằng việc cải thiện mô hình thông qua kinh nghiệm và triển khai trong sản xuất bị giới hạn bởi khả năng kiểm soát, sự đa dạng và tính thực tế của các môi trường hiện có. Thứ nhất, mặc dù web là một môi trường tuyệt vời để hỗ trợ các tác vụ của tác nhân như tìm kiếm, nhưng nó đang không ngừng phát triển, khiến việc tái tạo để đánh giá và nghiên cứu các hành vi phức tạp trở nên khó khăn, đặc biệt là những hành vi liên quan đến các hoạt động ghi,” bài báo của Meta cho biết.
Môi trường nghiên cứu
Ý tưởng đằng sau ARE là nó là một môi trường được xây dựng giống như thế giới thực, nơi mà một tác nhân sẽ phải tương tác. Các tác vụ trên ARE sẽ không đồng bộ, và thời gian thực tế sẽ trôi qua, và các tác nhân được triển khai trong môi trường phải thích ứng và hoạt động dựa trên những ràng buộc này.
ARE có năm nền tảng cốt lõi:
- Ứng dụng là các giao diện API có trạng thái chạm vào các nguồn dữ liệu, ví dụ: ứng dụng email, có các công cụ như send_email
- Môi trường, hoặc tập hợp các ứng dụng, dữ liệu và quy tắc
- Sự kiện là bất cứ điều gì xảy ra trong môi trường
- Thông báo hoặc tin nhắn thông báo cho tác nhân về các sự kiện và
- Kịch bản đóng vai trò là trạng thái ban đầu và các sự kiện trong môi trường, và có thể bao gồm một cơ chế xác minh
Một doanh nghiệp muốn đánh giá một tác nhân có thể xây dựng kịch bản thử nghiệm đó trên ARE, mà Meta cung cấp như một khung công tác mã nguồn mở trên GitHub, bao gồm cả công cụ mô phỏng cốt lõi, các môi trường ví dụ và dàn dựng mặc định. Họ có thể chọn xây dựng môi trường của riêng mình hoặc một môi trường đã được tải sẵn, và sau khi xác định các ứng dụng mà các tác nhân sẽ tương tác. Sau đó, các doanh nghiệp sẽ thiết lập các kịch bản cho tác nhân trước khi kết nối các tác nhân mà họ muốn thử nghiệm. Sau đó, họ sẽ bắt đầu chạy logic dàn dựng của mình và thiết lập người xác minh của mình.
Điểm chuẩn Gaia2
Điều quan trọng đối với tính hữu ích của ARE là điểm chuẩn Gaia2. Gaia2 được xây dựng trên ARE và đo lường khả năng của các tác nhân, trái ngược với việc Gaia1 kiểm tra khả năng tìm kiếm câu trả lời của tác nhân.
Nó kiểm tra cách các tác nhân hoạt động trong ARE và so sánh cách xử lý các điều kiện thay đổi, đáp ứng thời hạn, quản lý sự cố API và làm rõ các tác vụ khi hướng dẫn không rõ ràng. Gaia2 hỗ trợ một số giao thức, như Agent2Agent, để đánh giá khả năng hợp tác của tác nhân. Nó sử dụng khung công tác LLM-as-a-judge.
Vì các đánh giá ARE chạy không đồng bộ, và thời gian tiếp tục trôi qua ngay cả khi tác nhân không chạy, Gaia2 có thể đo lường xem tác nhân nhàn rỗi có phản hồi khi một sự kiện mới được gửi đến hay không.
Nó đã thử nghiệm các tác nhân trong môi trường di động trên 1.120 tác vụ.
Dựa trên thử nghiệm hiện tại và bài đăng của Giám đốc điều hành Hugging Face Clem Delangue, GPT-5 của OpenAI hiện đang dẫn đầu điểm chuẩn Gaia2.
Điểm chuẩn Gaia2 đang thu hút được sự quan tâm.
Tác nhân và các kịch bản thực tế
Các doanh nghiệp muốn đảm bảo rằng các tác nhân của họ thực sự hoạt động, nhưng điều đó có thể khó thực hiện trong các bài kiểm tra tĩnh không thực sự phản ánh những gì các tác nhân sẽ làm.
Một số điểm chuẩn và đánh giá đã được phát hành gần đây nhằm mục đích cung cấp các môi trường mô phỏng đời thực. Yourbench của Hugging Face cho phép các doanh nghiệp xây dựng môi trường thử nghiệm của riêng họ bằng dữ liệu thực. Đồng thời, MCPEval từ Salesforce cho phép các tác nhân hoạt động trong các máy chủ MCP thực tế không dựa vào các kịch bản tĩnh, được xác định trước. Inclusion Arena từ Inclusion AI cũng đo lường hiệu suất của tác nhân trong các kịch bản thực tế.
Tuy nhiên, Gaia2 khác biệt vì nó kiểm tra khả năng thích ứng và cách nó xử lý “nhiễu”. Ví dụ: Inclusion Arena đánh giá sở thích của con người và mức độ tuân thủ các hướng dẫn này của tác nhân. Mặt khác, MCPEval đo lường khả năng gọi các công cụ của tác nhân.
ARE và Gaia2 cung cấp cho các doanh nghiệp một phương tiện khác để đánh giá hiệu suất của tác nhân, cho phép họ thấy tác nhân của họ mạnh mẽ như thế nào khi có sự kiện bất ngờ xảy ra.