Gaia2 và ARE- Trao quyền cho cộng đồng nghiên cứu các tác nhân
Gaia2 và ARE là hai dự án nhằm mục đích trao quyền cho cộng đồng nghiên cứu các tác nhân.
- 13 min read
Gaia2 và ARE: Trao quyền cho cộng đồng đánh giá các tác nhân AI
Trong một thế giới lý tưởng, các tác nhân AI sẽ là những trợ lý đáng tin cậy. Khi nhận được một truy vấn, chúng sẽ dễ dàng xử lý sự mơ hồ trong hướng dẫn, xây dựng kế hoạch từng bước, xác định chính xác các nguồn lực cần thiết, thực hiện các kế hoạch đó mà không bị phân tâm và thích ứng với các sự kiện bất ngờ, tất cả trong khi duy trì độ chính xác và tránh ảo giác.
Tuy nhiên, việc phát triển các tác nhân và thử nghiệm những hành vi này không phải là một việc dễ dàng: nếu bạn đã từng cố gắng gỡ lỗi tác nhân của riêng mình, bạn có thể đã nhận thấy điều này tẻ nhạt và khó chịu như thế nào. Các môi trường đánh giá hiện có được liên kết chặt chẽ với các nhiệm vụ mà chúng đánh giá, thiếu tính linh hoạt trong thế giới thực và không phản ánh thực tế hỗn loạn của các tác nhân thế giới mở: các trang mô phỏng không bao giờ tải lỗi, các sự kiện không tự phát sinh và sự hỗn loạn không đồng bộ vắng mặt.
Đó là lý do tại sao chúng tôi rất vui mừng giới thiệu Gaia2, phần tiếp theo của điểm chuẩn năng động GAIA, cho phép phân tích các hành vi phức tạp hơn đáng kể. Gaia2 được phát hành với khung Meta Agents Research Environments (ARE) mở để chạy, gỡ lỗi và đánh giá các tác nhân. ARE mô phỏng các điều kiện giống như thế giới thực phức tạp và có thể được tùy chỉnh để nghiên cứu thêm hành vi của các tác nhân. Bộ dữ liệu Gaia2 được phát hành theo giấy phép CC by 4.0 và ARE theo giấy phép MIT.
Gaia2: Đánh giá năng động trên các nhiệm vụ trợ lý trong đời sống thực
GAIA là một điểm chuẩn năng động được công bố vào năm 2023, với 3 cấp độ câu hỏi truy xuất thông tin yêu cầu công cụ, duyệt web và lập luận để giải quyết. Trong 2 năm, các cấp độ dễ nhất đã trở nên quá dễ dàng đối với các mô hình, và cộng đồng đang tiến gần đến việc giải quyết các câu hỏi khó nhất, vì vậy đã đến lúc cần một điểm chuẩn tác nhân hoàn toàn mới và khó hơn!
Gaia2 ra đời, tiếp nối GAIA, vượt xa nó về khả năng được nghiên cứu!
GAIA chỉ đọc, Gaia2 hiện là điểm chuẩn đọc và ghi, tập trung vào hành vi tương tác và quản lý độ phức tạp. Các tác nhân hiện không chỉ được đánh giá về tìm kiếm và truy xuất mà còn về việc tuân theo hướng dẫn đối với các truy vấn mơ hồ hoặc nhạy cảm về thời gian, trong một môi trường ồn ào và có lỗi được kiểm soát - phản ánh các điều kiện thực tế hơn bất kỳ môi trường mô phỏng nào khác. Chúng tôi muốn kiểm tra cách các tác nhân quản lý các công cụ hoặc API đôi khi không hoạt động, lập kế hoạch cho các chuỗi hành động với khung thời gian rất cụ thể và thích ứng với các sự kiện mới - một phạm vi phức tạp hoàn toàn mới!
Để làm điều này, chúng tôi sử dụng các nhóm nhiệm vụ sau (nhờ 1000 kịch bản mới do con người tạo ra):
- Thực thi: Tuân thủ hướng dẫn nhiều bước và sử dụng công cụ (ví dụ: cập nhật liên hệ)
- Tìm kiếm: Thu thập thông tin từ nhiều nguồn (ví dụ: thành phố của bạn bè từ WhatsApp)
- Xử lý sự mơ hồ: Làm rõ các yêu cầu mâu thuẫn (ví dụ: xung đột lịch trình)
- Khả năng thích ứng: Phản hồi trước những thay đổi trong mô phỏng (ví dụ: cập nhật email bằng thông tin theo dõi)
- Lập luận về thời gian/thời gian: Các hành động nhạy cảm với thời gian (ví dụ: đặt xe sau 3 phút bị trì hoãn)
- Hợp tác giữa tác nhân với tác nhân: Giao tiếp giữa các tác nhân mà không có quyền truy cập API trực tiếp
- Dung sai nhiễu: Khả năng phục hồi đối với lỗi API và sự không ổn định của môi trường
Theo tinh thần của GAIA, các kịch bản không yêu cầu kiến thức chuyên môn: về nguyên tắc, con người nên đạt được 100%, điều này cho phép gỡ lỗi dễ dàng cho các nhà phát triển mô hình.
Bạn muốn khám phá điểm chuẩn? Hãy xem bộ dữ liệu của chúng tôi, mà bạn có thể hiển thị tốt hơn trong bản demo ở đây.
Gaia2 hoạt động như thế nào?
Gaia2 hoạt động với ARE, một môi trường thực thi, nơi tác nhân do bạn lựa chọn có quyền truy cập vào sự kết hợp của các ứng dụng và dữ liệu được điền sẵn.
Đối với Gaia2, chúng tôi đã tạo ra một môi trường mô phỏng điện thoại thông minh, mô phỏng những gì con người sẽ sử dụng trong cuộc sống hàng ngày. Nó chứa các ứng dụng thực tế như nhắn tin (Email), tiện ích (Lịch, Danh bạ, Mua sắm, Hệ thống tệp,…) và giao diện trò chuyện để trò chuyện với tác nhân. Tất cả các ứng dụng cũng có thể truy cập bởi các tác nhân thông qua việc gọi công cụ. Cuối cùng nhưng không kém phần quan trọng, bản demo cũng chứa lịch sử cuộc trò chuyện và tương tác ứng dụng của một người dùng giả định.
Tất cả các tương tác của tác nhân đều được tự động ghi lại dưới dạng dấu vết có cấu trúc trong quá trình thực thi để phân tích sâu: chúng bao gồm các cuộc gọi công cụ, phản hồi API, suy nghĩ của mô hình, số liệu thời gian (ví dụ: độ trễ phản hồi), tương tác của người dùng, v.v. - và tất cả đều có thể được xuất dưới dạng JSON.
Kết quả
Để tham khảo, chúng tôi so sánh một loạt các mô hình nguồn mở và nguồn đóng lớn: Llama 3.3-70B Instruct, Llama-4-Maverick, GPT-4o, Qwen3-235B-MoE, Grok-4, Kimi K2, Gemini 2.5 Pro, Claude 4 Sonnet và GPT-5 ở tất cả các chế độ lập luận.
Tất cả các mô hình đều được đánh giá bằng cùng một thiết lập (một vòng lặp ReAct đồng nhất để đảm bảo tính nhất quán, nhiệt độ 0,5, giới hạn tạo là 16K token), với sự kết hợp của đánh giá mô hình-như-người-phán-xét (Llama 3.3 Instruct 70B) và đánh giá khớp chính xác tùy thuộc vào từng nhiệm vụ cụ thể. Tất cả 101 công cụ (và mô tả môi trường chung) đều được cung cấp trong lời nhắc hệ thống.
Trong số các mô hình được đánh giá, mô hình đạt điểm cao nhất tổng thể tính đến tháng 9 năm 2025 là GPT-5 với khả năng lập luận cao và mô hình nguồn mở tốt nhất là Kimi K2.
Một số khả năng dường như đã gần được giải quyết bởi các mô hình tốt nhất: thực thi các cuộc gọi công cụ đơn giản và tuân theo hướng dẫn (execution), và tìm kiếm tổng thể (như chúng ta có thể đoán được từ các kết quả hiện tại trên GAIA). Sự mơ hồ, khả năng thích ứng và phân tách nhiễu vẫn còn thách thức đối với tất cả các mô hình hiện nay, và điều thú vị là thấy rằng hiệu suất đối với những gì được coi là các nhiệm vụ năng động phức tạp (tuân thủ hướng dẫn và tìm kiếm) không phải là đại diện tốt cho hiệu suất đối với các nhiệm vụ gần với thực tế hơn. Cuối cùng nhưng không kém phần quan trọng, phân tách khó nhất đối với tất cả các mô hình hiện nay là phân tách thời gian: hiện tại rất khó đối với các mô hình để xử lý chính xác các hành động nhạy cảm với thời gian (mặc dù điều này có thể được giảm thiểu bằng cách sử dụng các công cụ chuyên dụng và lập luận về thời gian tốt hơn). Phân tích chi tiết về những kết quả này có thể được tìm thấy trong bài báo.
Tuy nhiên, chúng tôi tin rằng điều quan trọng là phải đẩy mạnh việc báo cáo vượt ra ngoài điểm số thô: nếu mô hình chính xác nhưng mất vài nghìn token để đạt được giải pháp chính xác hoặc chạy trong vài giờ, thì nó “không tốt bằng” một mô hình đạt được kết quả nhanh hơn nhiều lần. Do đó, chúng tôi cũng chuẩn hóa điểm số cho chi phí, được định lượng là số lượng trung bình các cuộc gọi LLM và token đầu ra (cả hai đều xác định đường biên Pareto hiệu suất-chi phí). Trong bài báo, bạn sẽ tìm thấy điểm số so với chi phí tiền tệ và thời gian.
So sánh với các mô hình yêu thích của bạn! Đánh giá trên Gaia2
Nếu bạn muốn đánh giá mô hình của mình trên Gaia2, bạn có thể làm theo các bước sau:
Đầu tiên, cài đặt Meta’s Agent Research Environment trong môi trường Python bạn chọn (uv, conda, virtualenv, …).
pip install meta-agents-research-environments
Sau đó, chạy điểm chuẩn cho tất cả các cấu hình: thực thi, tìm kiếm, khả năng thích ứng, thời gian và sự mơ hồ. Đừng quên tải lên tất cả kết quả lên hub với tham số hf_upload!
are-benchmark run --hf meta-agents-research-environments/Gaia2 --split validation --config CONFIGURATION --model YOUR_MODEL --model_provider YOUR_PROVIDER --agent default --max_concurrent_scenarios 2 --scenario_timeout 300 --output_dir ./monitored_test_results --hf_upload YOUR_HUB_DATASET_TO_SAVE_RESULTS
Chạy oracle để lấy tệp điểm số tổng hợp của bạn
are-benchmark judge --hf meta-agents-research-environments/Gaia2 --split validation --config CONFIGURATION --agent default --max_concurrent_scenarios 2 --scenario_timeout 300 --output_dir ./monitored_test_results --hf_upload YOUR_HUB_DATASET_TO_SAVE_RESULTS
Cuối cùng, thêm tất cả thông tin liên quan về mô hình của bạn vào tệp README và chia sẻ nó trên bảng xếp hạng để tập trung các dấu vết Gaia2 ở đây!
Vượt xa Gaia2: nghiên cứu các tác nhân của bạn với ARE
Ngoài các kịch bản điểm chuẩn, bạn có thể sử dụng ứng dụng và nội dung Gaia2 trong ARE để xem liệu mô hình có khả năng giải quyết các nhiệm vụ ít có thể kiểm chứng hơn như tải email, viết thư theo dõi, thêm sự kiện vào lịch hoặc đặt lịch họp hay không - tóm lại, cung cấp thiết lập hoàn hảo để đánh giá trợ lý AI của bạn thông qua tương tác!
Bạn cũng có thể dễ dàng tùy chỉnh môi trường bằng cách 1) kết nối các công cụ của bạn (thông qua MCP hoặc trực tiếp) để thử nghiệm các tác nhân của bạn trên đó; 2) thực hiện các kịch bản của riêng bạn, bao gồm xác định sự kiện kích hoạt hoặc sự kiện theo thời gian (ví dụ: sau 2 phút, ứng dụng Mail sẽ nhận được email mới từ Liên hệ), để xem tác nhân có thể thích ứng với môi trường đang phát triển như thế nào
(Vì các tác nhân theo mặc định là json agents, nên chúng không thể làm hỏng máy của bạn, trừ khi bạn kết nối chúng với các ứng dụng bên ngoài có quyền không an toàn. Vì vậy, hãy hoạt động cẩn thận khi thêm ứng dụng của riêng bạn hoặc sử dụng MCP không đáng tin cậy)
Dưới đây là một số trường hợp sử dụng mà chúng tôi đã sử dụng ARE:
- Kiểm tra bất kỳ tác nhân nào trên dữ liệu thực hoặc mô phỏng, để nghiên cứu nhiều thiết lập, với các quy tắc, công cụ, nội dung và xác minh riêng của chúng
- Thử nghiệm khả năng gọi và dàn dựng công cụ của tác nhân, với các ứng dụng cục bộ hoặc công cụ MCP
- Tạo dấu vết gọi công cụ của riêng bạn để điều chỉnh tốt các mô hình gọi công cụ
- Dễ dàng thu thập và tái tạo các điểm chuẩn năng động hiện có trong một khung thống nhất
- Gỡ lỗi và nghiên cứu tương tác giữa các tác nhân ngay lập tức trong giao diện người dùng
- Nghiên cứu những hạn chế của mô hình trong môi trường ồn ào (với thời gian chờ API và sự mơ hồ)
Chúng tôi đã ghi lại 3 video để bạn có thể kiểm tra một số trường hợp sử dụng này (nhưng tất nhiên, chúng tôi hy vọng cộng đồng sẽ sáng tạo với ARE :hugging_face:). Đối với các video này, chúng tôi sử dụng bản demo mặc định được mô tả ở trên, trong đó chứa cuộc sống mô phỏng của Linda Renne, nghiên cứu sinh tiến sĩ về học máy.
1) Thử nghiệm tác nhân trên một nhiệm vụ đơn giản: tổ chức sự kiện
Để kiểm tra xem mô hình mặc định tốt đến mức nào trong việc tổ chức sự kiện, hãy lên kế hoạch cho một bữa tiệc sinh nhật!
Đầu tiên, chúng ta yêu cầu tác nhân nhắn tin cho mọi người trong gia đình Renne về bữa tiệc sinh nhật lần thứ 30 của người dùng vào ngày 7 tháng 11. Vũ trụ mặc định có 21 người liên hệ trong danh sách, bao gồm 5 thành viên gia đình Renne - Linda, người “sở hữu” mô phỏng, George và Stephie, cha mẹ cô ấy, Anna chị gái cô ấy và Morgan ông nội cô ấy. Tác nhân đã thành công khi duyệt qua danh sách liên hệ, tìm thấy bốn thành viên gia đình và nhắn tin cho họ.
Tiếp theo, chúng ta yêu cầu tác nhân tạo lời mời lịch và thêm họ vào danh sách người được mời. Tác nhân nhớ bối cảnh ở trên! Nó tạo lời mời lịch vào ngày chính xác và thêm chính xác các thành viên gia đình vào đó.
2) Hiểu các tác nhân: phân tích sâu các dấu vết
ARE cũng cho phép chúng ta kiểm tra các dấu vết đằng sau các hành động do tác nhân thực hiện.
Khi mở công cụ nhật ký tác nhân ở bên trái, chúng ta có thể thấy lời nhắc hệ thống, chuỗi suy nghĩ, các hành động nhiều bước được thực hiện với các công cụ được gọi và kết quả dưới dạng nhật ký được sắp xếp gọn gàng. Mọi thứ đều có thể được xuất dưới dạng json nếu bạn muốn tham khảo mọi thứ ngoại tuyến!
3) Chơi xung quanh và mở rộng bản demo: Kết nối tác nhân với MCP của riêng bạn
Trong ví dụ cuối cùng này, chúng ta kết nối ARE với một cánh tay rô-bốt từ xa thông qua MCP, vì vậy nó có thể ra hiệu cho chúng ta, sau đó yêu cầu tác nhân trả lời các câu hỏi có hoặc không của chúng ta bằng cách vẫy cánh tay rô-bốt! Đây là những gì nó trông giống như.
Nhưng những ví dụ này chỉ là những điểm khởi đầu rất đơn giản và chúng tôi thực sự đang hướng đến những gì bạn sẽ xây dựng! (Đối với người dùng nâng cao hơn, bạn thậm chí có thể cài đặt và chỉnh sửa trực tiếp mã Meta-ARE ở đây.)
Kết luận
Gaia2 và ARE là những công cụ nghiên cứu mới mà chúng tôi hy vọng sẽ trao quyền cho bất kỳ ai dễ dàng xây dựng các tác nhân AI đáng tin cậy và có khả năng thích ứng hơn - bằng cách cho phép thử nghiệm dễ dàng, làm cho việc đánh giá thực tế trở nên dễ tiếp cận với mọi người, cũng như cải thiện lòng tin thông qua các điểm chuẩn có thể tái tạo, minh bạch và các dấu vết có thể gỡ lỗi.
Chúng tôi rất muốn thấy những gì bạn sẽ làm với dự án này!