Cách NVIDIA AI-Q đạt vị trí số 1 trên DeepResearch Bench I và II

Bài viết phân tích về việc mô hình AI-Q của NVIDIA đã đạt được hiệu suất dẫn đầu trên các bảng xếp hạng đánh giá nghiên cứu chuyên sâu như thế nào.

March 12, 2026
7 min read

Cách NVIDIA AI-Q đạt vị trí số 1 trên DeepResearch Bench I và II — Bài viết phân tích về việc mô hình AI-Q của NVIDIA đã đạt được hiệu suất dẫn đầu trên các bảng xếp hạng đánh giá nghiên cứu chuyên sâu như thế nào.

NVIDIA AI-Q đã đạt vị trí số 1 trên bảng xếp hạng DeepResearch Bench I và II như thế nào

Tác giả: David Austin (NVIDIA)
Ngày đăng: 12 tháng 3, 2026

Tác nhân nghiên cứu chuyên sâu (deep research agent) của NVIDIA AI-Q gần đây đã đạt vị trí thứ nhất trên cả hai bảng xếp hạng DeepResearch Bench (55.95) và DeepResearch Bench II (54.50) — hai thước đo chính để đánh giá các tác nhân nghiên cứu chuyên sâu. Điều này đánh dấu một bước tiến ý nghĩa cho lĩnh vực nghiên cứu chuyên sâu mở và linh hoạt. Việc một bộ công cụ (stack) cấu hình được dẫn đầu ở cả hai bảng xếp hạng cho thấy các mô hình và công cụ dễ tiếp cận cho nhà phát triển hoàn toàn có thể tạo ra các tác nhân nghiên cứu ở trình độ hiện đại nhất.

Điều gì làm cho AI-Q trở nên khác biệt? AI-Q là bản thiết kế mở để xây dựng các tác nhân AI có khả năng suy luận trên dữ liệu doanh nghiệp và web để đưa ra các phản hồi có trích dẫn nguồn rõ ràng. AI-Q cung cấp một kiến trúc mở và mô-đun hoàn toàn, cho phép các doanh nghiệp sở hữu, kiểm tra, tùy chỉnh và cấu hình theo từng trường hợp sử dụng. Bộ nghiên cứu chuyên sâu này là một quy trình nằm trong bản thiết kế AI-Q lớn hơn, bao gồm định tuyến ý định, làm rõ truy vấn và nghiên cứu sơ bộ. Bộ nghiên cứu này áp dụng kiến trúc đa tác nhân (multi-agent) gồm người lập kế hoạch (planner), người nghiên cứu (researcher) và điều phối viên (orchestrator), được xây dựng trên NVIDIA NeMo Agent Toolkit và các mô hình NVIDIA Nemotron 3 Super đã được tinh chỉnh, cùng tùy chọn ensemble (tập hợp) và bộ tinh chỉnh báo cáo để đạt chất lượng cao nhất.

Tại sao việc chiến thắng cả hai bảng xếp hạng lại quan trọng?

DeepResearch Bench I và II đánh giá các tác nhân nghiên cứu theo những cách bổ sung cho nhau:

DeepResearch Bench: Đánh giá chất lượng báo cáo so với báo cáo tham chiếu dựa trên các tiêu chí: tính toàn diện, chiều sâu thông tin, khả năng tuân thủ hướng dẫn và khả năng đọc. Kết quả tốt tại đây ghi nhận các bài viết chỉn chu, có cấu trúc tốt và khả năng tổng hợp mạnh mẽ.
DeepResearch Bench II: Sử dụng hơn 70 tiêu chuẩn nhị phân chi tiết cho mỗi nhiệm vụ để kiểm tra xem tác nhân có truy xuất đúng thông tin (Thu hồi thông tin), tổng hợp thông tin thành phân tích cấp cao (Phân tích) và trình bày kết quả rõ ràng (Trình bày) hay không. Kết quả tốt tại đây ghi nhận độ chính xác thực tế chi tiết và tính nghiêm ngặt trong phân tích.

Việc dẫn đầu cả hai bảng xếp hạng nghĩa là AI-Q tạo ra các báo cáo chỉn chu, có trích dẫn tốt, đồng thời đảm bảo sự chính xác trong việc truy xuất và suy luận cơ bản.

Tổng quan về kiến trúc

Kiến trúc nghiên cứu chuyên sâu của AI-Q bao gồm ba thành phần chính: một điều phối viên điều phối quy trình nghiên cứu, một người lập kế hoạch vạch ra bối cảnh thông tin và thiết kế kế hoạch nghiên cứu dựa trên bằng chứng, và một người nghiên cứu điều động các chuyên gia song song để thu thập và tổng hợp bằng chứng qua nhiều góc độ phân tích.

AI-Q

Hình 1. Quy trình nghiên cứu chuyên sâu AI-Q: Điều phối viên, người lập kế hoạch và đường ống nghiên cứu (phải) với tùy chọn ensemble (trái).

Hệ thống cốt lõi: NVIDIA và Deep Research

Hệ thống nền tảng giống nhau đã thúc đẩy cả hai kết quả bảng xếp hạng: mở, có thể tái lập và được xây dựng trên:

NVIDIA NeMo Agent Toolkit: Dùng để kết nối quy trình, đăng ký hàm và đánh giá. Thư viện mã nguồn mở này cung cấp khả năng soạn thảo các LLM và công cụ dựa trên cấu hình, cũng như khả năng cắm các đồ thị tác nhân khác nhau.
LangChain DeepAgents: Cho luồng đa pha: lập kế hoạch – nghiên cứu – điều phối.
Mô hình NVIDIA Nemotron 3: Cung cấp năng lượng cho đường ống tác nhân. Các mô hình Nemotron có thể được tinh chỉnh để xuất sắc trong việc tổng hợp nghiên cứu và thực hiện gọi công cụ dài hạn. Có thể được phục vụ qua NVIDIA Build hoặc NVIDIA NIM.

Các thành phần chính trong AI-Q

Bốn thành phần trung tâm đóng góp vào kết quả này:

Kiến trúc đa tác nhân: Với việc lập kế hoạch dựa trên bằng chứng và các chuyên gia nghiên cứu, xây dựng trên NVIDIA NeMo Agent Toolkit và LangChain DeepAgents.
NVIDIA Nemotron 3 Super đã được tinh chỉnh: Khoảng 67.000 quỹ đạo SFT (tinh chỉnh có giám sát) từ một vài bộ dữ liệu hạt giống với các câu hỏi nghiên cứu, được lọc bằng bộ đánh giá dựa trên nguyên tắc.
Middleware tùy chỉnh: Để đảm bảo độ tin cậy trong các tác vụ dài hạn.
Ensemble researcher và bộ tinh chỉnh báo cáo (tùy chọn): Các đầu ra đường ống song song được hợp nhất bởi một LLM, với một bộ tinh chỉnh hậu kỳ để đạt chất lượng báo cáo tối đa.

Tinh chỉnh NVIDIA Nemotron 3 Super: Dữ liệu và Đào tạo

Một yếu tố chính trong kết quả là mô hình NVIDIA Nemotron-3-Super-120B-A12B được tinh chỉnh tùy chỉnh.

Tạo quỹ đạo (Trajectory generation):

Thu thập câu hỏi nghiên cứu từ các bộ dữ liệu mở: ~17k từ OpenScholar, 21k từ ResearchQA và 2457 từ Fathom-DeepResearch-SFT.
Tạo ~80k quỹ đạo cho toàn bộ quy trình bằng mô hình GPT-OSS-120B mã nguồn mở.
Các quỹ đạo này bao gồm kết quả tìm kiếm web thực tế từ các API Tavily và Serper để mô hình học cách điều hướng và thực hiện tìm kiếm đa bước.

Lọc dựa trên nguyên tắc:

Các quỹ đạo hoàn thành được chấm điểm với mô hình đánh giá nvidia/Qwen3-Nemotron-32B-GenRM-Principle, dự đoán chất lượng theo các chiều: tính toàn diện, khả năng đọc, độ chính xác và tính liên quan.
Sau khi lọc, ~67k quỹ đạo được giữ lại để đào tạo.

Đào tạo SFT:

Mô hình: NVIDIA Nemotron-3-Super-120B-A12B.
Thiết lập: Một epoch, 5.615 bước, khoảng 25 giờ trên 16×8 GPU NVIDIA H100.

AI-Q Deep Researcher

AI-Q áp dụng kiến trúc đa tác nhân với các vòng lặp lập kế hoạch → thu thập → tổng hợp, quản lý trích dẫn và middleware tùy chỉnh cho độ tin cậy dài hạn.

Điều phối viên: Điều phối toàn bộ vòng lặp nghiên cứu. Gọi người lập kế hoạch để tạo kế hoạch nghiên cứu, sau đó gọi người nghiên cứu nhiều lần với các nhiệm vụ tập trung. Sau đó, điều phối viên xem xét các ràng buộc chất lượng và viết báo cáo dài.
Người lập kế hoạch: Chạy theo hai giai đoạn. Một tác nhân phụ Scout lập bản đồ thông tin thông qua tìm kiếm rộng. Một tác nhân phụ Architect thiết kế kế hoạch nghiên cứu bao gồm dàn ý, các truy vấn tìm kiếm mục tiêu và các ràng buộc chất lượng.
Người nghiên cứu: Điều động nhiều tác nhân phụ chuyên gia song song, mỗi người với một ống kính phân tích riêng (Thu thập bằng chứng, Khám phá cơ chế, Đối chiếu, Phê bình, Quét chân trời).

Những điểm chính

NVIDIA AI-Q đã đạt vị trí thứ nhất trên cả hai bảng xếp hạng với một hệ thống duy nhất: một nhà nghiên cứu sâu đa tác nhân được xây dựng trên NVIDIA NeMo Agent Toolkit, các mô hình NVIDIA Nemotron 3 đã tinh chỉnh và middleware tùy chỉnh. Hệ thống này mở, có thể tái lập và có thể cấu hình theo nhu cầu của bạn. Kết quả ở trình độ hiện đại nhất mà không ảnh hưởng đến tính minh bạch hoặc khả năng kiểm soát.

Hãy tham gia cùng chúng tôi tại NVIDIA GTC ở San Jose vào tuần của ngày 16 tháng 3 năm 2026 để tìm hiểu thêm.

AI Today - SkyAI