The Open Evaluation Standard- Benchmarking NVIDIA Nemotron 3 Nano with NeMo Evaluator
Tiêu chuẩn Đánh giá Mở- Đánh giá Chuẩn NVIDIA Nemotron 3 Nano với Trình Đánh giá NeMo
- 16 min read
The Open Evaluation Standard: Benchmarking NVIDIA Nemotron 3 Nano with NeMo Evaluator
Thật khó để xác định liệu những cải tiến được báo cáo của một mô hình có thực sự phản ánh sự tiến bộ hay chỉ là do sự khác biệt trong điều kiện đánh giá, thành phần bộ dữ liệu hoặc dữ liệu huấn luyện giống với các tác vụ đánh giá. Cách tiếp cận cởi mở của NVIDIA cho vấn đề này là công bố các công thức đánh giá minh bạch và có thể tái tạo, cho phép kiểm chứng độc lập các kết quả.
NVIDIA đã phát hành Nemotron 3 Nano 30B A3B với phương pháp đánh giá cởi mở rõ ràng để phân biệt điều đó. Cùng với thẻ mô hình, chúng tôi công bố công thức đánh giá hoàn chỉnh được sử dụng để tạo ra kết quả, được xây dựng bằng thư viện NVIDIA NeMo Evaluator, để bất kỳ ai cũng có thể chạy lại quy trình đánh giá, kiểm tra các tạo phẩm và phân tích kết quả một cách độc lập.
Chúng tôi tin rằng đổi mới mở là nền tảng cho sự tiến bộ của AI. Mức độ minh bạch này rất quan trọng vì hầu hết các đánh giá mô hình đều bỏ qua các chi tiết quan trọng. Các cấu hình, lời nhắc, phiên bản harness, cài đặt thời gian chạy và nhật ký thường bị thiếu hoặc không được chỉ định đầy đủ, và ngay cả những khác biệt nhỏ về các tham số này cũng có thể thay đổi đáng kể kết quả. Nếu không có một công thức hoàn chỉnh, gần như không thể biết liệu một mô hình có thực sự thông minh hơn hay chỉ được tối ưu hóa cho một bài kiểm tra tiêu chuẩn.
Bài viết này hướng dẫn các nhà phát triển cách tái tạo chính xác quy trình đánh giá đằng sau Nemotron 3 Nano 30B A3B bằng cách sử dụng các công cụ, cấu hình và tạo phẩm hoàn toàn mở. Bạn sẽ tìm hiểu cách thức đánh giá được thực hiện, tại sao phương pháp này lại quan trọng và cách thực hiện cùng một quy trình làm việc đầu cuối bằng thư viện NeMo Evaluator để bạn có thể xác minh kết quả, so sánh các mô hình một cách nhất quán và tự xây dựng các quy trình đánh giá minh bạch của riêng mình.
Xây dựng quy trình đánh giá nhất quán và minh bạch với NeMo Evaluator
Một hệ thống đánh giá duy nhất, nhất quán
Các nhà phát triển và nhà nghiên cứu cần các quy trình đánh giá mà họ có thể tin cậy, chứ không phải các tập lệnh chạy một lần hoạt động khác nhau giữa các mô hình. NeMo Evaluator cung cấp một cách thống nhất để định nghĩa các bài kiểm tra tiêu chuẩn, lời nhắc, cấu hình và hành vi thời gian chạy một lần, sau đó sử dụng lại phương pháp đó trên nhiều mô hình và phiên bản. Điều này tránh được tình huống phổ biến là thiết lập đánh giá thay đổi âm thầm giữa các lần chạy, khiến việc so sánh theo thời gian trở nên khó khăn hoặc gây hiểu lầm.
Phương pháp độc lập với thiết lập suy luận
Kết quả của mô hình có thể khác nhau tùy thuộc vào backend suy luận và cấu hình, vì vậy các công cụ đánh giá không bao giờ nên bị ràng buộc với một giải pháp suy luận duy nhất. Việc khóa một công cụ đánh giá vào một giải pháp suy luận duy nhất sẽ hạn chế tính hữu ích của nó. NeMo Evaluator tránh điều này bằng cách tách quy trình đánh giá khỏi backend suy luận, cho phép cùng một cấu hình chạy trên các điểm cuối được lưu trữ, triển khai cục bộ hoặc các nhà cung cấp bên thứ ba. Sự phân tách này cho phép so sánh có ý nghĩa ngay cả khi bạn thay đổi cơ sở hạ tầng hoặc công cụ suy luận.
Được xây dựng để mở rộng vượt ra ngoài các thử nghiệm một lần
Nhiều quy trình đánh giá chỉ hoạt động một lần và sau đó bị lỗi khi phạm vi mở rộng. NeMo Evaluator được thiết kế để có thể mở rộng từ việc xác nhận nhanh, đánh giá một bài kiểm tra tiêu chuẩn đến các bộ thẻ mô hình đầy đủ và các đánh giá lặp lại trên nhiều mô hình. Trình khởi chạy, bố cục tạo phẩm và mô hình cấu hình hỗ trợ các quy trình làm việc liên tục, không chỉ các thử nghiệm riêng lẻ, để các nhóm có thể duy trì các phương pháp đánh giá nhất quán theo thời gian.
Khả năng kiểm toán với các tạo phẩm và nhật ký có cấu trúc
Đánh giá minh bạch đòi hỏi nhiều hơn là chỉ điểm số cuối cùng. Mỗi lần chạy đánh giá tạo ra các kết quả và nhật ký có cấu trúc theo mặc định, giúp dễ dàng kiểm tra cách tính điểm, hiểu các phép tính điểm, gỡ lỗi các hành vi không mong muốn và thực hiện phân tích sâu hơn. Mỗi thành phần của quá trình đánh giá đều được ghi lại và có thể tái tạo.
Một tiêu chuẩn đánh giá được chia sẻ
Bằng cách phát hành Nemotron 3 Nano 30B A3B với công thức đánh giá đầy đủ, NVIDIA đang cung cấp một phương pháp tham chiếu mà cộng đồng có thể chạy, kiểm tra và xây dựng dựa trên đó. Sử dụng cùng một cấu hình và công cụ mang lại tính nhất quán cho cách các bài kiểm tra tiêu chuẩn được chọn, thực hiện và diễn giải, cho phép so sánh đáng tin cậy hơn giữa các mô hình, nhà cung cấp và phiên bản.
Đánh giá mở cho Nemotron 3 Nano
Đánh giá mở có nghĩa là công bố không chỉ kết quả cuối cùng mà còn cả phương pháp đầy đủ đằng sau chúng, để các bài kiểm tra tiêu chuẩn được chạy một cách nhất quán và kết quả có thể được so sánh một cách có ý nghĩa theo thời gian. Đối với Nemotron 3 Nano 30B A3B, điều này bao gồm các công cụ mã nguồn mở, cấu hình minh bạch và các tạo phẩm có thể tái tạo mà bất kỳ ai cũng có thể chạy từ đầu đến cuối.
Công cụ đánh giá mô hình mã nguồn mở
NeMo Evaluator là một thư viện mã nguồn mở được thiết kế để đánh giá các mô hình tạo sinh một cách mạnh mẽ, có thể tái tạo và có thể mở rộng. Thay vì giới thiệu một trình chạy bài kiểm tra tiêu chuẩn độc lập khác, nó hoạt động như một lớp điều phối thống nhất mang nhiều harness đánh giá dưới một giao diện duy nhất, nhất quán.
Trong kiến trúc này, NeMo Evaluator tích hợp và điều phối hàng trăm bài kiểm tra tiêu chuẩn từ nhiều harness đánh giá phổ biến, bao gồm NeMo Skills cho các đánh giá tuân theo chỉ dẫn, sử dụng công cụ và tác tử của Nemotron, cũng như LM Evaluation Harness cho các bài kiểm tra tiêu chuẩn mô hình cơ bản và tiền huấn luyện, và nhiều hơn nữa (danh mục bài kiểm tra tiêu chuẩn đầy đủ). Mỗi harness giữ lại logic, bộ dữ liệu và ngữ nghĩa tính điểm gốc của nó, trong khi NeMo Evaluator chuẩn hóa cách chúng được cấu hình, thực thi và ghi nhật ký.
Điều này mang lại hai lợi thế thực tế: các nhóm có thể chạy nhiều loại bài kiểm tra tiêu chuẩn bằng một cấu hình duy nhất mà không cần viết lại các tập lệnh đánh giá tùy chỉnh, và kết quả từ các harness khác nhau được lưu trữ và kiểm tra theo cách nhất quán, có thể dự đoán được, ngay cả khi các tác vụ cơ bản khác nhau. Khung điều phối giống nhau được sử dụng nội bộ bởi các nhóm nghiên cứu và đánh giá mô hình của NVIDIA hiện đã có sẵn cho cộng đồng, cho phép các nhà phát triển chạy các đánh giá đa dạng, đa harness thông qua một quy trình làm việc được chia sẻ, có thể kiểm toán được.
Cấu hình mở
Chúng tôi đã công bố cấu hình YAML chính xác được sử dụng cho đánh giá thẻ mô hình Nemotron 3 Nano 30B A3B với NeMo Evaluator. Điều này bao gồm:
- cài đặt suy luận và triển khai mô hình
- lựa chọn bài kiểm tra tiêu chuẩn và tác vụ
- các tham số dành riêng cho bài kiểm tra tiêu chuẩn như lấy mẫu, lặp lại và mẫu lời nhắc
- các điều khiển thời gian chạy bao gồm song song hóa, thời gian chờ và thử lại
- đường dẫn đầu ra và bố cục tạo phẩm
Sử dụng cùng một cấu hình có nghĩa là chạy cùng một phương pháp đánh giá.
Nhật ký và tạo phẩm mở
Mỗi lần chạy đánh giá tạo ra các đầu ra có cấu trúc, có thể kiểm tra được, bao gồm các tệp results.json cho từng tác vụ, nhật ký thực thi để gỡ lỗi và kiểm toán, và các tạo phẩm được tổ chức theo tác vụ để dễ dàng so sánh. Cấu trúc này cho phép hiểu không chỉ điểm số cuối cùng mà còn cả cách các điểm số đó được tạo ra và để thực hiện phân tích sâu hơn về hành vi của mô hình.
Quy trình tái tạo
Việc tái tạo kết quả thẻ mô hình Nemotron 3 Nano 30B A3B tuân theo một vòng lặp đơn giản:
Quy trình làm việc tương tự áp dụng cho bất kỳ mô hình nào bạn đánh giá bằng NeMo Evaluator. Bạn có thể hướng đánh giá đến một điểm cuối được lưu trữ hoặc một triển khai cục bộ, bao gồm các nhà cung cấp suy luận phổ biến như HuggingFace, build.nvidia.com và OpenRouter. Yêu cầu chính là quyền truy cập vào mô hình, dưới dạng trọng số mà bạn có thể phục vụ hoặc dưới dạng điểm cuối mà bạn có thể gọi. Đối với hướng dẫn này, chúng tôi sử dụng điểm cuối được lưu trữ trên build.nvidia.com.
Tái tạo kết quả bài kiểm tra tiêu chuẩn Nemotron 3 Nano
Hướng dẫn này tái tạo kết quả đánh giá cho NVIDIA Nemotron 3 Nano 30B A3B bằng NeMo Evaluator. Hướng dẫn từng bước, bao gồm các cấu hình đã công bố được sử dụng cho đánh giá thẻ mô hình, có sẵn trên GitHub. Mặc dù chúng tôi đã tập trung hướng dẫn này vào Nemotron 3 Nano 30B A3B, chúng tôi cũng đã công bố các công thức cho đánh giá mô hình cơ bản.
Hướng dẫn này chạy một bộ đánh giá toàn diện của các cấu hình đã công bố được sử dụng cho đánh giá thẻ mô hình cho NVIDIA Nemotron 3 Nano 30B A3B bằng cách sử dụng các bài kiểm tra tiêu chuẩn sau:
| Benchmark | Accuracy | Category | Description |
|---|---|---|---|
| BFCL v4 | 53.8 | Function Calling | Berkeley Function Calling Leaderboard v4 |
| LiveCodeBench (v6 2025-08–2025-05) | 68.3 | Coding | Đánh giá các vấn đề lập trình thực tế |
| MMLU-Pro | 78.3 | Knowledge | Đánh giá ngôn ngữ đa nhiệm (chọn 10) |
| GPQA | 73.0 | Science | Câu hỏi cấp độ sau đại học về khoa học |
| AIME 2025 | 89.1 | Mathematics | Kỳ thi Toán học Hoa Kỳ |
| SciCode | 33.3 | Scientific Coding | Các thử thách lập trình khoa học |
| IFBench | 71.5 | Instruction Following | Bài kiểm tra tuân theo chỉ dẫn |
| HLE | 10.6 | Humanity’s Last Exam | Các câu hỏi cấp độ chuyên gia trên nhiều lĩnh vực |
Đối với chi tiết Thẻ mô hình, xem Thẻ mô hình NVIDIA Nemotron 3 Nano 30B A3B. Để tìm hiểu sâu về kiến trúc, bộ dữ liệu và bài kiểm tra tiêu chuẩn, hãy đọc Báo cáo Kỹ thuật Nemotron 3 Nano đầy đủ.
1. Cài đặt NeMo Evaluator Launcher
pip install nemo-evaluator-launcher
2. Đặt các biến môi trường cần thiết
bash
Truy cập điểm cuối NVIDIA
export NGC_API_KEY=“your-ngc-api-key”
Truy cập Hugging Face
export HF_TOKEN=“your-huggingface-token”
Chỉ cần thiết cho các bài kiểm tra tiêu chuẩn dựa trên giám khảo như HLE
export JUDGE_API_KEY=“your-judge-api-key”
Tùy chọn nhưng khuyến nghị để chạy lại nhanh hơn:
export HF_HOME="/path/to/your/huggingface/cache"
3. Điểm cuối mô hình
Quá trình đánh giá sử dụng điểm cuối API của NVIDIA được lưu trữ trên build.nvidia.com:
yaml target: api_endpoint: model_id: nvidia/nemotron-nano-3-30b-a3b url: https://integrate.api.nvidia.com/v1/chat/completions api_key_name: NGC_API_KEY
Các đánh giá có thể được chạy trên các nhà cung cấp suy luận phổ biến như HuggingFace, build.nvidia.com, hoặc OpenRouter, hoặc bất kỳ nơi nào có điểm cuối mô hình khả dụng.
Nếu bạn đang lưu trữ mô hình cục bộ hoặc sử dụng điểm cuối khác:
bash
nemo-evaluator-launcher run
–config local_nvidia_nemotron_3_nano_30b_a3b.yaml
-o target.api_endpoint.url=http://localhost:8000/v1/chat/completions
4. Chạy bộ đánh giá đầy đủ
Xem trước lần chạy mà không thực thi bằng --dry-run:
bash
nemo-evaluator-launcher run
–config local_nvidia_nemotron_3_nano_30b_a3b.yaml
–dry-run
Từ thư mục ví dụ, chạy đánh giá bằng cấu hình YAML đã cung cấp:
bash
nemo-evaluator-launcher run
–config /path/to/examples/nemotron/local_nvidia_nemotron_3_nano_30b_a3b.yaml
Lưu ý rằng để kiểm tra nhanh, bạn có thể giới hạn số lượng mẫu bằng cách đặt limit_samples:
bash
nemo-evaluator-launcher run
–config local_nvidia_nemotron_3_nano_30b_a3b.yaml
-o evaluation.nemo_evaluator_config.config.params.limit_samples=10
5. Chạy một bài kiểm tra tiêu chuẩn riêng lẻ
Bạn có thể chạy các bài kiểm tra tiêu chuẩn cụ thể bằng cờ -t (từ thư mục examples/nemotron):
bash
Chỉ chạy MMLU-Pro
nemo-evaluator-launcher run –config local_nvidia_nemotron_3_nano_30b_a3b.yaml -t ns_mmlu_pro
Chạy chỉ các bài kiểm tra tiêu chuẩn lập trình
nemo-evaluator-launcher run –config local_nvidia_nemotron_3_nano_30b_a3b.yaml -t ns_livecodebench
Chạy nhiều bài kiểm tra tiêu chuẩn cụ thể
nemo-evaluator-launcher run –config local_nvidia_nemotron_3_nano_30b_a3b.yaml -t ns_gpqa -t ns_aime2025
6. Giám sát thực thi và kiểm tra kết quả
bash
Kiểm tra trạng thái của một công việc cụ thể
nemo-evaluator-launcher status
bash
Truyền nhật ký cho một công việc cụ thể
nemo-evaluator-launcher logs
Kết quả được ghi vào thư mục đầu ra đã xác định:
tree results_nvidia_nemotron_3_nano_30b_a3b/ ├── artifacts/ │ └── <task_name>/ │ └── results.json └── logs/ └── stdout.log
Diễn giải kết quả
Khi tái tạo các đánh giá, bạn có thể quan sát thấy sự khác biệt nhỏ về điểm số cuối cùng giữa các lần chạy. Sự biến đổi này phản ánh bản chất xác suất của LLM chứ không phải là vấn đề với quy trình đánh giá. Đánh giá hiện đại giới thiệu nhiều nguồn không xác định: cài đặt giải mã, thử nghiệm lặp lại, chấm điểm dựa trên giám khảo, thực thi song song và sự khác biệt về cơ sở hạ tầng phục vụ. Tất cả đều có thể dẫn đến những biến động nhỏ.
Mục đích của đánh giá cởi mở không phải là tạo ra các đầu ra giống hệt nhau về mặt bit trong mọi lần chạy; mà là mang lại tính nhất quán về phương pháp với nguồn gốc rõ ràng của kết quả đánh giá. Để đảm bảo đánh giá của bạn khớp với tiêu chuẩn tham chiếu, hãy xác minh những điều sau:
- Cấu hình: sử dụng tệp YAML NeMo Evaluator đã công bố mà không sửa đổi, hoặc ghi lại rõ ràng bất kỳ thay đổi nào.
- Lựa chọn bài kiểm tra tiêu chuẩn: chạy các tác vụ, phiên bản tác vụ và mẫu lời nhắc dự định.
- Mục tiêu suy luận: xác minh bạn đang đánh giá mô hình và điểm cuối mong muốn, bao gồm cả hành vi của mẫu trò chuyện và cài đặt lý luận khi có liên quan.
- Cài đặt thực thi: giữ cho các tham số thời gian chạy nhất quán, bao gồm số lần lặp lại, song song hóa, thời gian chờ và hành vi thử lại.
- Đầu ra: xác nhận các tạo phẩm và nhật ký đầy đủ và tuân theo cấu trúc mong đợi cho từng tác vụ.
Khi các yếu tố này nhất quán, kết quả của bạn sẽ đại diện cho một sự tái tạo hợp lệ của phương pháp, ngay cả khi các lần chạy riêng lẻ hơi khác nhau. NeMo Evaluator đơn giản hóa quy trình này, liên kết định nghĩa bài kiểm tra tiêu chuẩn, lời nhắc, cài đặt thời gian chạy và cấu hình suy luận thành một quy trình làm việc có thể kiểm toán duy nhất để giảm thiểu sự không nhất quán.
Kết luận: Một tiêu chuẩn minh bạch hơn cho các mô hình mở
Công thức đánh giá được phát hành cùng với Nemotron 3 Nano đại diện cho một bước tiến có ý nghĩa hướng tới một phương pháp tiếp cận minh bạch và đáng tin cậy hơn để đánh giá mô hình mở. Chúng ta đang di chuyển khỏi đánh giá như một tập hợp các tập lệnh tùy chỉnh, “hộp đen”, và hướng tới một hệ thống xác định nơi việc lựa chọn bài kiểm tra tiêu chuẩn, lời nhắc và ngữ nghĩa thực thi được mã hóa thành một quy trình làm việc minh bạch.
Đối với các nhà phát triển và nhà nghiên cứu, sự minh bạch này thay đổi ý nghĩa của việc chia sẻ kết quả. Một điểm số chỉ đáng tin cậy bằng phương pháp đằng sau nó và việc công khai phương pháp đó là điều cho phép cộng đồng xác minh các tuyên bố, so sánh các mô hình một cách công bằng và tiếp tục xây dựng trên các nền tảng được chia sẻ. Với các cấu hình đánh giá mở, tạo phẩm mở và công cụ mở, Nemotron 3 Nano thể hiện cam kết về sự cởi mở đó trong thực tế.
NeMo Evaluator hỗ trợ sự thay đổi này bằng cách cung cấp một phương pháp đánh giá nhất quán trên các mô hình, phiên bản và môi trường suy luận. Mục tiêu không phải là có các con số giống hệt nhau trong mọi lần chạy; mà là sự tự tin vào một phương pháp đánh giá rõ ràng, có thể kiểm tra được và có thể lặp lại. Và đối với các tổ chức cần các quy trình đánh giá tự động hoặc quy mô lớn, một dịch vụ vi mô riêng biệt cung cấp dịch vụ vi mô NeMo Evaluator sẵn sàng cho doanh nghiệp, được xây dựng dựa trên các nguyên tắc đánh giá tương tự.
Sử dụng cấu hình đánh giá NeMo Evaluator đã công bố để xem hướng dẫn đầu cuối về công thức đánh giá.
Tham gia Cộng đồng!
NeMo Evaluator hoàn toàn là mã nguồn mở và đóng góp của cộng đồng là rất cần thiết để định hình tương lai của đánh giá mở. Nếu có một bài kiểm tra tiêu chuẩn bạn muốn chúng tôi hỗ trợ hoặc một cải tiến bạn muốn đề xuất, hãy mở một vấn đề (issue) hoặc đóng góp trực tiếp trên GitHub. Sự đóng góp của bạn giúp củng cố hệ sinh thái và thúc đẩy một tiêu chuẩn chung, minh bạch để đánh giá các mô hình tạo sinh.