Đánh giá cộng đồng- Bởi vì chúng tôi đã chán việc tin tưởng các bảng xếp hạng hộp đen hơn cộng đồng
Đánh giá cộng đồng- Bởi vì chúng tôi đã chán việc tin tưởng các bảng xếp hạng hộp đen hơn cộng đồng
- 5 min read
Community Evals: Chúng tôi đã chán việc tin tưởng các bảng xếp hạng hộp đen thay vì cộng đồng
Tóm tắt: Các bộ dữ liệu Benchmark trên Hugging Face giờ đây có thể lưu trữ bảng xếp hạng. Các mô hình tự lưu điểm đánh giá. Mọi thứ được liên kết với nhau. Cộng đồng có thể gửi kết quả qua PR. Huy hiệu đã xác minh chứng minh kết quả có thể được tái tạo.
Đánh giá đang gặp sự cố
Thực tế là chúng ta đang ở đâu với các đánh giá vào năm 2026. MMLU đã đạt 91%. GSM8K đạt 94%+. HumanEval đã được chinh phục. Tuy nhiên, một số mô hình đạt điểm cao trong các bài kiểm tra lại không thể duyệt web một cách đáng tin cậy, viết mã sản xuất hoặc xử lý các tác vụ nhiều bước mà không bị ảo giác, dựa trên báo cáo sử dụng. Rõ ràng có một khoảng cách giữa điểm số benchmark và hiệu suất thực tế.
Hơn nữa, còn có một khoảng cách khác trong các điểm số benchmark được báo cáo. Nhiều nguồn báo cáo kết quả khác nhau. Từ Thẻ Mô hình, đến các bài báo, đến các nền tảng đánh giá, không có sự nhất quán trong các điểm số được báo cáo. Kết quả là cộng đồng thiếu một nguồn sự thật duy nhất.
Chúng tôi đang tung ra cái gì
Báo cáo đánh giá phi tập trung và minh bạch.
Chúng tôi sẽ đưa các đánh giá trên Hugging Face Hub đi theo một hướng mới bằng cách phi tập trung hóa việc báo cáo và cho phép toàn bộ cộng đồng công khai báo cáo điểm số cho các benchmark. Ban đầu, chúng tôi sẽ bắt đầu với một danh sách ngắn gồm 4 benchmark và theo thời gian, chúng tôi sẽ mở rộng ra các benchmark phù hợp nhất.
Đối với Benchmarks: Các kho lưu trữ dữ liệu có thể đăng ký làm benchmark (MMLU-Pro, GPQA, HLE đã hoạt động). Chúng tự động tổng hợp các kết quả được báo cáo từ khắp Hub và hiển thị bảng xếp hạng trên thẻ dữ liệu. Benchmark xác định thông số đánh giá thông qua eval.yaml, dựa trên định dạng Inspect AI, để bất kỳ ai cũng có thể tái tạo nó. Các kết quả được báo cáo cần phải phù hợp với định nghĩa nhiệm vụ.
Đối với Mô hình: Điểm đánh giá nằm trong .eval_results/*.yaml trong kho lưu trữ mô hình. Chúng xuất hiện trên thẻ mô hình và được đưa vào các bộ dữ liệu benchmark. Cả kết quả của tác giả mô hình và các pull request mở cho kết quả sẽ được tổng hợp. Tác giả mô hình có thể đóng PR điểm số và ẩn kết quả.
Đối với Cộng đồng: Bất kỳ người dùng nào cũng có thể gửi kết quả đánh giá cho bất kỳ mô hình nào thông qua PR. Kết quả sẽ được hiển thị dưới dạng “cộng đồng”, mà không cần chờ tác giả mô hình hợp nhất hoặc đóng. Cộng đồng có thể liên kết đến các nguồn như bài báo, Thẻ Mô hình, nền tảng đánh giá của bên thứ ba hoặc nhật ký đánh giá inspect. Cộng đồng có thể thảo luận về điểm số như bất kỳ PR nào. Vì Hub dựa trên Git, nên có lịch sử về thời điểm các đánh giá được thêm vào, khi nào các thay đổi được thực hiện, v.v. Các nguồn trông giống như bên dưới.
Để tìm hiểu thêm về kết quả đánh giá, hãy xem tài liệu.
Tại sao điều này quan trọng
Việc phi tập trung hóa đánh giá sẽ làm lộ các điểm số đã tồn tại trong cộng đồng từ các nguồn như thẻ mô hình và bài báo. Bằng cách làm lộ các điểm số này, cộng đồng có thể xây dựng dựa trên chúng để tổng hợp, theo dõi và hiểu các điểm số trên toàn lĩnh vực. Ngoài ra, tất cả các điểm số sẽ được hiển thị qua các API của Hub, giúp dễ dàng tổng hợp và xây dựng bảng xếp hạng, bảng điều khiển, v.v. được tuyển chọn.
Đánh giá cộng đồng không thay thế các benchmark, vì vậy các bảng xếp hạng và đánh giá kín với kết quả được xuất bản vẫn rất quan trọng. Tuy nhiên, chúng tôi tin rằng điều quan trọng là đóng góp cho lĩnh vực này với các kết quả đánh giá mở dựa trên các thông số đánh giá có thể tái tạo.
Điều này sẽ không giải quyết được vấn đề bão hòa benchmark hoặc thu hẹp khoảng cách benchmark-thực tế. Nó cũng sẽ không ngăn chặn việc đào tạo trên tập dữ liệu kiểm thử. Nhưng nó làm cho trò chơi trở nên rõ ràng bằng cách làm lộ những gì được đánh giá, như thế nào, khi nào và bởi ai.
Quan trọng nhất, chúng tôi hy vọng sẽ làm cho Hub trở thành một nơi sôi động để xây dựng và chia sẻ các benchmark có thể tái tạo. Đặc biệt tập trung vào các nhiệm vụ và lĩnh vực mới thách thức các mô hình SOTA hơn.
Bắt đầu
Thêm kết quả đánh giá: Xuất bản các đánh giá bạn đã thực hiện dưới dạng tệp YAML trong .eval_results/ trên bất kỳ kho lưu trữ mô hình nào.
Kiểm tra điểm số trên bộ dữ liệu benchmark.
Đăng ký benchmark mới: Thêm eval.yaml vào kho lưu trữ dữ liệu của bạn và liên hệ với chúng tôi để được đưa vào danh sách rút gọn.
Tính năng này đang trong giai đoạn beta. Chúng tôi đang xây dựng công khai. Rất mong nhận được phản hồi.
Link bài viết gốc
- Tags:
- Ai
- 4 February 2026
- Huggingface.co