Thêm chất xua đuổi Benchmaxxer vào Bảng xếp hạng ASR Mở

Cập nhật Bảng xếp hạng ASR Mở để ngăn chặn Benchmaxxer

May 6, 2026
8 min read

Thêm chất xua đuổi Benchmaxxer vào Bảng xếp hạng ASR Mở — Cập nhật Bảng xếp hạng ASR Mở để ngăn chặn Benchmaxxer

Thêm “Thuốc đuổi Benchmaxxer” vào Bảng xếp hạng Open ASR

“Khi một thước đo trở thành mục tiêu, nó không còn là một thước đo tốt nữa.” (Định luật Goodhart)

Tóm tắt: Appen Inc. và DataoceanAI đã cung cấp các tập dữ liệu ASR (Nhận dạng giọng nói tự động) tiếng Anh chất lượng cao, bao gồm cả giọng đọc theo kịch bản và giọng hội thoại với nhiều chất giọng (accent) khác nhau. Để ngăn chặn rủi ro từ việc “benchmaxxing” (tối ưu hóa quá mức để lấy điểm cao trên bảng xếp hạng) hoặc làm ô nhiễm tập kiểm tra, chúng tôi sẽ giữ các tập dữ liệu này ở chế độ riêng tư để đảm bảo đánh giá chính xác hiệu suất trên nhiều tác vụ.

Chúng tôi không cập nhật WER trung bình tại thời điểm này: Theo mặc định, chỉ số WER trung bình của bảng xếp hạng vẫn chỉ được tính toán trên các tập dữ liệu công khai. Bạn có thể tùy chọn bao gồm cả các tập dữ liệu riêng tư bằng cách sử dụng nút gạt để xem tác động của chúng 👀.

Kể từ khi ra mắt vào tháng 9 năm 2023, Bảng xếp hạng Open ASR đã có hơn 710 nghìn lượt truy cập. Chúng tôi rất bất ngờ trước sự quan tâm và động lực của cộng đồng trong việc thúc đẩy công nghệ nhận dạng giọng nói 🗣️.

Có hai từ khóa tóm gọn mục tiêu (và cả thách thức) trong việc duy trì một chuẩn đánh giá như Open ASR Leaderboard:

Chuẩn hóa (Standardization): Các mô hình có thể có quy ước khác nhau về cách sử dụng và đầu ra (ví dụ: có hoặc không có dấu câu và viết hoa). Các tập dữ liệu cũng gặp thách thức tương tự và có cấu trúc khác nhau. Vì vậy, tất cả các tập kiểm tra đã được tập hợp vào một tập dữ liệu duy nhất trên Hub để dễ dàng truy cập và xem trước. Hơn nữa, để chuẩn hóa đầu ra của mô hình và bản ghi của dữ liệu, chúng tôi sử dụng một bộ chuẩn hóa (normalizer) để loại bỏ dấu câu, viết hoa và chuyển sang chính tả kiểu Mỹ. Bộ chuẩn hóa này dựa trên bộ chuẩn hóa của Whisper.
Cởi mở (Openness): Mã nguồn giao diện (UI) và kịch bản đánh giá đều được mở nguồn. Điều này không chỉ giúp tích hợp các mô hình mới mà còn cải thiện chất lượng quy trình đánh giá thông qua phản hồi và đóng góp từ cộng đồng.

Chuẩn hóa và cởi mở là điều cần thiết cho việc đánh giá có ý nghĩa, nhưng chúng cũng khiến các chuẩn đánh giá dễ bị “benchmaxxing” — tình trạng các mô hình cải thiện điểm số trên bảng xếp hạng nhưng không mang lại hiệu quả thực tế trong thế giới thực. Khi các mô hình và nhu cầu sử dụng phát triển, Open ASR Leaderboard sẽ tiếp tục tích hợp các tập dữ liệu chất lượng cao và các thiết lập đánh giá mới để phản ánh tốt hơn hiệu suất thực tế và tăng cường khả năng chống lại việc tối ưu hóa chỉ để lấy điểm benchmark.

Như đã thảo luận trong báo cáo của chúng tôi, không có một mô hình ASR nào là “vạn năng”: một số mô hình hoạt động tốt hơn với tiếng Anh Mỹ, số khác tốt hơn với các chất giọng đa dạng và thiết lập đa ngôn ngữ, trong khi số khác lại được tối ưu hóa cho tốc độ hoặc âm thanh hội thoại. Các ứng dụng khác nhau cũng ưu tiên các khả năng khác nhau, vì vậy một mô hình hoạt động kém hơn ở một khía cạnh không nhất thiết là một mô hình tệ hơn về tổng thể. Mục tiêu của Open ASR Leaderboard là nắm bắt những sắc thái này và cung cấp cái nhìn toàn diện hơn về hiệu suất ASR.

Các tập dữ liệu riêng tư chất lượng cao mới

Để đạt được mục tiêu trên, chúng tôi đã hợp tác với Appen Inc. và DataoceanAI để xây dựng các tập dữ liệu chất lượng cao cho việc đánh giá ASR. Dưới đây là thông tin chi tiết về các phân đoạn dữ liệu:

	</thead><tbody><tr>

Dưới đây là các mẫu âm thanh cho thấy sự đa dạng về nội dung (đọc theo kịch bản, hội thoại, từ viết tắt, đoạn vấp, danh từ riêng).

Mặc dù các tập dữ liệu riêng tư nghe có vẻ trái ngược với tinh thần cởi mở, chúng tôi tin rằng việc tích hợp chúng sẽ tăng mức độ tin cậy của Open ASR Leaderboard, vì chúng ít có khả năng bị lợi dụng để “benchmaxxing”, cho dù là bởi các nhà phát triển mô hình sử dụng trực tiếp các tập kiểm tra công khai hay những người cố gắng tìm dữ liệu huấn luyện tương tự để tăng điểm số trung bình.

Với các tập dữ liệu này, chúng tôi cũng có thể cung cấp các chỉ số mục tiêu để làm nổi bật khoảng cách và định kiến giữa các thiết lập được kiểm soát (đọc theo kịch bản, giọng Mỹ) và các điều kiện phức tạp hơn (hội thoại và giọng không phải Mỹ). Dưới đây là ảnh chụp màn hình của tab “Private data” mới.

Cách tính toán cho mỗi cột như sau:

“Average WER”: Tính trung bình cộng của các giá trị trung bình từ mỗi nhà cung cấp dữ liệu, để các nhà cung cấp có trọng số ngang nhau.
“Avg Scripted”: Tính trung bình cộng của tất cả các tập dữ liệu đọc theo kịch bản.
“Avg Conversational”: Tính trung bình cộng của tất cả các tập dữ liệu hội thoại.
“Avg US”: Tính trung bình cộng của tất cả các tập dữ liệu có giọng Mỹ.
“Avg non-US”: Tính trung bình cộng của tất cả các tập dữ liệu có giọng không phải Mỹ.

Chúng tôi cố tình không cung cấp điểm số cho từng phân đoạn nhỏ để tránh việc các nhà phát triển mô hình cố gắng tăng điểm chỉ cho một nhà cung cấp hoặc một chất giọng cụ thể.

Làm thế nào để đánh giá mô hình của tôi trên dữ liệu này?

Hãy đưa mô hình của bạn lên Open ASR Leaderboard và chúng tôi sẽ chạy đánh giá! Như trước đây, quy trình thêm mô hình diễn ra trên GitHub của Open ASR Leaderboard:

Mở một pull request và một danh sách kiểm tra mô hình (model checklist) sẽ xuất hiện. Bạn nên báo cáo kết quả của mình trên các tập dữ liệu công khai.
Chúng tôi sẽ xác minh kết quả trên các tập công khai và tính toán các chỉ số trên tập riêng tư.
Bạn xác nhận lại các kết quả mà chúng tôi thu được.

Trong khi chờ đợi mô hình được thêm vào bảng xếp hạng, bạn có thể tự báo cáo các chỉ số trên tập công khai bằng cách thêm một tệp YAML (ví dụ như tệp này) vào thẻ mô hình (model card) của bạn. Khi đó, mô hình sẽ xuất hiện trên một bảng xếp hạng (chưa xác minh) tại trang tập dữ liệu (xem ảnh dưới). Bạn có thể đọc thêm về cách tiếp cận đánh giá phi tập trung này tại đây.

Các mô hình được huấn luyện trên dữ liệu của nhà cung cấp có lợi thế không?

Có thể. Chúng tôi đã yêu cầu Appen và DataoceanAI không cung cấp dữ liệu này cho khách hàng của họ. Nhưng ngay cả khi họ không cung cấp chính xác dữ liệu này, dữ liệu từ một phân phối tương tự vẫn có thể giúp mô hình đạt điểm cao hơn trên tập đánh giá tương ứng. Để khắc phục, việc có nhiều nhà cung cấp dữ liệu sẽ giúp cân bằng lợi thế mà một mô hình có thể có khi sử dụng dữ liệu từ một nhà cung cấp duy nhất. Chúng tôi luôn chào đón thêm nhiều nhà cung cấp dữ liệu và tập đánh giá cho tab “Private data”!

Hơn nữa, để đảm bảo các tập riêng tư không ảnh hưởng đến xếp hạng mô hình, chúng tôi mặc định không bao gồm các tập riêng tư trong tính toán WER trung bình.

Trong ảnh dưới đây, nút gạt “Private data” đang tắt. Điều này có nghĩa là giá trị trung bình không bao gồm dữ liệu riêng tư.

Bạn chỉ cần gạt nút “Private data” sang bật để bao gồm chúng vào tính toán trung bình.

Cột “Rank Δ” cho thấy thứ hạng thay đổi như thế nào so với cấu hình trung bình mặc định. Việc bao gồm hoặc loại trừ các tập dữ liệu công khai cũng làm thay đổi giá trị trung bình, cho phép người dùng tùy chỉnh đánh giá phù hợp với trường hợp sử dụng và phân phối dữ liệu thực tế của họ.

Điều gì tiếp theo?

Chúng tôi rất mong nhận được phản hồi từ cộng đồng về việc các tính năng theo dõi mới và nút gạt dữ liệu giúp ích như thế nào trong việc xác định mô hình phù hợp nhất cho ứng dụng của bạn. Chúng tôi cũng đang nghiên cứu các phương pháp đánh giá phản ánh tốt hơn điều kiện nhiễu trong thế giới thực, hãy chờ đón tin tức về điều này 😉.

Trong quá trình chuẩn bị các tập đánh giá riêng tư, chúng tôi đã đặc biệt cẩn thận để đảm bảo chất lượng âm thanh và bản ghi nhất quán, bao gồm cả việc phát triển công cụ để xác định các trường hợp khó như điều kiện tỷ lệ tín hiệu trên nhiễu (SNR) thấp hoặc sai lệch bản ghi, vì những yếu tố này ảnh hưởng đáng kể đến WER. Chúng tôi sẽ chia sẻ chi tiết hơn trong một bài viết tương lai!

AI Today - SkyAI