Bảng xếp hạng Open ASR- Xu hướng và cái nhìn sâu sắc với các Track Đa ngôn ngữ & Dài hạn mới

Khám phá các xu hướng và những hiểu biết mới nhất từ Bảng xếp hạng Open ASR, bao gồm các Track Đa ngôn ngữ và Dài hạn mới.

  • 7 min read
Bảng xếp hạng Open ASR- Xu hướng và cái nhìn sâu sắc với các Track Đa ngôn ngữ & Dài hạn mới
Khám phá các xu hướng và những hiểu biết mới nhất từ Bảng xếp hạng Open ASR, bao gồm các Track Đa ngôn ngữ và Dài hạn mới.

Open ASR Leaderboard: Xu hướng và những phân tích chuyên sâu với các hạng mục đa ngôn ngữ & dài hạn mới

Đăng ngày: 21 tháng 11 năm 2025

Trong bối cảnh các mô hình Nhận dạng giọng nói tự động (ASR) liên tục xuất hiện, việc lựa chọn mô hình phù hợp cho nhu cầu của bạn có thể trở nên khó khăn hơn cả việc chọn xem phim trên Netflix. Tính đến ngày 21 tháng 11 năm 2025, có 150 mô hình Chuyển đổi văn bản thành giọng nói (Audio-Text-to-Text)27K mô hình ASR có sẵn trên Hugging Face Hub!

Hầu hết các bảng xếp hạng hiện tại chỉ tập trung vào phiên âm tiếng Anh ngắn (<30 giây), bỏ qua các tác vụ quan trọng khác như (1) hiệu suất đa ngôn ngữ và (2) tốc độ xử lý của mô hình, vốn là yếu tố quyết định đối với các bản âm thanh dài như cuộc họp và podcast.

Trong hai năm qua, Bảng xếp hạng ASR mở (Open ASR Leaderboard) đã trở thành một tiêu chuẩn để so sánh các mô hình mã nguồn mở và mã nguồn đóng về cả độ chính xáchiệu quả. Gần đây, các hạng mục đa ngôn ngữphiên âm dài hạn đã được bổ sung vào bảng xếp hạng 🎉.


Tóm tắt nhanh - Bảng xếp hạng ASR mở

  • 📝 Bài báo nghiên cứu mới: Phân tích xu hướng ASR từ bảng xếp hạng: https://hf.co/papers/2510.06961
  • 🧠 Độ chính xác cao nhất: Bộ mã hóa Conformer 🤝 Bộ giải mã LLM (mã nguồn mở là đỉnh cao 🥳)
  • Nhanh nhất: Bộ giải mã CTC / TDT
  • 🌍 Đa ngôn ngữ: Đi kèm với sự suy giảm hiệu suất ở các ngôn ngữ đơn.
  • Phiên âm dài hạn: Các hệ thống mã nguồn đóng vẫn dẫn đầu (tạm thời 😉).
  • 🧑‍💻 Hướng dẫn tinh chỉnh (cho Parakeet, Voxtral, Whisper): để tiếp tục cải thiện hiệu suất.

Những điểm rút ra từ hơn 60 mô hình

Tính đến ngày 21 tháng 11 năm 2025, Bảng xếp hạng ASR mở đã so sánh hơn 60 mô hình mã nguồn mở và đóng từ 18 tổ chức, trên 11 bộ dữ liệu.

Trong một bài báo nghiên cứu gần đây preprint, chúng tôi đã đi sâu vào thiết lập kỹ thuật và làm nổi bật một số xu hướng chính trong ASR hiện đại. Dưới đây là những điểm nổi bật 👇:

1. Bộ mã hóa Conformer 🤝 Bộ giải mã LLM dẫn đầu 📈

Các mô hình kết hợp bộ mã hóa Conformer với bộ giải mã mô hình ngôn ngữ lớn (LLM) hiện đang dẫn đầu về độ chính xác phiên âm tiếng Anh. Ví dụ, Canary-Qwen-2.5B của NVIDIA, Granite-Speech-3.3-8B của IBM, và Phi-4-Multimodal-Instruct của Microsoft đạt tỷ lệ lỗi từ thấp nhất (WER), cho thấy việc tích hợp khả năng suy luận của LLM có thể cải thiện đáng kể độ chính xác của ASR.

💡 Mẹo chuyên nghiệp: NVIDIA đã giới thiệu Fast Conformer, một biến thể nhanh gấp 2 lần của Conformer, được sử dụng trong các dòng mô hình Canary và Parakeet của họ.

2. Cân bằng giữa tốc độ và độ chính xác ⚖️

Mặc dù có độ chính xác cao, các bộ giải mã LLM này có xu hướng chậm hơn so với các phương pháp đơn giản. Trên Bảng xếp hạng ASR mở, hiệu quả được đo bằng hệ số thời gian thực đảo ngược (RTFx), số càng cao càng tốt.

Để có tốc độ xử lý nhanh hơn nữa, các bộ giải mã CTCTDT mang lại tốc độ xử lý nhanh hơn 10–100 lần, mặc dù có tỷ lệ lỗi cao hơn một chút. Điều này làm cho chúng trở nên lý tưởng cho các tác vụ thời gian thực, ngoại tuyến, hoặc xử lý hàng loạt (như cuộc họp, bài giảng hoặc podcast).

3. Đa ngôn ngữ 🌍

Whisper Large v3 của OpenAI vẫn là một nền tảng đa ngôn ngữ mạnh mẽ, hỗ trợ 99 ngôn ngữ. Tuy nhiên, các biến thể được tinh chỉnh hoặc chắt lọc như Distil-WhisperCrisperWhisper thường vượt trội hơn bản gốc trong các tác vụ chỉ tiếng Anh, cho thấy cách tinh chỉnh tập trung có thể cải thiện tính chuyên môn hóa (làm thế nào để tinh chỉnh? Hãy xem các hướng dẫn cho Whisper, Parakeet, và Voxtral).

Tuy nhiên, việc tập trung vào tiếng Anh có xu hướng giảm phạm vi đa ngôn ngữ 👉 một ví dụ điển hình về sự cân bằng giữa chuyên môn hóa và tổng quát hóa. Tương tự, mặc dù các hệ thống tự giám sát như Massively Multilingual Speech (MMS) của MetaOmnilingual ASR có thể hỗ trợ hơn 1000 ngôn ngữ, chúng vẫn kém hơn bộ mã hóa dành riêng cho từng ngôn ngữ về độ chính xác.

Mặc dù hiện tại chỉ có năm ngôn ngữ được kiểm tra, chúng tôi có kế hoạch mở rộng sang nhiều ngôn ngữ hơn và mong muốn nhận được các đóng góp về bộ dữ liệu và mô hình mới cho ASR đa ngôn ngữ thông qua các yêu cầu pull request trên GitHub.

🎯 Song song với các chỉ số đa ngôn ngữ, một số bảng xếp hạng do cộng đồng phát triển tập trung vào từng ngôn ngữ. Ví dụ, Bảng xếp hạng ASR tiếng Ả Rập phổ quát mở so sánh các mô hình trên tiếng Ả Rập chuẩn hiện đại và các phương ngữ khu vực, làm nổi bật cách sự biến đổi giọng nói và sự song ngữ thách thức các hệ thống hiện tại. Tương tự, Bảng xếp hạng ASR tiếng Nga cung cấp một trung tâm ngày càng phát triển để đánh giá các mô hình mã hóa-giải mã và CTC trên ngữ âm và hình thái học đặc trưng của tiếng Nga. Các nỗ lực cục bộ này phản ánh sứ mệnh của bảng xếp hạng đa ngôn ngữ rộng lớn hơn là khuyến khích chia sẻ bộ dữ liệu, các điểm kiểm tra đã tinh chỉnh và so sánh mô hình minh bạch, đặc biệt là đối với các ngôn ngữ có ít tài nguyên ASR đã được thiết lập.

4. Phiên âm dài hạn là một câu chuyện khác ⏳

Đối với âm thanh dài (ví dụ: podcast, bài giảng, cuộc họp), các hệ thống mã nguồn đóng vẫn vượt trội hơn các hệ thống mở. Điều này có thể là do tinh chỉnh theo miền, phân đoạn tùy chỉnh hoặc tối ưu hóa cấp độ sản xuất.

Trong số các mô hình mở, Whisper Large v3 của OpenAI hoạt động tốt nhất. Nhưng về tốc độ xử lý, các bộ mã hóa dựa trên CTC lại tỏa sáng 👉 ví dụ, Parakeet CTC 1.1B của NVIDIA đạt RTFx là 2793,75, so với 68,56 của Whisper Large v3, với chỉ sự suy giảm WER vừa phải (lần lượt là 6,686,43).

Sự đánh đổi là gì? Parakeet chỉ hỗ trợ tiếng Anh, một lần nữa nhắc nhở chúng ta về sự cân bằng giữa đa ngôn ngữ và chuyên môn hóa 🫠.

Mặc dù các hệ thống đóng vẫn dẫn đầu, có tiềm năng lớn cho sự đổi mới mã nguồn mở ở đây. ASR cho âm thanh dài vẫn là một trong những biên giới thú vị nhất để cộng đồng chinh phục tiếp theo!


🎤 Buổi biểu diễn phải tiếp tục

Với tốc độ phát triển nhanh chóng của ASR, chúng tôi rất mong chờ những kiến trúc mới sẽ đẩy mạnh hiệu suất và hiệu quả, và cách Bảng xếp hạng ASR mở tiếp tục đóng vai trò là một chuẩn mực minh bạch, do cộng đồng phát triển cho lĩnh vực này, và là tài liệu tham khảo cho các bảng xếp hạng khác (Tiếng Nga, Tiếng Ả Rập, và Phát hiện DeepFake bằng giọng nói).

Chúng tôi sẽ tiếp tục mở rộng Bảng xếp hạng ASR mở với nhiều mô hình hơn, nhiều ngôn ngữ hơn và nhiều bộ dữ liệu hơn nên hãy chú ý theo dõi 👀

👉 Muốn đóng góp? Hãy truy cập kho lưu trữ GitHub để gửi một yêu cầu pull request 🚀


Recommended for You

20x Fine-tuning TRL nhanh hơn với RapidFire AI

20x Fine-tuning TRL nhanh hơn với RapidFire AI

Tìm hiểu cách Fine-tuning TRL nhanh hơn 20 lần bằng cách sử dụng RapidFire AI.

Giới thiệu AnyLanguageModel- Một API cho LLM Cục bộ và Từ xa trên Nền tảng Apple

Giới thiệu AnyLanguageModel- Một API cho LLM Cục bộ và Từ xa trên Nền tảng Apple

Giới thiệu AnyLanguageModel, một giải pháp API thống nhất cho các LLM cục bộ và từ xa trên các nền tảng Apple.