Voxtral chuyển giọng nói thành văn bản với tốc độ âm thanh
Diarization chính xác, bản ghi thời gian thực và một playground âm thanh mới.
- 8 min read
Voxtral Transcribe 2: Chuyển đổi giọng nói với tốc độ âm thanh
Mistral AI vừa ra mắt Voxtral Transcribe 2, một bộ đôi mô hình chuyển đổi giọng nói thành văn bản thế hệ mới, mang đến chất lượng vượt trội, khả năng phân biệt người nói và độ trễ cực thấp. Dòng sản phẩm này bao gồm Voxtral Mini Transcribe V2 cho tác vụ chuyển đổi theo lô và Voxtral Realtime cho các ứng dụng trực tiếp. Đặc biệt, Voxtral Realtime được phát hành dưới dạng mã nguồn mở với giấy phép Apache 2.0.
Mistral AI cũng giới thiệu khu vực thử nghiệm âm thanh (audio playground) trong Mistral Studio để người dùng có thể kiểm tra khả năng chuyển đổi giọng nói tức thời của Voxtral Transcribe 2, bao gồm cả việc phân biệt người nói và dấu thời gian.
Các điểm nổi bật:
- Voxtral Mini Transcribe V2: Chuyển đổi giọng nói tiên tiến với khả năng phân biệt người nói, điều chỉnh ngữ cảnh và dấu thời gian theo từng từ, hỗ trợ 13 ngôn ngữ.
- Voxtral Realtime: Được tối ưu hóa cho chuyển đổi giọng nói trực tiếp, với độ trễ có thể tùy chỉnh xuống dưới 200ms, mở ra khả năng cho các tác nhân giọng nói và ứng dụng thời gian thực.
- Hiệu quả hàng đầu: Đạt độ chính xác vượt trội với chi phí thấp hơn đáng kể. Voxtral Mini Transcribe V2 có tỷ lệ lỗi từ thấp nhất và mức giá cạnh tranh nhất trên thị trường.
- Mã nguồn mở: Voxtral Realtime được phát hành theo giấy phép Apache 2.0, cho phép triển khai trên các thiết bị biên (edge devices) để đảm bảo quyền riêng tư cho các ứng dụng nhạy cảm.
Voxtral Realtime
Voxtral Realtime được thiết kế đặc biệt cho các ứng dụng yêu cầu độ trễ thấp. Thay vì xử lý âm thanh theo từng khối như các phương pháp truyền thống, Realtime sử dụng kiến trúc streaming mới, chuyển đổi giọng nói ngay khi âm thanh được nhận. Mô hình này cho phép tùy chỉnh độ trễ xuống dưới 200ms, mở ra tiềm năng cho các ứng dụng giọng nói thế hệ mới.
Hình ảnh minh họa:
Tỷ lệ lỗi từ (WER - càng thấp càng tốt) trên các ngôn ngữ trong benchmark chuyển đổi giọng nói FLEURS.
Với độ trễ 2.4 giây, lý tưởng cho việc tạo phụ đề, Realtime đạt được chất lượng tương đương với Voxtral Mini Transcribe V2. Ở độ trễ 480ms, tỷ lệ lỗi từ của nó chỉ trong khoảng 1-2%, cho phép các tác nhân giọng nói hoạt động với độ chính xác gần như ngoại tuyến.
Mô hình này hỗ trợ đa ngôn ngữ, cung cấp hiệu suất chuyển đổi mạnh mẽ cho 13 ngôn ngữ, bao gồm tiếng Anh, tiếng Trung, tiếng Hindi, tiếng Tây Ban Nha, tiếng Ả Rập, tiếng Pháp, tiếng Bồ Đào Nha, tiếng Nga, tiếng Đức, tiếng Nhật, tiếng Hàn, tiếng Ý và tiếng Hà Lan. Với kích thước 4B tham số, mô hình hoạt động hiệu quả trên các thiết bị biên, đảm bảo quyền riêng tư và bảo mật cho các triển khai nhạy cảm.
Voxtral Realtime đã được phát hành trên Hugging Face Hub theo giấy phép Apache 2.0.
Voxtral Mini Transcribe V2
Hình ảnh minh họa:
Tỷ lệ lỗi phân biệt người nói trung bình (càng thấp càng tốt) trên 5 benchmark tiếng Anh (Switchboard, CallHome, AMI-IHM, AMI-SDM, SBCSAE) và benchmark đa ngôn ngữ TalkBank (Đức, Tây Ban Nha, Anh, Trung, Nhật).
Hình ảnh minh họa:
Tỷ lệ lỗi từ trung bình (càng thấp càng tốt) trên 10 ngôn ngữ hàng đầu trong benchmark chuyển đổi giọng nói FLEURS.
Voxtral Mini Transcribe V2 mang lại những cải tiến đáng kể về chất lượng chuyển đổi và phân biệt người nói trên nhiều ngôn ngữ và lĩnh vực. Với tỷ lệ lỗi từ khoảng 4% trên FLEURS và chi phí chỉ $0.003/phút, Voxtral cung cấp hiệu suất giá tốt nhất so với bất kỳ API chuyển đổi giọng nói nào. Nó vượt trội hơn GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal và Deepgram Nova về độ chính xác, đồng thời xử lý âm thanh nhanh hơn khoảng 3 lần so với Scribe v2 của ElevenLabs mà vẫn đạt chất lượng tương đương với chi phí chỉ bằng 1/5.
Tính năng của mô hình:
- Phân biệt người nói (Speaker diarization): Tạo bản ghi với nhãn người nói và dấu thời gian chính xác. Rất lý tưởng cho việc ghi lại biên bản cuộc họp, phân tích phỏng vấn và xử lý cuộc gọi đa bên. Lưu ý: với trường hợp có nhiều người nói đồng thời, mô hình thường chỉ ghi lại lời của một người.
- Điều chỉnh theo ngữ cảnh (Context biasing): Cung cấp tối đa 100 từ hoặc cụm từ để hướng dẫn mô hình ghi đúng chính tả tên riêng, thuật ngữ kỹ thuật hoặc từ vựng chuyên ngành. Tính năng này đặc biệt hữu ích cho các danh từ riêng hoặc thuật ngữ ngành mà các mô hình thông thường thường bỏ sót. Tính năng này được tối ưu hóa cho tiếng Anh; hỗ trợ cho các ngôn ngữ khác mang tính thử nghiệm.
- Dấu thời gian theo từ (Word-level timestamps): Tạo dấu thời gian bắt đầu và kết thúc chính xác cho từng từ, cho phép ứng dụng tạo phụ đề, tìm kiếm âm thanh và căn chỉnh nội dung.
- Hỗ trợ đa ngôn ngữ mở rộng: Tương tự như Realtime, mô hình này hiện hỗ trợ 13 ngôn ngữ: Anh, Trung, Hindi, Tây Ban Nha, Ả Rập, Pháp, Bồ Đào Nha, Nga, Đức, Nhật, Hàn, Ý và Hà Lan. Hiệu suất trên các ngôn ngữ ngoài tiếng Anh vượt trội hơn hẳn so với đối thủ cạnh tranh.
- Khả năng chống nhiễu (Noise robustness): Duy trì độ chính xác trong các môi trường âm thanh thách thức như nhà máy, trung tâm cuộc gọi ồn ào hoặc bản ghi âm thực địa.
- Hỗ trợ âm thanh dài: Xử lý các bản ghi có thời lượng lên đến 3 giờ cho mỗi yêu cầu.
Khu vực thử nghiệm âm thanh (Audio Playground)
Người dùng có thể trải nghiệm Voxtral Transcribe 2 trực tiếp trên Mistral Studio. Tại đây, bạn có thể tải lên tối đa 10 tệp âm thanh, bật tính năng phân biệt người nói, chọn mức độ chi tiết của dấu thời gian và thêm các thuật ngữ điều chỉnh theo ngữ cảnh cho từ vựng chuyên ngành. Định dạng tệp được hỗ trợ bao gồm .mp3, .wav, .m4a, .flac, .ogg với dung lượng tối đa 1GB mỗi tệp.
Chuyển đổi các ứng dụng giọng nói
Voxtral cung cấp sức mạnh cho các quy trình làm việc bằng giọng nói trong nhiều ứng dụng và ngành công nghiệp đa dạng:
- Thông tin chi tiết về cuộc họp: Chuyển đổi bản ghi đa ngôn ngữ với khả năng phân biệt người nói, giúp xác định rõ ai đã nói gì và khi nào. Với mức giá của Voxtral, bạn có thể chú thích khối lượng lớn nội dung cuộc họp với hiệu quả chi phí hàng đầu.
- Tác nhân giọng nói và trợ lý ảo: Xây dựng AI đàm thoại với độ trễ chuyển đổi dưới 200ms. Kết nối Voxtral Realtime với LLM và pipeline TTS của bạn để tạo ra giao diện giọng nói phản hồi tự nhiên.
- Tự động hóa trung tâm liên lạc: Chuyển đổi cuộc gọi theo thời gian thực, cho phép hệ thống AI phân tích cảm xúc, đề xuất phản hồi và điền vào các trường CRM trong khi cuộc trò chuyện vẫn đang diễn ra. Tính năng phân biệt người nói đảm bảo sự phân công rõ ràng giữa nhân viên và khách hàng.
- Truyền thông và phát thanh: Tạo phụ đề đa ngôn ngữ trực tiếp với độ trễ tối thiểu. Tính năng điều chỉnh theo ngữ cảnh xử lý các danh từ riêng và thuật ngữ kỹ thuật mà các dịch vụ chuyển đổi chung thường gặp khó khăn.
- Tuân thủ và tài liệu: Giám sát và chuyển đổi các tương tác cho mục đích tuân thủ quy định, với khả năng phân biệt người nói cung cấp sự phân công rõ ràng và dấu thời gian cho phép kiểm toán chi tiết.
Cả hai mô hình đều hỗ trợ triển khai tuân thủ GDPR và HIPAA thông qua các thiết lập tại chỗ (on-premise) hoặc đám mây riêng (private cloud) an toàn.
Bắt đầu
Voxtral Mini Transcribe V2 hiện có sẵn qua API với giá $0.003/phút. Hãy thử ngay trong khu vực thử nghiệm âm thanh mới của Mistral Studio hoặc trong Le Chat.
Voxtral Realtime có sẵn qua API với giá $0.006/phút và dưới dạng mã nguồn mở trên Hugging Face.
Khám phá tài liệu về các khả năng âm thanh và chuyển đổi giọng nói của Mistral.
Chúng tôi đang tuyển dụng
Nếu bạn đam mê xây dựng AI giọng nói đẳng cấp thế giới và mang các mô hình tiên tiến đến tay các nhà phát triển trên toàn cầu, chúng tôi rất mong nhận được phản hồi từ bạn. Hãy ứng tuyển để gia nhập đội ngũ của chúng tôi.
Link bài viết gốc
- Tags:
- Ai
- February 4, 2026
- Mistral.ai