Cải thiện các mô hình âm thanh Gemini cho trải nghiệm giọng nói mạnh mẽ

Các mô hình âm thanh Gemini được cải thiện mang lại trải nghiệm giọng nói mạnh mẽ hơn.

December 13, 2025
7 min read

Cải thiện các mô hình âm thanh Gemini cho trải nghiệm giọng nói mạnh mẽ — Các mô hình âm thanh Gemini được cải thiện mang lại trải nghiệm giọng nói mạnh mẽ hơn.

Gemini 2.5 Native Audio: Nâng cấp cho các tương tác giọng nói mạnh mẽ

Google vừa cập nhật mô hình âm thanh gốc Gemini 2.5 để cải thiện các tương tác giọng nói trên sản phẩm của mình và mang đến tính năng dịch giọng nói trực tiếp trong ứng dụng Google Translate.

Cải thiện cho các tác nhân giọng nói trực tiếp

Mô hình Gemini 2.5 Flash Native Audio đã được cập nhật để xử lý các quy trình phức tạp, tuân theo chỉ dẫn của người dùng và duy trì các cuộc trò chuyện tự nhiên. Mô hình này hiện có sẵn trên Google AI Studio, Vertex AI, Gemini Live và Search Live, mang đến trải nghiệm âm thanh tự nhiên cho Search Live. Điều này cho phép người dùng lên ý tưởng với Gemini, nhận trợ giúp theo thời gian thực trong Search Live hoặc xây dựng các tác nhân dịch vụ khách hàng hiệu quả cho doanh nghiệp.

Bản dịch giọng nói trực tiếp

Ngoài việc hỗ trợ các tác nhân giọng nói, âm thanh gốc còn mở ra những khả năng mới cho giao tiếp toàn cầu. Google đã giới thiệu tính năng dịch giọng nói trực tiếp, cho phép dịch giọng nói theo thời gian thực cho tai nghe. Tính năng này bảo tồn ngữ điệu, nhịp độ và âm vực của người nói. Trải nghiệm beta này đang được triển khai trên ứng dụng Google Translate, bắt đầu từ hôm nay.

Cải tiến của Gemini 2.5 Flash Native Audio

Mô hình đã được cải thiện ở ba lĩnh vực chính:

Gọi hàm chính xác hơn: Mô hình đã được cải thiện độ tin cậy khi kích hoạt các hàm bên ngoài. Nó có thể xác định chính xác hơn khi nào cần lấy thông tin thời gian thực trong cuộc trò chuyện và tích hợp liền mạch dữ liệu đó vào phản hồi âm thanh mà không làm gián đoạn luồng. Trên ComplexFuncBench Audio, một bài đánh giá ghi lại các cuộc gọi hàm đa bước với các ràng buộc khác nhau, Gemini 2.5 Native Audio dẫn đầu với điểm số 71,5%.
Tuân thủ chỉ dẫn mạnh mẽ: Mô hình hiện đã tốt hơn trong việc xử lý các chỉ dẫn phức tạp, dẫn đến sự hài lòng cao hơn của người dùng về tính đầy đủ của nội dung. Với tỷ lệ tuân thủ hướng dẫn của nhà phát triển là 90% (tăng từ 84%), nó mang lại kết quả đáng tin cậy hơn.
Cuộc trò chuyện mượt mà hơn: Đã đạt được những cải tiến đáng kể về chất lượng cuộc trò chuyện đa lượt. Gemini 2.5 Flash Native Audio có khả năng truy xuất ngữ cảnh từ các lượt trước hiệu quả hơn, tạo ra các cuộc trò chuyện gắn kết hơn.

Lời chứng thực từ khách hàng

Các khách hàng của Google Cloud đã sử dụng khả năng âm thanh gốc của Gemini để đạt được kết quả kinh doanh thực tế, từ xử lý thế chấp đến các cuộc gọi khách hàng.

“Người dùng thường quên rằng họ đang nói chuyện với AI chỉ sau một phút sử dụng Sidekick, và trong một số trường hợp đã cảm ơn bot sau một cuộc trò chuyện dài… Các khả năng AI API Trực tiếp mới được cung cấp thông qua Gemini [2.5 Flash Native Audio] trao quyền cho các thương gia của chúng tôi để chiến thắng.” – David Wurtz, VP Sản phẩm, Shopify.
“Bằng cách tích hợp mô hình Gemini 2.5 Flash Native Audio… chúng tôi đã nâng cao đáng kể khả năng của Mia kể từ khi ra mắt vào tháng 5 năm 2025. Sự kết hợp mạnh mẽ này đã cho phép chúng tôi tạo ra hơn 14.000 khoản vay cho các đối tác môi giới của mình.” – Jason Bressler, Giám đốc Công nghệ, United Wholesale Mortgage (UWM).
“Làm việc với mô hình Gemini 2.5 Flash Native Audio thông qua Vertex AI cho phép Nhân viên Lễ tân AI của Newo.ai đạt được khả năng trò chuyện vượt trội… Chúng có thể xác định người nói chính ngay cả trong môi trường ồn ào, chuyển đổi ngôn ngữ giữa cuộc trò chuyện và nghe có vẻ tự nhiên, biểu cảm đáng kinh ngạc.” – David Yang, Đồng sáng lập, Newo.ai.

Dịch giọng nói trực tiếp

Gemini hiện hỗ trợ gốc các khả năng dịch giọng nói sang giọng nói mới, được thiết kế để xử lý cả việc nghe liên tục và trò chuyện hai chiều.

Với tính năng nghe liên tục, Gemini tự động dịch giọng nói bằng nhiều ngôn ngữ sang một ngôn ngữ đích duy nhất. Điều này cho phép người dùng đeo tai nghe và nghe thế giới xung quanh bằng ngôn ngữ của họ.

Đối với cuộc trò chuyện hai chiều, tính năng dịch giọng nói trực tiếp của Gemini xử lý việc dịch giữa hai ngôn ngữ trong thời gian thực, tự động chuyển đổi ngôn ngữ đầu ra dựa trên người nói. Ví dụ: nếu bạn nói tiếng Anh và muốn trò chuyện với người nói tiếng Hindi, bạn sẽ nghe bản dịch tiếng Anh theo thời gian thực trong tai nghe, trong khi điện thoại của bạn phát tiếng Hindi khi bạn nói xong.

Tính năng dịch giọng nói trực tiếp của Gemini có một số khả năng chính giúp ích trong thế giới thực:

Phạm vi ngôn ngữ: Dịch giọng nói trong hơn 70 ngôn ngữ và 2000 cặp ngôn ngữ bằng cách kết hợp kiến thức thế giới và khả năng đa ngôn ngữ của mô hình Gemini với khả năng âm thanh gốc của nó.
Chuyển đổi phong cách: Nắm bắt các sắc thái của giọng nói con người, bảo tồn ngữ điệu, nhịp độ và âm vực của người nói để bản dịch nghe tự nhiên.
Đầu vào đa ngôn ngữ: Hiểu nhiều ngôn ngữ đồng thời trong một phiên duy nhất, giúp bạn theo dõi các cuộc trò chuyện đa ngôn ngữ mà không cần điều chỉnh cài đặt ngôn ngữ.
Tự động phát hiện: Xác định ngôn ngữ nói và bắt đầu dịch, vì vậy bạn không cần biết ngôn ngữ đang được nói để bắt đầu dịch.
Khả năng chống ồn: Lọc bỏ tiếng ồn xung quanh để bạn có thể trò chuyện thoải mái ngay cả trong môi trường ồn ào, ngoài trời.

Bắt đầu hôm nay, người dùng có thể thử nghiệm tính năng này trong một trải nghiệm beta mới trong ứng dụng Google Translate để dịch thời gian thực qua tai nghe bằng cách kết nối tai nghe với thiết bị và nhấn vào “Live translate”. Trải nghiệm này đang được triển khai cho tất cả các thiết bị Android tại Hoa Kỳ, Mexico và Ấn Độ, với hỗ trợ cho iOS và các khu vực khác sớm hơn.

Google sẽ tiếp tục lặp lại trải nghiệm này dựa trên phản hồi và sẽ đưa nó vào nhiều sản phẩm Google hơn vào năm 2026.

Bắt đầu ngay hôm nay

Hãy bắt đầu xây dựng các tác nhân giọng nói ngay hôm nay với Gemini 2.5 Flash Native Audio, hiện đã có sẵn trên Vertex AI và dưới dạng xem trước trong Gemini API. Hãy thử nghiệm trên Google AI Studio.

Các mô hình văn bản thành giọng nói Gemini 2.5 Flash và 2.5 Pro cũng có sẵn thông qua Gemini API trong Google AI Studio. Hãy bắt đầu với tài liệu tạo giọng nói, khám phá hướng dẫn tạo prompt hoặc xem sách dạy nấu ăn Gemini API để bắt đầu.

Tác giả: Bibo Xu, Tara Sainath Ngày xuất bản: 12 tháng 12, 2025

AI Today - SkyAI