Cải thiện các mô hình âm thanh Gemini cho trải nghiệm giọng nói mạnh mẽ

Các bản cập nhật cho mô hình âm thanh Gemini giúp cải thiện trải nghiệm giọng nói và tương tác

  • 5 min read
Cải thiện các mô hình âm thanh Gemini cho trải nghiệm giọng nói mạnh mẽ
Các bản cập nhật cho mô hình âm thanh Gemini giúp cải thiện trải nghiệm giọng nói và tương tác

Cập nhật mô hình âm thanh Gemini 2.5, cùng với các cập nhật mô hình văn bản thành giọng nói

Google đã nâng cấp mô hình Gemini 2.5 Flash Native Audio để mang lại các tác nhân thoại trực tiếp tốt hơn. Dự kiến sẽ có khả năng gọi hàm chính xác hơn, tuân thủ hướng dẫn mạnh mẽ và các cuộc trò chuyện mượt mà hơn. Hãy thử tính năng dịch giọng nói trực tiếp trong phiên bản beta của ứng dụng Google Translate, hiện đang được triển khai trên Android tại Hoa Kỳ, Mexico và Ấn Độ.

Tác nhân thoại trực tiếp

Để hỗ trợ nhiều trường hợp sử dụng trên các nền tảng và sản phẩm, Google đã cải thiện Gemini 2.5 Native Audio theo ba lĩnh vực chính:

  • Gọi hàm chính xác hơn: Mô hình đã được cải thiện về độ tin cậy khi kích hoạt các hàm bên ngoài. Giờ đây, mô hình có thể xác định chính xác hơn khi nào cần lấy thông tin theo thời gian thực trong cuộc trò chuyện và tích hợp liền mạch dữ liệu đó trở lại phản hồi âm thanh mà không làm gián đoạn luồng. Trên ComplexFuncBench Audio, một bài kiểm tra đánh giá khả năng gọi hàm đa bước với các ràng buộc khác nhau, Gemini 2.5 Native Audio dẫn đầu với điểm số 71,5%.

  • Tuân thủ hướng dẫn mạnh mẽ: Mô hình hiện có khả năng xử lý các hướng dẫn phức tạp tốt hơn, dẫn đến sự hài lòng cao hơn của người dùng về tính đầy đủ của nội dung. Với tỷ lệ tuân thủ hướng dẫn của nhà phát triển là 90% (tăng từ 84%), mô hình cung cấp kết quả đáng tin cậy hơn.

  • Cuộc trò chuyện mượt mà hơn: Google đã đạt được những cải tiến đáng kể về chất lượng cuộc trò chuyện đa lượt. Gemini 2.5 Flash Native Audio có khả năng truy xuất ngữ cảnh từ các lượt trước hiệu quả hơn, tạo ra các cuộc trò chuyện mạch lạc hơn.

Dịch giọng nói trực tiếp

Gemini hiện hỗ trợ gốc các khả năng dịch giọng nói sang giọng nói mới, được thiết kế để xử lý cả nghe liên tục và đàm thoại hai chiều.

Với tính năng nghe liên tục, Gemini tự động dịch giọng nói bằng nhiều ngôn ngữ sang một ngôn ngữ đích duy nhất. Điều này cho phép bạn đeo tai nghe và nghe thế giới xung quanh bằng ngôn ngữ của mình.

Đối với đàm thoại hai chiều, tính năng dịch giọng nói trực tiếp của Gemini xử lý việc dịch giữa hai ngôn ngữ theo thời gian thực, tự động chuyển đổi ngôn ngữ đầu ra dựa trên người đang nói. Ví dụ: nếu bạn nói tiếng Anh và muốn trò chuyện với người nói tiếng Hindi, bạn sẽ nghe bản dịch tiếng Anh theo thời gian thực trong tai nghe, trong khi điện thoại của bạn sẽ phát tiếng Hindi khi bạn nói xong.

Tính năng dịch giọng nói trực tiếp của Gemini có một số khả năng chính giúp ích trong thế giới thực:

  • Phạm vi ngôn ngữ: Dịch giọng nói bằng hơn 70 ngôn ngữ và 2000 cặp ngôn ngữ bằng cách kết hợp kiến thức thế giới và khả năng đa ngôn ngữ của mô hình Gemini với khả năng âm thanh gốc của nó.

  • Chuyển đổi phong cách: Giữ được sắc thái của giọng nói con người, bảo tồn ngữ điệu, tốc độ và cao độ của người nói để bản dịch nghe tự nhiên.

  • Đầu vào đa ngôn ngữ: Hiểu nhiều ngôn ngữ cùng lúc trong một phiên, giúp bạn theo dõi các cuộc trò chuyện đa ngôn ngữ mà không cần phải loay hoay với cài đặt ngôn ngữ.

  • Tự động phát hiện: Tự động phát hiện ngôn ngữ nói và bắt đầu dịch, vì vậy bạn không cần phải biết ngôn ngữ đang được nói để bắt đầu dịch.

  • Khả năng chống ồn: Lọc tiếng ồn xung quanh để bạn có thể trò chuyện thoải mái ngay cả trong môi trường ồn ào, ngoài trời.

Bắt đầu ngay hôm nay

Bắt đầu xây dựng các tác nhân thoại ngay hôm nay với Gemini 2.5 Flash Native Audio, hiện đã có sẵn trên Vertex AI và dưới dạng bản xem trước trong Gemini API. Hãy thử nghiệm trong Google AI Studio.

Các mô hình Gemini 2.5 Flash và 2.5 Pro chuyển văn bản thành giọng nói cũng có sẵn thông qua Gemini API trong Google AI Studio. Bắt đầu với tài liệu tạo giọng nói, khám phá hướng dẫn nhắc hoặc xem Cookbook Gemini API để bắt đầu.

Bắt đầu ngay hôm nay

Bắt đầu xây dựng các tác nhân thoại ngay hôm nay với Gemini 2.5 Flash Native Audio, hiện đã có sẵn trên Vertex AI và dưới dạng bản xem trước trong Gemini API. Hãy thử nghiệm trong Google AI Studio.

Các mô hình Gemini 2.5 Flash và 2.5 Pro chuyển văn bản thành giọng nói cũng có sẵn thông qua Gemini API trong Google AI Studio. Bắt đầu với tài liệu tạo giọng nói, khám phá hướng dẫn nhắc hoặc xem Cookbook Gemini API để bắt đầu.

ĐĂNG TRÊN:

  • Gemini models

Recommended for You

Gemini 3 Flash- Trí tuệ tiên phong được xây dựng cho tốc độ

Gemini 3 Flash- Trí tuệ tiên phong được xây dựng cho tốc độ

Gemini 3 Flash là phiên bản mới nhất của Gemini, tập trung vào tốc độ và hiệu quả

Tổng kết năm của Google- 8 lĩnh vực có những đột phá nghiên cứu trong năm 2025

Tổng kết năm của Google- 8 lĩnh vực có những đột phá nghiên cứu trong năm 2025

Xem lại những đột phá nghiên cứu AI nổi bật của Google trong năm 2025 trên 8 lĩnh vực khác nhau.