Các mô hình âm thanh và đối thoại nâng cao với Gemini 2.5

Gemini 2.5 có các khả năng mới trong đối thoại và tạo âm thanh được hỗ trợ bởi AI.

June 4, 2025
7 min read

Các mô hình âm thanh và đối thoại nâng cao với Gemini 2.5 — Gemini 2.5 có các khả năng mới trong đối thoại và tạo âm thanh được hỗ trợ bởi AI.

Khả năng âm thanh gốc của Gemini 2.5

Gemini được xây dựng từ đầu để trở thành đa phương thức, hiểu và tạo nội dung một cách tự nhiên trên văn bản, hình ảnh, âm thanh, video và mã. Tại I/O, chúng tôi đã giới thiệu cách Gemini 2.5 đánh dấu một bước tiến đáng kể với các khả năng mới trong đối thoại và tạo âm thanh do AI hỗ trợ.

Chúng tôi đã sử dụng các mô hình này để mang âm thanh đến người dùng trên toàn cầu, trên nhiều sản phẩm, nguyên mẫu và ngôn ngữ. Tổng quan âm thanh của NotebookLM và Dự án Astra chỉ là hai ví dụ. Sau đây là cái nhìn sâu hơn về những gì bạn có thể làm với các khả năng âm thanh gốc của Gemini 2.5.

Đối thoại âm thanh theo thời gian thực

Cuộc trò chuyện của con người rất phong phú và sắc thái, với ý nghĩa được truyền tải không chỉ bởi những gì được nói mà còn là cách nó được nói — thông qua giọng điệu, ngữ điệu và thậm chí cả những thanh âm không phải lời nói, như tiếng cười. Chúng tôi tin rằng cuộc trò chuyện sẽ là một cách quan trọng để chúng ta tương tác với AI. Đó là lý do tại sao Gemini lý luận và tạo ra giọng nói một cách tự nhiên bằng âm thanh, cho phép giao tiếp hiệu quả, theo thời gian thực.

[video: https://www.youtube.com/watch?v=9UmhcG7QS4c]

Đối thoại âm thanh gốc với các tính năng xem trước của Gemini 2.5 Flash:

Cuộc trò chuyện tự nhiên: Tương tác bằng giọng nói với chất lượng vượt trội, biểu cảm và ngữ điệu phù hợp hơn (kiểu nhịp điệu), được cung cấp với độ trễ rất thấp để bạn có thể trò chuyện trôi chảy.
Kiểm soát phong cách: Sử dụng các lời nhắc bằng ngôn ngữ tự nhiên, bạn có thể điều chỉnh cách truyền đạt trong cuộc trò chuyện, hướng nó áp dụng các ngữ điệu cụ thể, tạo ra một loạt các âm điệu và biểu cảm, và thậm chí thì thầm.
Tích hợp công cụ: Gemini 2.5 có thể sử dụng các công cụ và gọi chức năng trong khi đối thoại. Điều này cho phép nó kết hợp thông tin theo thời gian thực từ các nguồn như Google Tìm kiếm hoặc sử dụng các công cụ tùy chỉnh do nhà phát triển xây dựng, làm cho các cuộc trò chuyện trở nên thiết thực hơn.
Nhận biết ngữ cảnh hội thoại (âm thanh chủ động): Hệ thống của chúng tôi được đào tạo để phân biệt và bỏ qua giọng nói nền, các cuộc trò chuyện xung quanh và các âm thanh không liên quan khác, chỉ phản hồi khi thích hợp. Về cơ bản, nó hiểu khi nào không nên nói.
Hiểu âm thanh-video: Với sự hỗ trợ gốc từ âm thanh và video trực tuyến, Gemini 2.5 có thể trò chuyện với bạn về những gì nó nhìn thấy trong luồng video hoặc thông qua chia sẻ màn hình.
Đa ngôn ngữ: Trò chuyện bằng bất kỳ ngôn ngữ nào trong số hơn 24 ngôn ngữ được hỗ trợ của chúng tôi, hoặc thậm chí dễ dàng trộn các ngôn ngữ trong cùng một cụm từ.
Đối thoại tình cảm: Gemini 2.5 phản hồi giọng điệu của người dùng, nhận ra rằng những từ ngữ giống nhau được nói khác nhau có thể dẫn đến những cuộc trò chuyện rất khác nhau.
Đối thoại tư duy nâng cao: Khả năng lý luận của Gemini có thể nâng cao cuộc trò chuyện của nó, dẫn đến hiệu suất tổng thể tốt hơn trên tất cả các tính năng. Điều này dẫn đến các tương tác mạch lạc và thông minh hơn, đặc biệt đối với các tác vụ lý luận phức tạp.

Chuyển văn bản thành giọng nói (TTS) có thể điều khiển

Sự phát triển của công nghệ chuyển văn bản thành giọng nói đang diễn ra nhanh chóng và với các mô hình mới nhất của chúng tôi, chúng tôi đang vượt ra ngoài tính tự nhiên để cung cấp khả năng kiểm soát chưa từng có đối với âm thanh được tạo ra. Giờ đây, bạn có thể tạo bất kỳ thứ gì từ các đoạn ngắn đến các câu chuyện dài, chỉ định chính xác phong cách, âm điệu, biểu cảm cảm xúc và hiệu suất — tất cả đều có thể điều khiển được thông qua các lời nhắc bằng ngôn ngữ tự nhiên.

[video: https://www.youtube.com/watch?v=zwb4cTtRNIo]

[video: https://www.youtube.com/watch?v=k7uU-XjDpOo]

Các khả năng và điều khiển bổ sung bao gồm:

Hiệu suất động: Các mô hình này có thể làm cho văn bản trở nên sống động cho những bài đọc biểu cảm cho bất kỳ điều gì, từ thơ ca, bản tin đến kể chuyện hấp dẫn. Họ cũng có thể biểu diễn với những cảm xúc cụ thể và tạo ra các ngữ điệu khi được yêu cầu.
Kiểm soát tốc độ và phát âm nâng cao: Kiểm soát tốc độ truyền tải và đảm bảo độ chính xác hơn trong phát âm, kể cả đối với các từ cụ thể.
Tạo đối thoại đa người nói: Mô hình này có thể tạo ra bản tổng quan âm thanh “kiểu NotebookLM” hai người từ đầu vào văn bản, làm cho nội dung hấp dẫn hơn thông qua cuộc trò chuyện.
Đa ngôn ngữ: Tạo nội dung âm thanh đa ngôn ngữ một cách dễ dàng với Gemini 2.5, cung cấp cùng một hỗ trợ cho hơn 24 ngôn ngữ.

Đối với việc tạo giọng nói có thể kiểm soát (TTS), hãy chọn Xem trước Gemini 2.5 Pro để có chất lượng hiện đại trên các lời nhắc phức tạp hoặc Xem trước Gemini 2.5 Flash cho các ứng dụng hàng ngày hiệu quả về chi phí. Điều này cho phép các nhà phát triển tạo động âm thanh cho các thông báo, câu chuyện, podcast, trò chơi điện tử và hơn thế nữa.

An toàn và trách nhiệm

Chúng tôi đã chủ động đánh giá các rủi ro tiềm ẩn trong mọi giai đoạn của quá trình phát triển cho các tính năng âm thanh gốc này, sử dụng những gì chúng tôi đã học được để thông báo cho các chiến lược giảm thiểu rủi ro của mình. Chúng tôi xác nhận các biện pháp này thông qua các đánh giá an toàn bên trong và bên ngoài nghiêm ngặt, bao gồm red teaming toàn diện để triển khai có trách nhiệm. Ngoài ra, tất cả các đầu ra âm thanh từ các mô hình của chúng tôi đều được nhúng với SynthID, công nghệ водяной dấu của chúng tôi, để đảm bảo tính minh bạch bằng cách làm cho âm thanh do AI tạo ra có thể nhận dạng được.

Khả năng âm thanh gốc dành cho nhà phát triển

Chúng tôi đang mang lại các đầu ra âm thanh gốc cho các mô hình Gemini 2.5, mang đến cho các nhà phát triển các khả năng mới để xây dựng các ứng dụng tương tác, phong phú hơn thông qua Gemini API trong Google AI Studio hoặc Vertex AI.

Để bắt đầu khám phá, các nhà phát triển có thể thử đối thoại âm thanh gốc với bản xem trước Gemini 2.5 Flash trong tab stream của Google AI Studio. Khả năng tạo giọng nói có thể kiểm soát (TTS) có sẵn ở bản xem trước cho cả Gemini 2.5 Pro và Flash bằng cách chọn tạo giọng nói trong tab tạo phương tiện trong Google AI Studio.

AI Today - SkyAI