Gemini 3.1 Flash TTS- thế hệ tiếp theo của giọng nói AI biểu cảm

thế hệ tiếp theo của giọng nói AI biểu cảm

April 16, 2026
5 min read

Gemini 3.1 Flash TTS: Thế hệ tiếp theo của giọng nói AI biểu cảm

Ngày đăng: 15 tháng 4, 2026
Tác giả: Vilobh Meshram, Max Gubin

Mô hình âm thanh mới nhất của chúng tôi giới thiệu các thẻ âm thanh chi tiết, giúp bạn kiểm soát chính xác để điều hướng giọng nói AI, tạo ra những bản âm thanh đầy biểu cảm.

Gemini 3.1 Flash TTS

Hôm nay, chúng tôi giới thiệu Gemini 3.1 Flash TTS, mô hình chuyển văn bản thành giọng nói (text-to-speech) mới nhất mang lại khả năng kiểm soát, độ biểu cảm và chất lượng được cải thiện — giúp các nhà phát triển, doanh nghiệp và người dùng phổ thông xây dựng thế hệ ứng dụng giọng nói AI tiếp theo.

Kể từ hôm nay, 3.1 Flash TTS sẽ được triển khai cho:

Nhà phát triển: Bản xem trước thông qua Gemini API và Google AI Studio.
Doanh nghiệp: Bản xem trước trên Vertex AI.
Người dùng Workspace: Thông qua Google Vids.

Cải thiện chất lượng giọng nói và khả năng kiểm soát

Chúng tôi đã nâng cao chất lượng giọng nói tổng thể của Gemini 3.1 Flash TTS, khiến đây trở thành mô hình tự nhiên và biểu cảm nhất của chúng tôi cho đến nay. Trên bảng xếp hạng TTS của Artificial Analysis — một tiêu chuẩn đo lường dựa trên hàng nghìn lượt lựa chọn mù của con người — 3.1 Flash TTS đã đạt điểm Elo ấn tượng là 1.211.

Đánh giá chất lượng Gemini Flash TTS

Artificial Analysis cũng xếp Gemini 3.1 Flash TTS vào “góc hấp dẫn nhất” nhờ sự kết hợp lý tưởng giữa khả năng tạo giọng nói chất lượng cao và chi phí thấp. Mô hình này còn nổi bật với khả năng đối thoại đa người nói bản xứ, hỗ trợ hơn 70 ngôn ngữ và quyền kiểm soát sáng tạo chi tiết thông qua ngôn ngữ tự nhiên.

Các thẻ âm thanh mới giúp tạo giọng nói biểu cảm hơn

3.1 Flash TTS giới thiệu các thẻ âm thanh (audio tags) — một cách trực quan để điều khiển phong cách, tốc độ và cách truyền đạt của giọng nói. Bằng cách nhúng các lệnh ngôn ngữ tự nhiên trực tiếp vào văn bản đầu vào, bạn có thể điều hướng đầu ra của giọng nói AI với mức độ chi tiết cao hơn.

Ví dụ về ứng dụng:

Trong Vertex AI: Cho phép các doanh nghiệp sử dụng thẻ âm thanh để nâng tầm các ứng dụng doanh nghiệp.
Thử nghiệm độ biểu cảm: Sử dụng thẻ âm thanh để thay đổi nhịp điệu và cách truyền đạt.
Ứng dụng Thời tiết: Biến một ứng dụng thời tiết tiêu chuẩn thành một trải nghiệm tương tác hấp dẫn.
Ứng dụng Tìm từ đồng nghĩa (EchoHunt): Thêm các sắc thái tinh tế, lôi cuốn vào trò chơi săn từ.

Bạn có thể bắt đầu thử nghiệm các thẻ âm thanh này cùng với những cập nhật về trải nghiệm nhà phát triển trong Google AI Studio, nơi bạn đóng vai trò như một “đạo diễn”:

Định hướng cảnh (Scene direction): Thiết lập bối cảnh bằng cách xác định môi trường và cung cấp hướng dẫn đối thoại cụ thể. Ngữ cảnh này giúp các nhân vật giữ đúng “vai diễn” và phản ứng với nhau một cách tự nhiên qua nhiều lượt nói.
Chi tiết cấp độ người nói (Speaker-level specificity): Tuyển chọn nhân vật bằng các Hồ sơ Âm thanh (Audio Profiles) độc đáo, sau đó chỉ định Ghi chú của Đạo diễn (Director’s Notes) để điều chỉnh tốc độ, tông giọng và giọng điệu. Với các thẻ nội dòng (inline tags), người nói có thể thay đổi biểu cảm ngay giữa câu.
Xuất dữ liệu mượt mà (Seamless export): Khi bản diễn đạt đã hoàn hảo, các thông số chính xác này có thể được xuất dưới dạng mã Gemini API để đảm bảo giọng nói đồng nhất và dễ nhận diện trên nhiều dự án và nền tảng khác nhau.

Với những cấu hình mới này, nhà phát triển có thể tăng cường độ chính xác cho các kịch bản cụ thể, tạo ra những nhân vật đáng nhớ và trải nghiệm âm thanh đắm chìm.

Bắt đầu tạo giọng nói chất lượng cao trong Google AI Studio Playground.

Xây dựng cho quy mô toàn cầu

Gemini 3.1 Flash TTS cung cấp giọng nói độ trung thực cao và khả năng kiểm soát chính xác hơn trên hơn 70 ngôn ngữ. Những tối ưu hóa cốt lõi này mang lại khả năng kiểm soát phong cách, nhịp điệu và giọng điệu tiên tiến cho các thị trường lớn — giúp các nhà phát triển tạo ra các trải nghiệm giọng nói bản địa hóa và biểu cảm cho người dùng trên quy mô toàn cầu.

Các nhà phát triển và doanh nghiệp thử nghiệm sớm đã nhận thấy tác động của 3.1 Flash TTS, nhấn mạnh khả năng kiểm soát và biểu cảm ấn tượng. Họ chia sẻ rằng các thẻ âm thanh mang lại một cấp độ chính xác sáng tạo mới, biến văn bản đơn giản thành một màn trình diễn giọng nói chất lượng cao.

Đánh giá từ đối tác:

Được đóng dấu mờ với SynthID

Tất cả âm thanh được tạo bởi Gemini 3.1 Flash TTS đều được đóng dấu mờ bằng SynthID. Dấu mờ không thể cảm nhận được này được đan xen trực tiếp vào đầu ra âm thanh, cho phép phát hiện tin cậy nội dung do AI tạo ra nhằm giúp ngăn chặn thông tin sai lệch. Để biết thêm thông tin về cách tiếp cận an toàn và có trách nhiệm của chúng tôi, bạn có thể xem lại thẻ mô hình (model card).

AI Today - SkyAI