Dịch thuật giọng nói mượt mà, tự nhiên với Gemini 3.5 Live Translate
Khả năng dịch thuật giọng nói tự nhiên và mượt mà bằng Gemini 3.5 Live Translate
- 7 min read
Dịch giọng nói mượt mà, tự nhiên với Gemini 3.5 Live Translate
Ngày đăng: 09 tháng 6, 2026 Tác giả: Anuda Weerasinghe (Quản lý Sản phẩm), Tony Lu (Kỹ sư Phần mềm Cao cấp)
Gemini 3.5 Live Translate là mô hình âm thanh mới nhất của chúng tôi, mang đến khả năng dịch chuyển đổi giọng nói sang giọng nói gần như trong thời gian thực với hơn 70 ngôn ngữ.

Hai mươi năm trước, dịch thuật tại Google bắt đầu như một trong những thử nghiệm tiên phong về học máy nhằm biến khoa học ngôn ngữ thành phép màu kết nối con người. Thử nghiệm đó đã tiến một bước dài với hơn một nghìn tỷ từ được dịch cho hàng tỷ người dùng trên các sản phẩm của chúng tôi mỗi tháng.
Hôm nay, chúng tôi tiến thêm một bước nữa với việc ra mắt Gemini 3.5 Live Translate, mô hình âm thanh mới nhất dành cho dịch giọng nói trực tiếp.
Mô hình này tự động nhận diện hơn 70 ngôn ngữ và tạo ra giọng nói dịch mượt mà, tự nhiên, giữ nguyên ngữ điệu, nhịp độ và cao độ của người nói. Khác với các hệ thống dịch theo lượt (phải đợi người nói kết thúc câu mới phản hồi), 3.5 Live Translate tạo ra giọng nói liên tục. Nó cân bằng giữa việc chờ đợi ngữ cảnh để cải thiện chất lượng và việc dịch ngay lập tức để khớp với người nói. Nhờ đó, âm thanh đầu ra trôi chảy, không có những khoảng tạm dừng gây khó chịu và chỉ chậm hơn người nói vài giây trong suốt buổi hội thoại.
Gemini 3.5 Live Translate bắt đầu được triển khai trên các sản phẩm của Google kể từ hôm nay:
- Cho các nhà phát triển: Bản xem trước công khai thông qua Gemini Live API và Google AI Studio.
- Cho doanh nghiệp: Bản xem trước riêng tư bắt đầu từ tháng này trong Google Meet.
- Cho tất cả mọi người: Thông qua ứng dụng Google Translate trên Android và iOS.
Xây dựng ứng dụng với 3.5 Live Translate
Gemini 3.5 Live Translate xử lý giọng nói ngay khi đang được truyền phát (stream), cho phép kết nối liền mạch hơn giữa các ngôn ngữ. Mô hình này xử lý đầu vào đa ngôn ngữ mà không cần cấu hình cài đặt thủ công. Đồng thời, khả năng chống nhiễu giúp các ứng dụng hoạt động tốt trong môi trường ồn ào và khó dự đoán. Bạn có thể sử dụng khả năng này để hỗ trợ thông dịch trực tiếp cho các cuộc gọi đa ngôn ngữ, cuộc họp, bài giảng, buổi phát sóng và nhiều hơn thế nữa.
https://www.youtube.com/watch?v=TNwKs39uSVk
Hãy xem Gemini Live API hoạt động thực tế, cho phép lồng tiếng và dịch đa ngôn ngữ đồng thời. Bạn có thể tìm hiểu thêm tại bản demo hoặc các mã ví dụ trong Gemini Cookbook.
Bằng cách tận dụng Gemini Live API, các nền tảng phát triển như Agora, Fishjam, LiveKit, Pipecat và Vision Agents cho phép các nhà phát triển xây dựng và triển khai các ứng dụng dịch giọng nói một cách dễ dàng. Các tích hợp này xử lý cơ sở hạ tầng truyền phát phương tiện thời gian thực phức tạp, giúp nhà phát triển tập trung hoàn toàn vào trải nghiệm người dùng.
Đối tác của chúng tôi là Grab đang thử nghiệm mô hình này để hỗ trợ giao tiếp đa ngôn ngữ gần như thời gian thực giữa tài xế và hành khách khi đón khách. Những người dùng này thực hiện hơn 10 triệu cuộc gọi thoại mỗi tháng thông qua Grab.
https://www.youtube.com/watch?v=16Y2DU6LJX4 (Xem cách Grab thử nghiệm 3.5 Live Translate để thay đổi cách giao tiếp giữa những người dùng)
Đánh giá sớm từ người dùng
Ngoài Grab, các công ty như CJ ENM, LiveKit và nhiều đơn vị khác đã chia sẻ phản hồi tích cực về 3.5 Live Translate, nhấn mạnh chất lượng dịch ấn tượng, độ chính xác cao và độ trễ thấp:
“Khi thử nghiệm Gemini 3.5 Live Translate, chúng tôi đánh giá cao khả năng tự động nhận diện nhiều ngôn ngữ và dịch giọng nói chính xác với độ trễ thấp.” — Philipp Kandal, Giám đốc Sản phẩm tại Grab
“CJ ENM rất hào hứng khi hợp tác với Google DeepMind trong dự án 3.5 Live Translate. Các thử nghiệm ban đầu cho thấy chất lượng đầy hứa hẹn, mang lại trải nghiệm chân thực hơn cho người xem toàn cầu và Hàn Quốc.” — Bella Baek, Giám đốc AI tại CJ ENM
“Gemini 3.5 Live Translate khiến việc giao tiếp giọng nói đa ngôn ngữ trở nên dễ dàng. Tôi đã xây dựng một bản demo trên LiveKit Agents, nơi mọi người nói ngôn ngữ riêng của họ nhưng vẫn hiểu nhau trực tiếp.” — Jesse Hall, Chuyên gia truyền thông nhà phát triển tại LiveKit
“Trong thời gian làm việc với mô hình 3.5 Live Translate, chúng tôi đã thử nghiệm trên nhiều ngôn ngữ và đội ngũ của chúng tôi thực sự bị kinh ngạc bởi tốc độ, độ chính xác và sự sinh động của mô hình.” — Nash Ramdial, Giám đốc tại Vision Agents
“Gemini 3.5 Live Translate kết hợp với giao thức MoQ của Fishjam đã mở ra một ranh giới mới cho truyền phát đa phương tiện thời gian thực, cho phép dịch giọng nói sang giọng nói với hơn 70 ngôn ngữ.” — Maciej Rys, Phó Chủ tịch Kỹ thuật tại Software Mansion
“Chúng tôi đã thử nghiệm mô hình Gemini 3.5 Live Translate tại Agora và theo ý kiến của chúng tôi, nó mang lại kết quả dẫn đầu (SOTA), với độ trễ thấp và độ chính xác cao, thiết lập một tiêu chuẩn mới cho dịch thuật thời gian thực.” — Mason Adams, Chuyên gia truyền cảm hứng nhà phát triển tại Agora
Trải nghiệm 3.5 Live Translate trong các cuộc họp video
Tính năng dịch giọng nói trong Google Meet sẽ sớm sử dụng 3.5 Live Translate, cải thiện trải nghiệm thông qua:
- Hỗ trợ hơn 70 ngôn ngữ (cải tiến đáng kể so với giới hạn 5 ngôn ngữ trước đây).
- Cho phép hội thoại với hơn 2000 tổ hợp ngôn ngữ trong một cuộc họp (mở rộng từ việc trước đây chỉ dịch đến và từ tiếng Anh).
- Cập nhật giao diện để truy cập nhanh chóng vào tính năng dịch giọng nói.
Chúng tôi sẽ ra mắt bản cập nhật này dưới dạng xem trước riêng tư cho một số khách hàng doanh nghiệp Google Workspace chọn lọc bắt đầu từ tháng này, sau đó sẽ triển khai rộng rãi hơn vào cuối năm nay.
https://www.youtube.com/watch?v=DLSLKCqahyI (Người tham gia Google Meet sử dụng dịch giọng nói để giao tiếp bằng tiếng Anh, tiếng Quan Thoại và tiếng Thụy Điển)
Sử dụng 3.5 Live Translate trên ứng dụng Google Translate (Android và iOS)
Mô hình này cũng đang được triển khai trên ứng dụng Google Translate toàn cầu cho cả Android và iOS. Khi sử dụng tính năng dịch trực tiếp (Live translate), bạn chỉ cần kết nối bất kỳ cặp tai nghe nào để trải nghiệm quá trình dịch liền mạch, mô phỏng đúng tông giọng của người nói trên hơn 70 ngôn ngữ.
Đối với người dùng Android, chúng tôi cũng bắt đầu triển khai ‘chế độ lắng nghe’ (listening mode) mới. Chế độ này cho phép bạn nghe bản dịch trực tiếp qua loa thoại (earpiece) của điện thoại. Chỉ cần áp điện thoại lên tai như một cuộc gọi thông thường, âm thanh dịch sẽ được truyền thẳng đến bạn. Trải nghiệm này rất hữu ích trong những tình huống bạn muốn nghe bản dịch nhanh chóng mà không muốn người khác nghe thấy, trong khi không có sẵn tai nghe.
https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/LiveTranslate_ListeningMode_Blog_1920x1080_CXVU5cO.mp4 (Với chế độ lắng nghe mới, người dùng có thể nghe bản dịch tiếng Anh gần như thời gian thực của một chuyến tham quan hướng dẫn bằng tiếng Tây Ban Nha trực tiếp qua loa thoại của điện thoại)
Bảo mật với SynthID
Tất cả âm thanh được tạo ra bởi các mô hình của chúng tôi đều được đóng dấu bản quyền số bằng SynthID. Dấu chìm không thể nhận thấy này được đan trực tiếp vào đầu ra âm thanh, đảm bảo nội dung do AI tạo ra có thể bị phát hiện nhằm giúp ngăn chặn thông tin sai lệch. Để biết chi tiết về cách tiếp cận an toàn và trách nhiệm của chúng tôi, vui lòng xem lại thẻ mô hình (model card).
Link bài viết gốc
- Tags:
- Ai
- June 2026
- Blog.google