hướng dẫn đạo đức- Nhân bản Giọng nói có Sự Đồng ý

Hướng dẫn đạo đức- Nhân bản giọng nói có sự đồng ý

November 10, 2025
9 min read

Hướng dẫn đạo đức- Nhân bản giọng nói có sự đồng ý

Nhân bản giọng nói có sự đồng ý

Trong bài viết này, chúng tôi giới thiệu khái niệm ‘cổng đồng ý giọng nói’ để hỗ trợ nhân bản giọng nói có sự đồng ý. Chúng tôi cung cấp một ví dụ về Space và mã đi kèm để bắt đầu ý tưởng này.

Cổng đồng ý giọng nói

Công nghệ tạo giọng nói thực tế đã trở nên tuyệt vời một cách kỳ lạ trong vài năm qua. Trong một số trường hợp, có thể tạo ra giọng nói tổng hợp nghe gần giống hệt giọng nói của người thật. Và ngày nay, điều từng có vẻ như khoa học viễn tưởng giờ đã là hiện thực: Nhân bản giọng nói. Chỉ với vài giây ghi âm giọng nói, giọng nói của bất kỳ ai cũng có thể được sử dụng để nói gần như bất cứ điều gì.

Tạo giọng nói, và đặc biệt là nhiệm vụ con của nhân bản giọng nói, có những rủi ro và lợi ích đáng chú ý. Những rủi ro của “deepfakes”, như giọng nói được nhân bản của cựu Tổng thống Biden được sử dụng trong các cuộc gọi tự động, có thể đánh lừa mọi người tin rằng người ta đã nói những điều họ chưa nói. Mặt khác, nhân bản giọng nói có thể là một công cụ có lợi mạnh mẽ, giúp những người đã mất khả năng nói giao tiếp bằng giọng nói của chính họ, hoặc hỗ trợ mọi người học các ngôn ngữ và giọng điệu mới.

Vậy làm thế nào để chúng ta tạo ra việc sử dụng có ý nghĩa mà không lạm dụng có ác ý? Chúng tôi đang khám phá một câu trả lời khả thi: cổng đồng ý giọng nói. Đó là một hệ thống mà giọng nói có thể được nhân bản chỉ khi người nói rõ ràng nói rằng họ đồng ý. Nói cách khác, mô hình sẽ không nói bằng giọng nói của bạn trừ khi bạn cho phép.

Chúng tôi cung cấp một bản demo cơ bản về ý tưởng này bên dưới:

Thực hành đạo đức: Đồng ý làm cơ sở hạ tầng hệ thống

Cổng đồng ý giọng nói là một phần cơ sở hạ tầng mà chúng tôi đang khám phá, cung cấp các phương pháp để các nguyên tắc đạo đức như sự đồng ý được nhúng trực tiếp vào quy trình làm việc của hệ thống AI. Trong bản demo của chúng tôi, điều này có nghĩa là mô hình chỉ bắt đầu sau khi cụm từ đồng ý của người nói đã được nói và nhận dạng, hiệu quả biến sự đồng ý thành điều kiện hệ thống cụ thể, tạo ra một tương tác có thể truy vết, kiểm toán: một mô hình AI chỉ có thể chạy sau hành động đồng ý rõ ràng.

Những lựa chọn thiết kế như vậy quan trọng hơn việc nhân bản giọng nói. Chúng minh họa cách các hệ thống AI có thể được xây dựng để tôn trọng quyền tự chủ mặc định, và cách tính minh bạch và sự đồng ý có thể trở thành chức năng, không chỉ là tuyên bố.

Chi tiết kỹ thuật

Để tạo một hệ thống nhân bản giọng nói cơ bản có cổng đồng ý giọng nói, bạn cần ba phần:

Một cách để tạo các câu đồng ý mới cho người có giọng nói sẽ được nhân bản – “người nói” – để nói, tham chiếu rõ ràng đến ngữ cảnh đồng ý hiện tại.
Một hệ thống nhận dạng giọng nói tự động (ASR) nhận dạng câu nói rõ ràng sự đồng ý.
Một hệ thống chuyển văn bản thành giọng nói (TTS) nhân bản giọng nói lấy làm đầu vào là văn bản và các đoạn âm thanh ngắn của người nói để tạo ra giọng nói.

Quan sát của chúng tôi: Vì một số hệ thống nhân bản giọng nói hiện có thể tạo ra giọng nói tương tự giọng nói của người nói chỉ với một câu nói, một câu nói được sử dụng để đồng ý cũng có thể được sử dụng để nhân bản giọng nói.

Cách tiếp cận

Phần đồng ý: Để tạo cổng đồng ý giọng nói trong hệ thống nhân bản giọng nói tiếng Anh, hãy tạo một câu nói tiếng Anh ngắn, nghe tự nhiên (khoảng 20 từ) để người đó đọc to, rõ ràng tuyên bố sự đồng ý có hiểu biết trong ngữ cảnh hiện tại. Chúng tôi khuyên bạn nên bao gồm rõ ràng một cụm từ đồng ý và tên mô hình, chẳng hạn như “Tôi đồng ý sử dụng mô hình nhân bản giọng nói với giọng nói của tôi”. Chúng tôi cũng khuyên dùng bản ghi âm không thể tải lên, mà thay vào đó đến trực tiếp từ micrô, để đảm bảo rằng câu nói không phải là một phần của bản ghi âm trước đó đã bị thao túng. Ghép nối điều này với một câu nói mới (chưa từng được nói trước đó) giúp ích hơn nữa trong việc lập chỉ mục rõ ràng ngữ cảnh đồng ý hiện tại – hỗ trợ sự đồng ý rõ ràng, chủ động, theo ngữ cảnh, có hiểu biết. Mặc dù thiết kế này giảm thiểu rủi ro tái sử dụng các bản ghi âm trước đó, nó không hoàn hảo; một người vẫn có thể tạo ra một cụm từ khớp bằng cách sử dụng hệ thống TTS khác. Các lần lặp lại trong tương lai có thể khám phá kiểm tra nguồn gốc âm thanh nhẹ nhàng, sự tương tự của nhúng người nói hoặc siêu dữ liệu từ ghi âm thời gian thực để giúp xác minh rằng âm thanh đồng ý bắt nguồn từ người nói dự định.

Phần phù hợp để nhân bản giọng nói: Công trình trước đó về nhân bản giọng nói đã chỉ ra rằng các cụm từ do người nói cung cấp phải có sự đa dạng ngữ âm, bao gồm các nguyên âm và phụ âm đa dạng; có giọng điệu “trung tính” hoặc lịch sự", không có tiếng ồn xung quanh và với người nói ở vị trí thoải mái; và có khởi đầu và kết thúc rõ ràng (tức là không cắt clip giữa chừng).

Để thực hiện cả hai khía cạnh này trong bản demo, chúng tôi nhắc một mô hình ngôn ngữ tạo các cặp câu: một câu bày tỏ sự đồng ý rõ ràng và một câu trung tính bổ sung sự đa dạng ngữ âm (bao gồm các nguyên âm, phụ âm và giọng điệu khác nhau). Mỗi lời nhắc sử dụng một chủ đề hàng ngày được chọn ngẫu nhiên (như thời tiết, thực phẩm hoặc âm nhạc) để giữ cho các câu đa dạng và thoải mái khi nói, hỗ trợ việc tạo ra các bản ghi âm rõ ràng, tự nhiên và giàu ngữ âm, đồng thời cũng chứa một tuyên bố rõ ràng về sự đồng ý. Bước tạo này là tự động chứ không phải được viết sẵn để mỗi người dùng nhận được một cặp câu duy nhất, ngăn chặn việc tái sử dụng cùng một văn bản và đảm bảo các bản ghi âm đồng ý cụ thể cho phiên hiện tại. Nói cách khác, mô hình ngôn ngữ tạo hai câu mới cho mỗi lần đồng ý: một cho sự đồng ý rõ ràng và một cho sự đa dạng ngữ âm. Ví dụ, mô hình ngôn ngữ có thể tạo: “Tôi đồng ý sử dụng giọng nói của mình để tạo âm thanh bằng mô hình EchoVoice. Thời tiết trong lành và yên tĩnh vào buổi sáng nay.” Cách tiếp cận này đảm bảo rằng mọi mẫu được sử dụng để nhân bản đều chứa sự đồng ý rõ ràng, có thể xác minh, trong khi vẫn phù hợp làm đầu vào kỹ thuật cho tổng hợp giọng nói chất lượng cao. (Lưu ý: Không yêu cầu mô hình ngôn ngữ phải là mô hình “lớn”, điều này mang lại các vấn đề đồng ý riêng.)

Một vài ví dụ:

“Tôi đồng ý sử dụng giọng nói của tôi để tạo âm thanh tổng hợp với mô hình Chatterbox ngày hôm nay. Việc đi lại hàng ngày của tôi thường xuyên phải đi qua những con đường đông đúc, chủ yếu là đi bộ vào hầu hết các ngày gần đây.”
“Tôi đồng ý sử dụng giọng nói của tôi để tạo âm thanh bằng mô hình Chatterbox. Sau một buổi đi dạo buổi sáng nhẹ nhàng, tôi cảm thấy thư giãn và sẵn sàng nói chuyện thoải mái ngay bây giờ.”
“Tôi đồng ý sử dụng giọng nói đã ghi âm của mình để tạo âm thanh bằng mô hình Chatterbox. Quán cà phê bên ngoài có mùi thơm dễ chịu của cà phê rang xay vào buổi sáng nay.”

Mở khóa Cổng Đồng Ý Giọng Nói

Sau khi đầu vào của người nói khớp với văn bản được tạo, hệ thống nhân bản giọng nói có thể bắt đầu, sử dụng âm thanh đồng ý của người nói làm đầu vào.

Có một vài lựa chọn để thực hiện điều này, và chúng tôi rất muốn nghe thêm ý tưởng. Hiện tại, có:

Những gì chúng tôi cung cấp trong bản demo: Có cổng đồng ý giọng nói mở trực tiếp đến mô hình nhân bản giọng nói, nơi có thể viết văn bản tùy ý và tạo bằng giọng nói của người nói. Mô hình sử dụng âm thanh đồng ý trực tiếp để học giọng nói của người nói.
Ngoài ra, có thể sửa đổi mã chúng tôi cung cấp trong bản demo để mô hình hóa giọng nói của người nói bằng cách sử dụng nhiều tệp giọng nói khác nhau mà người nói đồng ý – ví dụ, khi đồng ý sử dụng bản ghi âm trực tuyến. Lời nhắc và cụm từ đồng ý nên được sửa đổi cho phù hợp.
Cũng có thể lưu âm thanh đồng ý để được một hệ thống nhất định sử dụng, ví dụ, khi người nói đồng ý cho phép giọng nói của họ được sử dụng cho các câu nói tùy ý trong tương lai. Điều này có thể được thực hiện bằng cách sử dụng khả năng tải lên của huggingface_hub. Đọc cách thực hiện điều này tại đây. Một lần nữa, lời nhắc và cụm từ đồng ý để người nói nói phải tính đến ngữ cảnh sử dụng này.

Được xử lý một cách có trách nhiệm, công nghệ này không nhất thiết phải ám ảnh chúng ta. Thay vào đó, nó có thể trở thành một sự hợp tác tôn trọng giữa con người và máy móc – không có bóng ma trong máy, chỉ có thực hành tốt. 🎃

AI Today - SkyAI