Mô hình hóa động lực hội thoại tự nhiên với Tương tác Liền mạch
Chúng tôi khám phá mô hình hóa chuyển động song song và tiềm năng của nó để thay đổi cách chúng ta tương tác với các hệ thống AI, cho phép các tương tác sắc thái, biểu cảm và giống con người hơn.
- 14 min read
Mô hình hóa động lực hội thoại tự nhiên với Tương tác liền mạch
Tóm tắt:
- Khi chúng ta nỗ lực xây dựng tương lai của kết nối giữa con người và công nghệ hỗ trợ, chúng ta sẽ cần các mô hình có thể tạo ra biểu cảm khuôn mặt và cử chỉ cơ thể dựa trên các đầu vào nghe nhìn từ hai người. Meta Fundamental AI Research (FAIR) đang giới thiệu một loạt các mô hình chuyển động hành vi nghe nhìn để đáp ứng nhu cầu đó.
- Các mô hình của chúng tôi cho phép tạo ra các avatar hoàn toàn thể hiện trong video 2D và dưới dạng Codec Avatars 3D và có thể cho phép tạo ra các tác nhân ảo tự nhiên và tương tác hơn, những tác nhân này có thể tham gia vào các cuộc trò chuyện với các cử chỉ và biểu cảm giống con người, chuyển đổi công nghệ hiện diện từ xa trong cài đặt VR và AR.
- Chúng tôi cũng đang phát hành Bộ dữ liệu Tương tác Liền mạch, một bộ dữ liệu quy mô lớn với hơn 4.000 giờ tương tác giữa hai người và hơn 4.000 người tham gia duy nhất, mà chúng tôi đã sử dụng để đào tạo các mô hình của mình. Bộ dữ liệu của chúng tôi ghi lại một loạt các tương tác trực tiếp giữa hai cá nhân, cho phép các mô hình hành vi nghe nhìn của chúng tôi hiểu và tạo ra các hành vi xã hội giống con người.
Giao tiếp giữa mọi người giống như một điệu nhảy, mỗi người liên tục điều chỉnh những gì họ nói, cách họ nói và cách họ ra hiệu. Mô hình hóa động lực hội thoại hai bên, hay còn gọi là nhị nguyên, đòi hỏi phải hiểu mối quan hệ đa phương thức giữa các tín hiệu xã hội bằng lời nói, giọng nói và hình ảnh — và các hành vi giữa các cá nhân giữa mọi người, chẳng hạn như lắng nghe, đồng bộ hóa trực quan và thay phiên nhau. Khi các tác nhân ảo trở thành những trợ lý quan trọng trong cuộc sống hàng ngày của chúng ta, điều quan trọng là các hệ thống này có thể hiển thị các mô hình hội thoại tự nhiên này. Hôm nay, nhóm Nghiên cứu AI Cơ bản Meta (FAIR) cùng với phòng thí nghiệm Codec Avatars của Meta và phòng thí nghiệm Core AI đang giới thiệu một loạt Mô hình Chuyển động Nhị nguyên khám phá các lĩnh vực mới của AI xã hội. Các mô hình này kết xuất lời nói do con người hoặc mô hình ngôn ngữ tạo ra giữa hai cá nhân thành các cử chỉ toàn thân đa dạng, biểu cảm và các hành vi lắng nghe tích cực, cho phép tạo ra các avatar hoàn toàn thể hiện trong video 2D và dưới dạng Codec Avatars 3D. Các mô hình xử lý các đầu vào âm thanh và hình ảnh để ghi lại các động lực hội thoại sắc thái với tiềm năng cuối cùng là tạo ra các tác nhân ảo tương tác, tự nhiên hơn, có thể tham gia vào các tương tác xã hội giống con người trên nhiều cài đặt nhập vai khác nhau.
Các mô hình được kích hoạt bởi Bộ dữ liệu Tương tác Liền mạch, mà chúng tôi đang chia sẻ công khai để giúp cộng đồng nghiên cứu thúc đẩy công việc của họ. Bộ dữ liệu Tương tác Liền mạch là bộ dữ liệu video lớn nhất được biết đến về các tương tác dựa trên hội thoại giữa hai người trực tiếp và thể hiện một bước đệm quan trọng để hiểu và mô hình hóa cách mọi người giao tiếp và hành xử khi họ ở bên nhau. Ngoài bộ dữ liệu, chúng tôi đang xuất bản một báo cáo kỹ thuật chi tiết về phương pháp luận và kết quả của chúng tôi. Báo cáo này có thể giúp đóng vai trò là bản thiết kế cho nghiên cứu trong tương lai về mô hình hóa tương tác hành vi nghe nhìn. Với tầm quan trọng của việc đánh giá tiến độ trong lĩnh vực mới nổi này, chúng tôi cũng đang đề xuất một phương pháp đánh giá dựa trên các số liệu chủ quan và khách quan được thông báo bởi bộ dữ liệu này. Các khả năng mô hình hóa được xây dựng từ bộ dữ liệu sẽ giúp chuyển đổi các tác nhân ảo xã hội, công nghệ hiện diện từ xa trong cài đặt VR và AR và phân tích nội dung video đa phương thức.
Mô hình hóa hành vi nghe nhìn biểu cảm
Tận dụng Bộ dữ liệu Tương tác Liền mạch, chúng tôi đã xây dựng một loạt các mô hình nghiên cứu Chuyển động Nhị nguyên cho thấy các khả năng tiềm năng của bộ dữ liệu và cũng mở đường cho nghiên cứu mô hình hóa hành vi nghe nhìn trong tương lai.
Các mô hình Chuyển động Nhị nguyên Âm thanh-Hình ảnh (AV) có thể đồng thời tạo ra các biểu cảm trên khuôn mặt và cử chỉ cơ thể. Các mô hình sử dụng âm thanh, từ hai người hoặc đầu ra giọng nói LLM, làm đầu vào để tạo ra thành phần hành vi. Hãy tưởng tượng việc trực quan hóa một podcast đã ghi âm trước đó giữa hai người đang nói — tạo ra toàn bộ quang phổ cảm xúc, cử chỉ và chuyển động được ngụ ý bởi lời nói của họ. Các mô hình Chuyển động Nhị nguyên AV tạo ra các cử chỉ và biểu cảm của một người nói cụ thể trong khi xem xét âm thanh từ cả hai người. Điều này cho phép các mô hình trực quan hóa các cử chỉ nói, cử chỉ lắng nghe và tín hiệu thay phiên nhau. Các mô hình Chuyển động Nhị nguyên AV tiến thêm một bước nữa bằng cách cũng xem xét đầu vào trực quan của bên kia. Điều này cho phép các mô hình học các tín hiệu đồng bộ hóa trực quan, chẳng hạn như phản chiếu nụ cười hoặc chú ý chung.
Các mô hình AV Dyadic Motion có thể được sử dụng để tạo hoạt ảnh cho hành vi của avatar, tạo ra các biểu cảm khuôn mặt và cử chỉ cơ thể của hai người dựa trên các bản ghi âm trước giọng nói của họ. Kết quả video của chúng tôi về khả năng này cho thấy trường hợp cơ bản, trong đó chỉ âm thanh được sử dụng làm đầu vào và một trường hợp nâng cao trong đó các tính năng trực quan có sẵn cho một trong hai người. Việc bao gồm các tính năng trực quan cho phép chúng tôi hiển thị sự đồng bộ trực quan được các mô hình nghe nhìn học được. Chúng tôi đã phát triển thêm các mô hình này bằng cách kết hợp các tham số kiểm soát bổ sung, cung cấp tính linh hoạt và khả năng kiểm soát lớn hơn đối với hành vi của mô hình. Điều này có thể đặc biệt hữu ích khi người dùng hoặc nhà thiết kế muốn điều chỉnh khả năng biểu cảm của avatar khi nói hoặc nghe. Các tham số kiểm soát này cũng có thể được xác định ngầm bởi đầu ra của một LLM giọng nói, cung cấp hướng dẫn trực quan cho mô hình chuyển động.
Ngoài ra, chúng tôi đã thiết kế các mô hình nghiên cứu hành vi nghe nhìn của mình để xuất ra các mã trung gian cho chuyển động khuôn mặt và cơ thể, mở ra một loạt các khả năng cho ứng dụng của chúng. Phương pháp này cho phép chúng tôi điều chỉnh các mô hình này để sử dụng trong các bối cảnh khác nhau, bao gồm tạo video 2D và hoạt ảnh cho Codec Avatars 3D, có thể được sử dụng trong trải nghiệm VR và AR nhập vai. Phòng thí nghiệm Codec Avatars của Meta đã cung cấp cho cộng đồng nghiên cứu các bộ dữ liệu và triển khai tham chiếu cơ bản cho Codec Avatars để hỗ trợ sự tiến bộ của nghiên cứu đo lường từ xa. Thông tin thêm về Codec Avatars có thể được tìm thấy tại đây.
Xây dựng Bộ dữ liệu Tương tác Liền mạch bằng các cuộc trò chuyện xác thực
Bộ dữ liệu Tương tác Liền mạch là bộ dữ liệu chất lượng cao lớn nhất ghi lại một loạt các tương tác thể hiện, trực tiếp giữa hai cá nhân, với các tín hiệu khuôn mặt và cơ thể được ghi lại đồng thời. Công việc của chúng tôi được neo trong lý thuyết tâm lý đương đại, cung cấp một lộ trình cho chúng tôi để thu thập sự đa dạng của các chủ đề hội thoại, quan điểm giữa các cá nhân và cảm xúc.
- Chúng tôi bao gồm hơn 4.000 giờ hành vi nghe nhìn với hơn 4.000 người tham gia, làm cho bộ dữ liệu này có quy mô chưa từng có.
- Bộ dữ liệu Tương tác Liền mạch bao gồm khoảng 1.300 lời nhắc dựa trên hội thoại và hoạt động, với nội dung tự nhiên và ngẫu hứng.
- Bộ dữ liệu bao gồm bối cảnh phong phú với các mối quan hệ cấp độ người tham gia và siêu dữ liệu tính cách, cùng với gần 5.000 chú thích video.
Tất cả các cuộc trò chuyện đều được ghi lại với những người tham gia ở cùng một vị trí để bảo tồn các đặc điểm thiết yếu của tương tác thể hiện và tránh những hạn chế của giao tiếp dựa trên video từ xa. Trong số các bản ghi âm này, một phần ba là các tương tác giữa hai người quen thuộc với nhau, chẳng hạn như gia đình, bạn bè hoặc đồng nghiệp. Mặc dù sự quen thuộc này trình bày một nghiên cứu hấp dẫn về ảnh hưởng của mối quan hệ đối với hành vi, nhưng nó cũng cho phép những người tham gia tương tác nhiều hơn ngay từ đầu so với sự vụng về đôi khi có thể xảy ra khi hai người lạ gặp nhau lần đầu tiên. Điều quan trọng là bộ dữ liệu cũng ghi lại một loạt các cảm xúc và quan điểm của con người, chẳng hạn như ngạc nhiên, không đồng ý, quyết tâm và hối tiếc — nói cách khác, đuôi dài của hành vi đối mặt trực tiếp của con người. Những loại tương tác này rất khó nắm bắt trong dữ liệu tự nhiên, vì vậy chúng tôi đã tuyển dụng các diễn viên chuyên nghiệp có kinh nghiệm ứng biến để thể hiện một loạt các vai trò và cảm xúc. Những cuộc trò chuyện này chiếm khoảng một phần ba bộ dữ liệu.
Chúng tôi đã thiết kế Bộ dữ liệu Tương tác Liền mạch để cho phép đào tạo và đánh giá các mô hình AI hành vi nghe nhìn. Tuy nhiên, công việc này cũng có thể đóng vai trò là nguồn tài nguyên cho một loạt các ngành quan tâm đến ngôn ngữ, hành vi và tương tác đối mặt. Là một phần của bản phát hành này, chúng tôi đang chia sẻ một phương pháp để đánh giá khách quan và chủ quan các thế hệ mô hình hành vi nghe nhìn. Chúng tôi khám phá một loạt các số liệu khách quan thường được cộng đồng nghiên cứu sử dụng và đề xuất một phương pháp toàn diện cho các đánh giá chủ quan, có thể giúp đánh giá tiến trình nghiên cứu trong tương lai. Chúng tôi trình bày một giao thức đánh giá so sánh với các tiêu chí tập trung vào hành vi nói, nghe và thay phiên nhau. Chúng tôi hy vọng rằng phương pháp này sẽ giúp cộng đồng nâng cao nghiên cứu của họ khi chúng tôi nỗ lực xây dựng các công nghệ xã hội tốt hơn vì lợi ích của mọi người.
Các biện pháp bảo vệ và quyền riêng tư
Chúng tôi ưu tiên quyền riêng tư, đạo đức và chất lượng trong việc thu thập và xử lý dữ liệu cho nghiên cứu của mình. Cách tiếp cận này hướng dẫn nghiên cứu và ứng dụng AI của chúng tôi.
Quyền riêng tư và đạo đức
Chúng tôi đã thực hiện một số biện pháp để bảo vệ quyền riêng tư của những người đã cho phép chúng tôi ghi lại các cuộc trò chuyện của họ cho mục đích xây dựng Bộ dữ liệu Tương tác Liền mạch. Trong quá trình tạo bộ dữ liệu, những người tham gia đã đồng ý thu thập các cuộc trò chuyện đã ghi của họ và được khuyên tránh chia sẻ thông tin nhận dạng cá nhân. Để bảo vệ hơn nữa tính ẩn danh của người tham gia, khoảng một phần ba số cuộc trò chuyện đã được viết kịch bản, giảm thiểu rủi ro tiết lộ các chi tiết cá nhân. Một quy trình đảm bảo chất lượng sau thu thập cũng được thiết lập để phân tích mọi video về tài liệu riêng tư hoặc nhạy cảm.
Quy trình đảm bảo chất lượng
Một quy trình đảm bảo chất lượng đã được thực hiện để xác định các trường hợp có tài liệu nhạy cảm và thông tin nhận dạng cá nhân. Sau đó, nội dung được gắn cờ đã bị xóa khỏi bộ dữ liệu. Quy trình của chúng tôi bao gồm một cách tiếp cận nhiều giai đoạn với đánh giá chất lượng dựa trên con người ban đầu bao gồm hàng trăm giờ video bao gồm các mẫu từ mọi phiên ghi âm, sau đó là phân tích dựa trên mô hình bao gồm toàn bộ bộ dữ liệu.
- Đánh giá dựa trên con người: Người đánh giá con người đánh giá nội dung video để tìm các dấu hiệu của tài liệu nhạy cảm và thông tin nhận dạng cá nhân.
- Phân tích bản ghi LLM văn bản: Các bản ghi bằng văn bản đã được phân tích để phát hiện các trường hợp có tài liệu nhạy cảm và thông tin nhận dạng cá nhân.
- Phân tích video dựa trên mô hình ngôn ngữ video: Các mô hình ngôn ngữ video đã được sử dụng để phát hiện các trường hợp có tài liệu nhạy cảm và thông tin nhận dạng cá nhân.
Chúng tôi đã sử dụng một chiến lược lọc bảo thủ bằng cách kết hợp các cờ từ cả ba phương pháp, cuối cùng loại bỏ hàng trăm giờ tương tác được gắn cờ bởi bất kỳ hệ thống nào. Cách tiếp cận này cho phép chúng tôi duy trì các tiêu chuẩn cao về chất lượng và tính toàn vẹn trong nỗ lực thu thập dữ liệu của mình.
Đóng dấu bản quyền
Chúng tôi sử dụng AudioSeal và VideoSeal để đóng dấu bản quyền nội dung được tạo từ các mô hình hành vi nghe nhìn của chúng tôi. Các mô hình này cho phép chúng tôi nhúng các thông điệp bí mật vào các khung hình riêng lẻ của nội dung gốc, sau đó có thể được trích xuất bởi các máy dò. Điều này cho phép chúng tôi xác minh tính xác thực và nguồn gốc của nội dung, ngay cả sau khi xử lý hoặc thao tác. Bằng cách thực hiện đóng dấu bản quyền, chúng tôi mong muốn cung cấp thêm một lớp bảo mật, minh bạch và trách nhiệm giải trình.
Hướng tới tương lai
Các mô hình nghiên cứu của chúng tôi có tiềm năng chuyển đổi các công nghệ xã hội trong tương lai giúp nâng cao cuộc sống hàng ngày của chúng ta, giải trí và đưa chúng ta đến gần nhau hơn. Bằng cách ưu tiên các thực hành AI có trách nhiệm, chúng tôi hy vọng sẽ tiếp tục xây dựng niềm tin vào các mô hình của mình và tạo ra công nghệ mang lại lợi ích cho mọi người. Chúng tôi mong muốn được xem cộng đồng sử dụng bộ dữ liệu và báo cáo kỹ thuật mà chúng tôi chia sẻ hôm nay để nâng cao công việc của họ như thế nào.
- Truy cập trang web Tương tác Liền mạch
- Khám phá bộ dữ liệu
- Tải xuống bộ dữ liệu trên Github
- Tải xuống bộ dữ liệu trên HuggingFace
- Đọc báo cáo kỹ thuật
Link bài viết gốc
- Tags:
- Ai
- June 27, 2025
- Ai.meta.com