Đánh giá mới cho các tác nhân giọng nói (EVA)

Giới thiệu một khuôn khổ mới để đánh giá các tác nhân giọng nói.

March 25, 2026
9 min read

Khung đánh giá mới cho các tác nhân giọng nói (EVA)

Các tác nhân giọng nói hội thoại đặt ra một thách thức đánh giá đặc biệt: chúng phải đồng thời đáp ứng hai mục tiêu — độ chính xác (hoàn thành nhiệm vụ của người dùng một cách chính xác và trung thực) và trải nghiệm hội thoại (thực hiện nhiệm vụ một cách tự nhiên, súc tích và phù hợp với tương tác bằng giọng nói). Hai mục tiêu này gắn bó chặt chẽ với nhau: nghe nhầm mã xác nhận khiến khả năng suy luận hoàn hảo của LLM trở nên vô nghĩa, một loạt các tùy chọn làm cho người gọi bị choáng ngợp vì họ không thể quét nội dung bằng mắt, và phản hồi chậm trễ có thể vượt qua mọi kiểm tra về độ chính xác nhưng lại không thể sử dụng được trong thực tế. Các khung hiện có coi đây là những mối quan tâm riêng biệt — đánh giá sự thành công của nhiệm vụ hoặc động lực hội thoại, nhưng không phải cả hai.

Chúng tôi giới thiệu EVA, một khung đánh giá đầu cuối (end-to-end) cho các tác nhân giọng nói hội thoại, đánh giá toàn bộ các cuộc hội thoại nói nhiều lượt bằng kiến trúc bot-to-bot thực tế. EVA tạo ra hai điểm số cấp cao là EVA-A (Độ chính xác) và EVA-X (Trải nghiệm), được thiết kế để làm nổi bật các lỗi ở từng khía cạnh. EVA là khung đầu tiên kết hợp chấm điểm cả sự thành công của nhiệm vụ và trải nghiệm hội thoại. Chúng tôi phát hành EVA với tập dữ liệu hàng không ban đầu gồm 50 tình huống bao gồm đặt lại chuyến bay, xử lý hủy bỏ, phiếu giảm giá, v.v. — đây là tập đầu tiên trong chuỗi các lĩnh vực dự kiến.

Hình minh họa giới thiệu

Chúng tôi cũng cung cấp kết quả điểm chuẩn cho 20 hệ thống cascade và hệ thống âm thanh gốc, chẳng hạn như các mô hình speech-to-speech (S2S) và Large Audio Language Models (LALM). Phát hiện lớn nhất của chúng tôi là luôn có sự đánh đổi nhất quán giữa Độ chính xác và Trải nghiệm; các tác nhân thực hiện tốt việc hoàn thành nhiệm vụ thường mang lại trải nghiệm người dùng tệ hơn và ngược lại.

🌐 Trang web — Khám phá toàn bộ khung, kết quả ban đầu và bản demo.
💻 GitHub — Tìm hiểu mã nguồn, khung và lời nhắc (prompts) của giám khảo.
📂 Tập dữ liệu HF - Khám phá tập dữ liệu.

Bối cảnh và Động lực

Hiện tại, lĩnh vực này thiếu một khung đánh giá chất lượng đầy đủ của các tương tác tác nhân giọng nói, vì hầu hết các nỗ lực hiện có đều đánh giá các thành phần riêng lẻ một cách cô lập. Các nỗ lực đánh giá khả năng hiểu giọng nói cốt lõi cho Speech-to-Text (STT) như AudioBench, SD-Eval, VoxEval, Kimi-Audio-Evalkit, VoiceBench và VoxDialogue vẫn bị giới hạn trong các cài đặt không tương tác, một lượt. Ngược lại, các công cụ đánh giá chất lượng giọng nói cảm nhận như EmergentTTS-Eval và SHEET chỉ sử dụng các bài kiểm tra nghe chủ quan. Ngoài nhận thức giọng nói, các nỗ lực như FD-Bench, Talking Turns, Full-Duplex-Bench phân tích sâu hơn về động lực hội thoại — ngắt lời, phản hồi - nhưng lại đánh giá chúng một cách cô lập với việc sử dụng công cụ theo nhiệm vụ. Những nỗ lực gần đây hơn như VoiceAgentBench và CAVA đã có những bước tiến trong việc đánh giá khả năng của các tác nhân giọng nói thương mại, nhưng các khả năng này không được đánh giá trong quy trình hội thoại hoàn chỉnh.

Việc thiếu các khung kết hợp cả độ chính xác và trải nghiệm nhấn mạnh nhu cầu về một khung đánh giá chất lượng tác nhân giọng nói như một thể thống nhất. Điều này có nghĩa là không chỉ đánh giá xem nhiệm vụ có thành công hay không, mà còn đánh giá liệu tác nhân có giao tiếp chính xác, súc tích và tự nhiên trong suốt quá trình hay không.

EVA

Khung làm việc

Đánh giá đầu cuối cho thấy các động lực tương tác không rõ ràng ở cấp độ thành phần: liệu tác nhân có ngắt lời người dùng trong các khoảng nghỉ tự nhiên, liệu nó có phục hồi suôn sẻ khi người dùng sửa lỗi phiên âm hay không, hoặc liệu độ trễ cao có làm gián đoạn luồng hội thoại đến mức khiến người dùng phải lặp lại hoặc từ bỏ nhiệm vụ hoàn toàn hay không.

Kiến trúc EVA

EVA mô phỏng các cuộc hội thoại nói nhiều lượt qua âm thanh trực tiếp, trong đó tác nhân phải gọi các công cụ thích hợp, tuân thủ các chính sách cụ thể của nhiệm vụ và đạt được trạng thái cuối cùng có thể xác minh một cách xác định. EVA đánh giá các tác nhân giọng nói bằng kiến trúc âm thanh bot-to-bot gồm năm thành phần cốt lõi:

Trình mô phỏng người dùng (User Simulator) — Một AI hội thoại được cấu hình với mục tiêu và tính cách cụ thể đóng vai trò người gọi.
Tác nhân giọng nói (Voice Agent) — Tác nhân được đánh giá, được xây dựng bằng Pipecat.
Trình thực thi công cụ (Tool Executor) — Công cụ cung cấp các phản hồi công cụ xác định, có thể tái lập thông qua các hàm Python tùy chỉnh.
Bộ xác thực (Validators) — Một tập hợp các số liệu xác thực đảm bảo rằng các cuộc hội thoại hoàn chỉnh và người dùng đã tái tạo hành vi và lời nói dự định một cách trung thực.
Bộ số liệu (Metrics Suite) — Một bộ số liệu đánh giá tác nhân giọng nói bằng cách sử dụng ghi âm cuộc hội thoại, bản ghi và nhật ký cuộc gọi công cụ.

Dữ liệu

Mỗi trường hợp thử nghiệm (kịch bản) trong khung của chúng tôi là một hồ sơ đánh giá, được cấu trúc để đảm bảo tính tái lập:

Mục tiêu người dùng — Những gì người gọi đang cố gắng đạt được.
Tính cách người dùng — Cách người gọi nên hành xử — phong cách nói, mức độ kiên nhẫn và các đặc điểm tính cách.
Cơ sở dữ liệu kịch bản — Dữ liệu phụ trợ mà các công cụ của tác nhân sẽ truy vấn.
Sự thật cơ bản (Ground Truth) — Trạng thái cuối cùng dự kiến của cơ sở dữ liệu kịch bản sau một cuộc hội thoại thành công.

Chúng tôi phát hành EVA với tập dữ liệu hàng không tổng hợp gồm 50 kịch bản và 15 công cụ.

Demo

Xem demo đầy đủ tại đây.

Phương pháp đánh giá

EVA đánh giá các tác nhân giọng nói trên hai khía cạnh cơ bản: EVA-A (Độ chính xác) và EVA-X (Trải nghiệm), cùng với một tập hợp các số liệu chẩn đoán.

Phương pháp chấm điểm EVA

EVA-A: Độ chính xác

EVA-A đo lường ba khía cạnh của độ chính xác:

Hoàn thành nhiệm vụ [Xác định] — Đo lường xem tác nhân có hoàn thành nhiệm vụ đúng cách hay không.
Tính trung thực [LLM-as-Judge] — Đo lường xem các phản hồi của tác nhân có dựa trên hướng dẫn, chính sách, đầu vào của người dùng và kết quả gọi công cụ hay không.
Độ trung thực của giọng nói [LALM-as-Judge] — Đo lường xem hệ thống giọng nói có tái tạo trung thực văn bản dự định trong âm thanh nói hay không.

EVA-X: Trải nghiệm

EVA-X đo lường ba khía cạnh của trải nghiệm:

Sự súc tích [LLM-as-Judge] — Đo lường xem các phản hồi của tác nhân có ngắn gọn và tập trung một cách thích hợp cho việc truyền đạt bằng giọng nói hay không.
Tiến trình hội thoại [LLM-as-Judge] — Đo lường xem tác nhân có thúc đẩy cuộc hội thoại hiệu quả hay không — tránh lặp lại, giữ lại ngữ cảnh.
Sự luân phiên (Turn-Taking) [LLM-as-Judge] — Đo lường xem tác nhân có nói đúng lúc hay không — không ngắt lời người dùng và không tạo ra sự im lặng quá mức.

Phát hiện

Chúng tôi đã đánh giá 20 hệ thống — độc quyền và mã nguồn mở, cascade và audio-native — và nhận thấy sự đánh đổi nhất quán giữa độ chính xác và trải nghiệm: các tác nhân thực hiện tốt việc hoàn thành nhiệm vụ thường mang lại trải nghiệm người dùng tệ hơn và ngược lại. Ngoài ra, chúng tôi xác định việc phiên âm thực thể có tên (named entity) là một phương thức thất bại chiếm ưu thế. Các quy trình làm việc nhiều bước làm hỏng các tác nhân theo những cách có thể dự đoán được.

Kết quả ban đầu

Xem kết quả ban đầu tại đây.

Hạn chế

EVA được thiết kế để cung cấp đánh giá nghiêm ngặt, từ đầu đến cuối cho các tác nhân giọng nói, nhưng cần thừa nhận một số hạn chế:

Số liệu — Các mô hình LLM-as-judge mang những thành kiến vốn có.
Mô phỏng — Bản phát hành hiện tại bao gồm 50 kịch bản bằng tiếng Anh trong một lĩnh vực duy nhất (hàng không); kết quả có thể không tổng quát hóa sang các lĩnh vực hoặc ngôn ngữ khác.
Khung — Việc mô phỏng dựa trên một nhà cung cấp thương mại duy nhất và quy trình bot-to-bot có thể không hoàn toàn đại diện cho các triển khai thực tế.

Điều gì tiếp theo?

Chúng tôi có kế hoạch thêm đánh giá chất lượng prosodic (phát âm, nhịp điệu, biểu cảm), thử nghiệm độ bền trong điều kiện ồn ào, các giọng địa phương đa dạng và người dùng đa ngôn ngữ. Chúng tôi cũng đang phát triển các tập dữ liệu lĩnh vực bổ sung và các kịch bản phức tạp hơn. Về mặt công cụ, chúng tôi sẽ phát hành một ứng dụng phân tích kết quả và lỗi tự động.

Sự công nhận

Các cộng tác viên chính bao gồm Tara Bogavelli, Gabrielle Gauthier Melançon, Katrina Stankiewicz, Oluwanifemi Bamgbose, Hoang Nguyen, Raghav Mehndiratta và Hari Subramani.

Trích dẫn

@misc{eva-2026, 
  title={A New End-to-end Framework for Evaluating Voice Agents (EVA)}, 
  author={Bogavelli, Tara and Gauthier Melançon, Gabrielle and Stankiewicz, Katrina and Bamgbose, Oluwanifemi and Nguyen, Hoang and Mehndiratta, Raghav and Subramani, Hari}, 
  year={2026}, 
  url={https://github.com/ServiceNow/eva} 
}

AI Today - SkyAI