Suite Benchmark FACTS- Đánh giá một cách có hệ thống tính xác thực của các mô hình ngôn ngữ lớn

Suite Benchmark FACTS đánh giá một cách có hệ thống tính xác thực của các mô hình ngôn ngữ lớn.

  • 7 min read
Suite Benchmark FACTS- Đánh giá một cách có hệ thống tính xác thực của các mô hình ngôn ngữ lớn
Suite Benchmark FACTS đánh giá một cách có hệ thống tính xác thực của các mô hình ngôn ngữ lớn.

FACTS Benchmark Suite: Đánh giá có hệ thống tính xác thực của các mô hình ngôn ngữ lớn

Ngày 9 tháng 12 năm 2025

Đội ngũ FACTS

Các mô hình ngôn ngữ lớn (LLM) ngày càng trở thành nguồn cung cấp thông tin chính cho nhiều trường hợp sử dụng, vì vậy điều quan trọng là các phản hồi của chúng phải chính xác về mặt thực tế.

Để tiếp tục cải thiện hiệu suất của chúng trong thử thách chung của ngành này, chúng ta cần hiểu rõ hơn về các loại trường hợp sử dụng mà các mô hình gặp khó khăn trong việc cung cấp phản hồi chính xác và đo lường tốt hơn hiệu suất xác thực trong các lĩnh vực đó.

FACTS Benchmark Suite

Hôm nay, chúng tôi hợp tác với Kaggle để giới thiệu Bộ Benchmark FACTS. Bộ benchmark này mở rộng công việc trước đây của chúng tôi trong việc phát triển FACTS Grounding Benchmark, với ba benchmark xác thực bổ sung, bao gồm:

  • Benchmark Tham số (Parametric Benchmark): Đo lường khả năng của mô hình trong việc truy cập kiến thức nội bộ của nó một cách chính xác trong các trường hợp sử dụng câu hỏi sự kiện.
  • Benchmark Tìm kiếm (Search Benchmark): Kiểm tra khả năng của mô hình trong việc sử dụng Tìm kiếm làm công cụ để truy xuất thông tin và tổng hợp nó một cách chính xác.
  • Benchmark Đa phương thức (Multimodal Benchmark): Kiểm tra khả năng của mô hình trong việc trả lời các câu hỏi liên quan đến hình ảnh đầu vào một cách chính xác về mặt thực tế.

Chúng tôi cũng đang cập nhật benchmark FACTS Grounding ban đầu với Grounding Benchmark - Phiên bản 2, một benchmark mở rộng để kiểm tra khả năng của mô hình trong việc cung cấp các câu trả lời được căn cứ vào ngữ cảnh của một lời nhắc được cung cấp.

Mỗi benchmark được tuyển chọn cẩn thận để tạo ra tổng cộng 3.513 ví dụ, mà chúng tôi hiện đang công bố rộng rãi. Tương tự như bản phát hành trước đó, chúng tôi tuân theo thông lệ tiêu chuẩn của ngành và giữ lại một tập dữ liệu đánh giá làm tập dữ liệu riêng tư. Điểm FACTS Benchmark Suite (hoặc Điểm FACTS) được tính bằng cách lấy trung bình độ chính xác của cả hai tập dữ liệu công khai và riêng tư trên bốn benchmark. Kaggle sẽ giám sát việc quản lý Bộ Benchmark FACTS. Điều này bao gồm việc sở hữu các tập dữ liệu riêng tư, kiểm tra các LLM hàng đầu trên các benchmark và lưu trữ kết quả trên bảng xếp hạng công khai. Thông tin chi tiết hơn về phương pháp đánh giá FACTS có thể được tìm thấy trong báo cáo kỹ thuật của chúng tôi.

Tổng quan Benchmark

Benchmark Tham số

Benchmark FACTS Tham số đánh giá khả năng của mô hình trong việc trả lời chính xác các câu hỏi thực tế, mà không cần sự trợ giúp của các công cụ bên ngoài như tìm kiếm trên web. Tất cả các câu hỏi trong benchmark đều là câu hỏi theo kiểu “thông tin tức” được thúc đẩy bởi sự quan tâm của người dùng và có thể được trả lời thông qua Wikipedia (một nguồn tiêu chuẩn cho việc đào tạo trước LLM). Kết quả benchmark bao gồm một tập dữ liệu công khai gồm 1052 mục và một tập dữ liệu riêng tư gồm 1052 mục.

Phân phối miền ngữ cảnh (bên trái) và phân phối loại câu trả lời (bên phải) theo phần trăm tổng số câu hỏi trong benchmark Tham số.

Benchmark Tìm kiếm

Ngược lại, benchmark FACTS Search đánh giá khả năng của mô hình trong việc sử dụng công cụ tìm kiếm trên web để trả lời câu hỏi. Benchmark này được thiết kế để thách thức LLM ngay cả khi có quyền truy cập web, thường yêu cầu truy xuất nhiều thông tin thực tế một cách tuần tự để trả lời một truy vấn duy nhất. Công cụ tìm kiếm trên web tương tự đang được cung cấp cho tất cả các mô hình, đảm bảo rằng khả năng của mô hình được kiểm tra một cách cô lập mà không có yếu tố gây nhiễu của các cài đặt truy xuất web tùy chỉnh. FACTS Search bao gồm một tập dữ liệu công khai gồm 890 mục và một tập dữ liệu riêng tư gồm 994 mục.

Phân phối miền ngữ cảnh (bên trái) và phân phối nhiệm vụ được yêu cầu bởi người dùng (bên phải) theo phần trăm tổng số lời nhắc trong benchmark Tìm kiếm.

Một lời nhắc điển hình từ tập dữ liệu công khai sẽ yêu cầu mô hình trả lời một câu hỏi đơn giản về một chủ đề chuyên biệt, ví dụ: “Ai đã chơi harmonica trong bài hát chủ đề của ‘The Rockford Files’?”

Benchmark Đa phương thức

Benchmark FACTS Đa phương thức đánh giá khả năng của mô hình trong việc tạo ra văn bản chính xác về mặt thực tế để đáp ứng các câu hỏi dựa trên hình ảnh, đây là một khả năng quan trọng đối với các hệ thống đa phương thức hiện đại.

Nhiệm vụ này đòi hỏi sự tích hợp của việc định vị trực quan, tức là khả năng diễn giải và kết nối thông tin từ đầu vào trực quan một cách chính xác, sử dụng kiến thức thế giới nội bộ hoặc “tham số” của nó. Khung đánh giá được thiết kế để đảm bảo rằng một phản hồi vừa chính xác vừa cung cấp tất cả thông tin cần thiết để hoàn chỉnh. Benchmark bao gồm một tập dữ liệu công khai gồm 711 mục và một tập dữ liệu riêng tư gồm 811 mục.

Phân phối hình ảnh (bên trái) và phân phối các danh mục câu hỏi (bên phải) như một phần của benchmark Đa phương thức.

Ví dụ, hình ảnh sau từ tập dữ liệu công khai của benchmark Đa phương thức xuất hiện với lời nhắc: “Động vật này thuộc chi nào?”

Chụp cận cảnh một con bướm đêm hoặc bướm nhảy nhỏ, có lông màu nâu với đôi cánh rộng đang đậu trên lá xanh. Côn trùng có đôi mắt đen to và ăng-ten cong về phía sau trên đầu. (Nguồn ảnh: Racta apella bởi desertnaturalist, CC BY 4.0)

Kết quả

Chúng tôi đã đánh giá các LLM hàng đầu trên Bộ Benchmark FACTS, bao gồm FACTS Grounding phiên bản 2 đã được cập nhật.

Bảng dưới đây liệt kê 15 mô hình hàng đầu và điểm FACTS tổng thể của chúng (tiếp theo là phân tích chi tiết các điểm trên bốn benchmark riêng lẻ: Grounding, Multimodal, Parametric và Search).

Bảng xếp hạng các mô hình ngôn ngữ lớn về điểm FACTS tổng thể và điểm chi tiết cho từng benchmark.

Gemini 3 Pro dẫn đầu về hiệu suất tổng thể, với Điểm FACTS là 68,8%. Đặc biệt, chúng tôi đã thấy sự cải thiện đáng kể từ Gemini 2.5 Pro lên Gemini 3 Pro trong các phần Tìm kiếm & Tham số, nơi tỷ lệ lỗi giảm 55% trên FACTS Search và 35% đối với FACTS Parametric. FACTS Multimodal cho thấy điểm số thấp nhất, nói chung. Tất cả các mô hình được đánh giá đều đạt độ chính xác tổng thể dưới 70%, còn nhiều chỗ để cải thiện trong tương lai.

Ngoài Bộ Benchmark FACTS, tính xác thực của Gemini cũng được phản ánh trong một benchmark xác thực khác, SimpleQA Verified, tăng từ 54,5% độ chính xác trên Gemini 2.5 Pro lên 72,1% trên Gemini 3 Pro. SimpleQA Verified kiểm tra kiến thức tham số của LLM về các phản hồi ngắn gọn.

Hướng tới tương lai

Mặc dù tính xác thực của LLM vẫn là một lĩnh vực nghiên cứu đang diễn ra, Bộ Benchmark FACTS và kết quả Gemini 3 Pro là đại diện cho cam kết lâu dài của Google nhằm làm cho thông tin trở nên dễ tiếp cận và hữu ích một cách phổ quát. Chúng tôi hy vọng công việc này sẽ khuyến khích nghiên cứu sâu hơn về tính xác thực của LLM, dẫn đến các mô hình và sản phẩm tốt hơn, chính xác hơn cho những người phụ thuộc vào chúng.

Bài viết liên quan

FACTS Grounding: A new benchmark for evaluating the factuality of large language models

Tháng 12 năm 2024

Trách nhiệm & An toàn

Tìm hiểu thêm

A new era of intelligence with Gemini 3

Tháng 11 năm 2025

Mô hình

Tìm hiểu thêm

Theo dõi chúng tôi

Follow us

Đăng ký nhận thông tin cập nhật về những đổi mới mới nhất của chúng tôi

Tôi chấp nhận Điều khoản và Điều kiện của Google và thừa nhận rằng thông tin của tôi sẽ được sử dụng theo Chính sách quyền riêng tư của Google.

Mô hình

  • Gemini
  • Nano Banana
  • Gemma
  • Imagen
  • Lyria
  • Veo

Tìm hiểu thêm

Bắt đầu xây dựng

Hãy bắt đầu xây dựng với các mô hình và công cụ AI tiên tiến

  • Google AI Studio
  • Google Antigravity
  • Tài liệu dành cho nhà phát triển
  • Gemini API

Khoa học

Mở ra một kỷ nguyên khám phá mới với AI

  • AlphaFold
  • AlphaGenome
  • WeatherNext

Tìm hiểu thêm

Tìm hiểu thêm

  • Giới thiệu
  • Tin tức
  • Tuyển dụng
  • Trách nhiệm & An toàn
  • Podcast

Google

  • Giới thiệu Google
  • Sản phẩm Google
  • Quyền riêng tư
  • Điều khoản

Điều khiển quản lý cookie

© 2024 Google DeepMind

Recommended for You

Tăng cường quan hệ đối tác với chính phủ Vương quốc Anh để hỗ trợ sự thịnh vượng và an ninh trong kỷ nguyên AI

Tăng cường quan hệ đối tác với chính phủ Vương quốc Anh để hỗ trợ sự thịnh vượng và an ninh trong kỷ nguyên AI

Tăng cường quan hệ đối tác với chính phủ Vương quốc Anh để hỗ trợ sự thịnh vượng và an ninh trong kỷ nguyên AI.

Kỹ thuật tạo ra cây trồng chống chịu tốt hơn cho khí hậu nóng lên

Kỹ thuật tạo ra cây trồng chống chịu tốt hơn cho khí hậu nóng lên

Kỹ thuật tạo ra cây trồng chống chịu tốt hơn cho khí hậu nóng lên