ViDoRe V3- đánh giá toàn diện về truy xuất cho các trường hợp sử dụng doanh nghiệp

ViDoRe V3- đánh giá toàn diện về truy xuất cho các trường hợp sử dụng doanh nghiệp

  • 19 min read
ViDoRe V3- đánh giá toàn diện về truy xuất cho các trường hợp sử dụng doanh nghiệp
ViDoRe V3- đánh giá toàn diện về truy xuất cho các trường hợp sử dụng doanh nghiệp

ViDoRe V3: Đánh giá toàn diện về truy xuất cho các trường hợp sử dụng doanh nghiệp

Tác giả: Quentin Macé, Antonio Loison, Antoine EDY, Victor Xing, Gautier Viaud Ngày đăng: 05/11/2025


📣 Cập nhật: ViDoRe v3 hiện đã được tích hợp vào bảng xếp hạng MTEB!

TL;DR

ILLUIN Technology tự hào giới thiệu ViDoRe V3, một điểm chuẩn mới được thiết kế để đặt ra tiêu chuẩn vàng trong ngành cho việc đánh giá truy xuất đa phương thức cho tài liệu doanh nghiệp. Nó giải quyết một thách thức quan trọng trong các hệ thống RAG sản xuất: truy xuất thông tin chính xác từ các tài liệu phức tạp, giàu hình ảnh.

ViDoRe V3 cải thiện các điểm chuẩn RAG hiện có bằng cách ưu tiên sự liên quan đến doanh nghiệp và chất lượng dữ liệu nghiêm ngặt. Thay vì dựa vào văn bản học thuật sạch sẽ, điểm chuẩn này sử dụng 10 bộ dữ liệu đầy thử thách, thực tế, bao gồm các lĩnh vực công nghiệp đa dạng, với 8 bộ được phát hành công khai và 2 bộ được giữ kín. Hơn nữa, trong khi các điểm chuẩn trước đây thường dựa vào dữ liệu tổng hợp, ViDoRe V3 có các chú thích do con người tạo và xác minh.

Điểm chuẩn này bao gồm 26.000 trang3.099 truy vấn được dịch sang 6 ngôn ngữ. Mỗi truy vấn đều được liên kết với dữ liệu ground truth truy xuất do người đánh dấu tạo và xác minh: các trang liên quan, chú thích hộp giới hạn chính xác cho các yếu tố quan trọng và câu trả lời tham chiếu toàn diện.

Tại sao chúng tôi xây dựng ViDoRe V3

Cảnh quan truy xuất tài liệu ngày càng đa dạng. Các quy trình mới dựa trên Mô hình Ngôn ngữ Thị giác đang thách thức các hệ thống truyền thống dựa trên mô hình truy xuất/tạo văn bản. Với ViDoRe V1 và V2, chúng tôi đã trình bày các bước đầu tiên hướng tới việc đánh giá tốt hơn các trình truy xuất VLM:

  • ViDoRe V1 tập trung vào các truy vấn trích xuất dựa trên một trang duy nhất.
  • ViDoRe V2 mở rộng điểm chuẩn cho các truy vấn mở hơn.

Tuy nhiên, các tập hợp dữ liệu vẫn còn nhỏ so với các trường hợp sử dụng trong thế giới thực và cả hai đều phụ thuộc nhiều vào việc tạo dữ liệu tổng hợp. Mặc dù đây là những bước đi đúng hướng, các điểm chuẩn trước đây vẫn để lại cho chúng tôi một bức tranh rời rạc. Các tập hợp dữ liệu cần phải lớn hơnđại diện hơn cho dữ liệu doanh nghiệp, các truy vấn đa dạng hơn, đánh giá đầu cuối khó khăn và thiếu sự xác minh của con người.

Đóng góp cốt lõi của chúng tôi

Để giải quyết những hạn chế của các điểm chuẩn trước đây, chúng tôi đã tập trung vào 3 trụ cột cải tiến chính:

  1. Các tập hợp dữ liệu liên quan đến doanh nghiệp: Chúng tôi đã tổng hợp 10 tập hợp dữ liệu đa dạng, mỗi tập trung vào một lĩnh vực hoặc tác vụ riêng biệt, liên quan đến doanh nghiệp. Đối với mỗi lĩnh vực, chúng tôi đã tuyển chọn hơn 1.000 trang từ các tài liệu đa phương thức được cấp phép tự do, phản ánh các thách thức và sự phức tạp của việc truy xuất tài liệu doanh nghiệp trong thế giới thực. 8 bộ dữ liệu được phát hành công khai và 2 bộ dữ liệu được giữ kín để ngăn chặn việc tối ưu hóa quá mức.
  2. Xác minh chú thích của con người: Đối với mỗi truy vấn, chúng tôi cung cấp xếp hạng mức độ liên quan của trang, hộp giới hạn và câu trả lời được viết bởi con người để cho phép đánh giá truy xuất/RAG toàn diện.
  3. Truy vấn đa dạng: Để xác định có hệ thống các lỗi, các truy vấn bao gồm 7 loại (ví dụ: nhiều bước, số liệu) và 3 định dạng (câu hỏi, hướng dẫn, từ khóa). Để đánh giá khả năng đa ngôn ngữ, tất cả các truy vấn đều được cung cấp bằng 6 ngôn ngữ: tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha, tiếng Đức, tiếng Ý và tiếng Bồ Đào Nha.

Bộ dữ liệu công khai

Bộ dữ liệu Lĩnh vực Ngôn ngữ tập dữ liệu Các phương thức chính Số trang Số truy vấn (không tính bản dịch)
Báo cáo thường niên của công ty đại chúng Pháp Tài chính-FR Pháp Văn bản, Bảng, Biểu đồ 2384 320
Báo cáo thường niên của công ty đại chúng Hoa Kỳ Tài chính-EN Tiếng Anh Văn bản, Bảng 2942 309
Sách giáo khoa Khoa học Máy tính Khoa học Máy tính Tiếng Anh Văn bản, Infographic, Bảng 1360 215
Báo cáo Nhân sự từ EU Nhân sự Tiếng Anh Văn bản, Bảng, Biểu đồ 1110 318
Báo cáo Năng lượng Chính phủ Pháp Năng lượng Pháp Văn bản, Biểu đồ 2229 308
Chỉ thị Kỹ thuật USAF Công nghiệp Tiếng Anh Văn bản, Bảng, Infographic, Hình ảnh 5244 283
Báo cáo FDA Dược phẩm Tiếng Anh Văn bản, Biểu đồ, Hình ảnh, Infographic, Bảng 2313 364
Bài giảng Vật lý Pháp Vật lý Pháp Văn bản, Hình ảnh, Infographic 1674 302

Bộ dữ liệu riêng tư

Hai bộ dữ liệu sẽ vẫn là riêng tư và sẽ được quản lý bởi nhóm MTEB (cảm ơn họ rất nhiều!) để đảm bảo tính toàn vẹn của điểm chuẩn và giảm thiểu việc tối ưu hóa quá mức. Phương pháp đánh giá này sẽ cung cấp một phương pháp ít thiên vị hơn để đánh giá các mô hình truy xuất hình ảnh, dẫn đến sự hiểu biết đại diện hơn về khả năng thực sự của chúng. Để tránh tiết lộ quá nhiều chi tiết về các bộ dữ liệu này, chúng tôi chỉ tiết lộ lĩnh vực và ngôn ngữ của các tài liệu.

Hai bộ dữ liệu riêng tư bao gồm:

  1. Tài liệu quy định năng lượng hạt nhân (tiếng Anh)
  2. Tài liệu tiêu chuẩn kỹ thuật liên quan đến viễn thông (tiếng Anh)

Danh mục truy vấn

Chúng tôi thiết kế các truy vấn ViDoRe V3 để phản ánh sự đa dạng và phức tạp của các tác vụ truy xuất trong thế giới thực. Mỗi truy vấn được định dạng dưới dạng câu hỏi, hướng dẫn hoặc từ khóa và được gắn thẻ với một hoặc nhiều loại truy vấn trong số 7 loại.

Định nghĩa loại truy vấn
Mở rộng Một truy vấn yêu cầu tổng hợp và giải thích thông tin. Câu trả lời phải tích hợp nhiều khái niệm vào một câu chuyện mạch lạc thay vì chỉ trích dẫn một sự kiện duy nhất.
So sánh - đối chiếu Một truy vấn yêu cầu xác định và trình bày sự tương đồng và/hoặc khác biệt giữa hai hoặc nhiều thực thể, khái niệm hoặc chủ đề.
Liệt kê Một truy vấn yêu cầu một danh sách đầy đủ các mục đáp ứng các tiêu chí cụ thể.
Số liệu Một truy vấn mong đợi một giá trị số, thu được bằng cách trích xuất trực tiếp hoặc tính toán.
Đúng/Sai Một truy vấn mong đợi câu trả lời có hoặc không, có thể yêu cầu lý luận trên thông tin đã trích xuất.
Trích xuất Câu trả lời cho truy vấn có thể được thực hiện bằng cách trích dẫn trực tiếp một sự kiện hoặc một phần thông tin cụ thể từ tài liệu.
Nhiều bước Một truy vấn yêu cầu truy xuất thông tin từ nhiều nguồn hoặc phần riêng biệt, sau đó phải kết hợp để tạo ra một câu trả lời hoàn chỉnh.

Để minh họa các sự kết hợp của các loại truy vấn có xu hướng xảy ra cùng nhau và mức độ phổ biến của từng loại, chúng tôi trực quan hóa sự phân phối và số lượng của tất cả các sự kết hợp. Các truy vấn đơn lẻ phổ biến nhất, nhưng nhiều truy vấn kết hợp nhiều loại, chẳng hạn như các câu hỏi trích xuất yêu cầu so sánh số liệu.

Chúng tôi đặc biệt chú trọng đảm bảo các truy vấn đầy thử thách đối với các hệ thống truy xuất hiện tại trên tất cả các lĩnh vực. Hầu hết các truy vấn yêu cầu thông tin trải rộng trên nhiều trang, buộc các mô hình phải trích xuất và tổng hợp nội dung từ toàn bộ tài liệu thay vì dựa vào sự trùng khớp trên một trang duy nhất.

Quy trình tạo lai: Cách xây dựng một điểm chuẩn đầy thử thách

Để xây dựng một điểm chuẩn mạnh mẽ, khó khăn và chất lượng cao, chúng tôi đã phát triển một quy trình lai phức tạp, cân bằng giữa chuyên môn của con người với khả năng mở rộng do LLM thúc đẩy. Mục tiêu của chúng tôi là tạo ra các truy vấn thực tế, vì vậy chúng tôi bắt đầu với phương pháp không phụ thuộc vào trang. Tương tự như ViDoRe V2, thay vì sử dụng một trang duy nhất, các truy vấn được tạo từ các bản tóm tắt cấp cao của các phần tài liệu. Điều này ngăn các tác vụ trở nên quá đơn giản và đảm bảo chúng mô phỏng ý định của người dùng trong thế giới thực. Việc tạo ra này đạt được thông qua cả quy trình tổng hợp (bao gồm cả NVIDIA NeMo Data Designer với Qwen3-235B) để mở rộng quy mô và người đánh dấu chuyên nghiệp để có sự tinh tế và phức tạp.

Với hàng nghìn truy vấn được tạo cho hàng nghìn trang dữ liệu, việc tìm kiếm câu trả lời ground truth chính xác đòi hỏi một nỗ lực chú thích khổng lồ. Chúng tôi đã triển khai một phễu đa giai đoạn để mở rộng quy mô quy trình này. Đầu tiên, một VLM (Qwen2.5-32B) đã thực hiện một bộ lọc lỏng có độ thu hồi cao để nhanh chóng loại bỏ các trang rõ ràng không liên quan, hạn chế các lỗi âm tính và tập trung nỗ lực của người đánh dấu. Sau khi lọc trước này, những người đánh dấu có kinh nghiệm đã thực hiện công việc quan trọng. Họ xác định các trang thực sự liên quan và tạo ra các chú thích chi tiết cuối cùng, bao gồm xếp hạng mức độ liên quan của trang, câu trả lời chi tiết và hộp giới hạn ground truth.

Mặc dù ground truth hoàn hảo là một mục tiêu khó đạt được đối với bất kỳ bộ dữ liệu nào có quy mô này, chúng tôi đã đầu tư mạnh vào việc thực thi một khuôn khổ kiểm soát chất lượng đa lớp. Những người đánh dấu của chúng tôi có trình độ ngôn ngữ bản xứ và tất cả đều vượt qua các bài kiểm tra xác thực trước sản xuất và các cổng thử nghiệm. Các tác vụ chính được hoàn thành bởi nhiều người đánh dấu để đảm bảo sự đồng thuận, và dữ liệu đã trải qua cả kiểm soát chất lượng và kiểm tra kiểm toán bởi những người đánh dấu cao cấp có kinh nghiệm. Phương pháp phân lớp này được thiết kế để làm cho ground truth và các tác vụ điểm chuẩn trở nên đáng tin cậy và thực tế nhất có thể.

Là bước đảm bảo chất lượng cuối cùng, chúng tôi đã lọc kỹ lưỡng các chú thích. Điều này bao gồm việc kiểm tra sự đồng thuận của người đánh dấu, thực hiện xem xét thủ công và sử dụng Qwen2.5-VL-32B để xác nhận sự hiện diện của thông tin liên quan trên các trang được chú thích. Sau đó, chúng tôi đã sử dụng Qwen2.5-VL-32B một lần cuối cùng để hợp nhất các kết quả còn lại thành một câu trả lời vàng duy nhất.

Điểm chuẩn khó cho các mô hình truy xuất hiện tại

Chúng tôi đánh giá một loạt các mô hình truy xuất hình ảnh hiện đại trên điểm chuẩn của chúng tôi bằng cách sử dụng khung MTEB. Kết quả xác nhận rằng điểm chuẩn đặc biệt đầy thách thức đối với các phương pháp hiện tại.

Các mô hình hoạt động tốt nhất đạt điểm 65% NDCG@10 trên các bộ dữ liệu tiếng Anh. Khi giới thiệu các tài liệu đa ngôn ngữ và truy vấn được dịch, hiệu suất giảm đáng kể, với điểm trung bình không đạt 60% NDCG@10.

Phân tích sâu hơn về kết quả cho thấy một số mẫu chính:

  • Thách thức với tài liệu kỹ thuật: Các mô hình gặp khó khăn đáng kể khi đối mặt với các tài liệu kỹ thuật cao trong tập hợp Công nghiệp của chúng tôi và bộ Energy-EN riêng tư, đặc biệt là khi diễn giải sơ đồ dày đặc và biểu đồ phức tạp.
  • Thách thức đa ngôn ngữ dai dẳng: Đối với các mô hình hoạt động tốt nhất, chúng tôi nhận thấy điểm hiệu suất giảm 3-5 NDCG@10 trên các truy vấn đa ngôn ngữ so với các truy vấn chỉ tiếng Anh.
  • Sức mạnh tương đối trong khoa học máy tính: Các mô hình thể hiện hiệu suất cao hơn trên phân chia Khoa học Máy tính. Chúng tôi giả thuyết rằng đây là hiệu ứng lan tỏa từ lượng lớn dữ liệu mã hóa được sử dụng để đào tạo các VLM hiện đại, giúp chúng có kiến thức hơn về lĩnh vực đó.

Kết quả đánh giá chi tiết đầy đủ và phân tích sâu hơn về độ khó của bộ dữ liệu có sẵn bên dưới. Tất cả các chỉ số được báo cáo, trừ khi có quy định khác, là NDCG@10.

Kết quả đánh giá tiếng Anh

Mô hình Trung bình Khoa học Máy tính EN Năng lượng-EN Tài chính-EN Dược phẩm EN Nhân sự EN Công nghiệp EN Viễn thông EN
nemo-colembed-3b 0.656 0.778 0.534 0.695 0.669 0.649 0.570 0.694
nemo-colembed-1b 0.643 0.755 0.522 0.670 0.662 0.645 0.561 0.687
jinav4 0.639 0.742 0.524 0.661 0.652 0.646 0.559 0.687
colnomic-7b 0.630 0.782 0.482 0.631 0.646 0.629 0.542 0.696
colnomic-3b 0.617 0.755 0.455 0.630 0.637 0.626 0.528 0.686
colqwen2.5 0.592 0.752 0.429 0.612 0.609 0.592 0.494 0.653
nomic-7b (dense) 0.573 0.709 0.423 0.576 0.638 0.559 0.485 0.620
colqwen2 0.563 0.735 0.441 0.509 0.581 0.547 0.498 0.632
colpali-v1.3 0.530 0.725 0.381 0.433 0.577 0.533 0.470 0.592
nomic-3b (dense) 0.517 0.621 0.372 0.533 0.592 0.519 0.411 0.572
colmodernvbert 0.507 0.597 0.420 0.504 0.566 0.470 0.439 0.552
colsmol256 0.464 0.574 0.365 0.477 0.514 0.460 0.385 0.475

Kết quả đa ngôn ngữ

Mô hình Trung bình Khoa học Máy tính EN Vật lý FR Năng lượng-EN Năng lượng-FR Tài chính-EN Dược phẩm EN Nhân sự EN Công nghiệp EN Tài chính-FR Viễn thông EN
jinav4 0.576 0.718 0.466 0.500 0.640 0.593 0.631 0.595 0.504 0.461 0.648
colnomic-7b 0.574 0.762 0.483 0.450 0.640 0.566 0.623 0.587 0.501 0.455 0.672
nemo-colembed-3b 0.573 0.752 0.451 0.491 0.621 0.609 0.637 0.587 0.471 0.438 0.670
colnomic-3b 0.558 0.727 0.475 0.421 0.65 0.563 0.611 0.573 0.474 0.443 0.645
nemo-colembed-1b 0.556 0.713 0.441 0.473 0.609 0.589 0.626 0.570 0.466 0.424 0.647
colqwen2.5 0.519 0.723 0.459 0.381 0.597 0.523 0.579 0.512 0.413 0.391 0.613
binomic-7b 0.490 0.666 0.442 0.367 0.575 0.488 0.589 0.462 0.379 0.360 0.578
colqwen2 0.447 0.686 0.416 0.357 0.488 0.390 0.522 0.451 0.383 0.200 0.574
binomic-3b 0.443 0.585 0.420 0.322 0.514 0.442 0.553 0.433 0.332 0.289 0.537
colpali-v1.3 0.431 0.653 0.417 0.329 0.471 0.344 0.531 0.448 0.356 0.218 0.540
colmodernvbert 0.245 0.353 0.212 0.196 0.305 0.270 0.317 0.183 0.144 0.179 0.293
colsmol256 0.214 0.288 0.161 0.183 0.248 0.232 0.278 0.165 0.129 0.157 0.298

Phân tích độ khó của loại truy vấn

Chúng tôi phân tích chi tiết phân phối điểm số theo loại truy vấn và tác vụ cho mô hình nemo-retriever-colembed-3b. Hiệu suất của mô hình phù hợp với độ khó dự kiến của từng loại truy vấn: truy vấn mở rộng (NDCG@10 = 0.438) và truy vấn nhiều bước (0.515) là khó nhất để truy xuất, trong khi truy vấn trích xuất (0.668) và đúng/sai (0.657) là dễ nhất.

Loại truy vấn Trung bình Khoa học Máy tính EN Vật lý FR Năng lượng-FR Tài chính-EN Dược phẩm EN Nhân sự EN Công nghiệp EN Tài chính-FR
Trích xuất 0.668 0.777 0.526 0.767 0.661 0.744 0.723 0.663 0.547
Đúng/Sai 0.657 0.825 0.501 0.741 0.729 0.747 0.547 0.626 0.410
Số liệu 0.633 0.712 0.596 0.725 0.587 0.832 0.647 0.703 0.488
So sánh-đối chiếu 0.590 0.799 0.581 0.694 0.466 0.669 0.552 0.478 0.490
Liệt kê 0.546 0.712 0.307 0.549 0.675 0.667 0.562 0.347 0.397
Nhiều bước 0.515 0.710 0.415 0.359 0.597 0.701 0.603 0.446 0.183
Mở rộng 0.438 0.709 0.375 0.475 0.529 0.489 0.498 0.209 0.324

Phạm vi điểm chuẩn

  • Bao phủ tài liệu doanh nghiệp: Một thách thức chính trong việc phát triển điểm chuẩn này là sự sẵn có hạn chế của các tài liệu đa phương thức theo miền. Mặc dù đã có những nỗ lực đáng kể để tuyển chọn các tài liệu liên quan, các tập dữ liệu có thể không đại diện đầy đủ cho dữ liệu doanh nghiệp độc quyền trong mọi bối cảnh.
  • Phạm vi ngôn ngữ: Hiện tại, điểm chuẩn chỉ giới hạn ở các tài liệu tiếng Pháp và tiếng Anh. Mặc dù chúng tôi đã cố gắng tuyển chọn các tài liệu liên quan bằng các ngôn ngữ khác, các hạn chế về tài nguyên đã ngăn cản việc bao phủ ngôn ngữ rộng hơn. Để giảm thiểu hạn chế này, các truy vấn đã được dịch sang nhiều ngôn ngữ để cho phép đánh giá các tác vụ đa ngôn ngữ.
  • Chất lượng chú thích: Đạt được chất lượng chú thích hoàn hảo là một thách thức ở quy mô này và độ phức tạp/phạm vi tác vụ. Chúng tôi đã triển khai một khuôn khổ kiểm soát chất lượng đa lớp, kết hợp cả LLM/VLM tiên tiến và những người đánh dấu cấp cao trong toàn bộ quy trình để xác thực chất lượng và giảm thiểu lỗi loại 1/2. Mặc dù có quy trình xác thực nghiêm ngặt này, một số lỗi chú thích có thể vẫn còn trong điểm chuẩn.

Sử dụng

Đánh giá

Đây là một tập lệnh nhanh để đánh giá colqwen2.5-v0.2 trên điểm chuẩn mới bằng MTEB (hiện tại bạn cần sao chép kho lưu trữ để có phiên bản mới nhất):

git clone https://github.com/embeddings-benchmark/mteb.git
cd mteb
pip install .
import mteb

benchmark = mteb.get_benchmark("ViDoRe(v3)")
model = mteb.get_model("vidore/colqwen2.5-v0.2")

results = mteb.evaluate(model=model, tasks=benchmark)

Trực quan hóa mẫu

Đây là một tập lệnh đơn giản để trực quan hóa một cặp truy vấn/câu trả lời, với các hộp giới hạn được vẽ trên các trang liên quan.

from datasets import load_dataset

dataset_name = "vidore/vidore_v3_industrial"

dataset = {
    "queries": load_dataset(dataset_name, data_dir="queries", split="test"),
    "qrels": load_dataset(dataset_name, data_dir="qrels", split="test"),
    "corpus": load_dataset(dataset_name, data_dir="corpus", split="test")
}

query_sample = dataset["queries"][8]
print('Query:', query_sample['query'])
print("Answer:", query_sample['answer'])
> Query: What type of airflow is required to maintain ultra-clean environments in aerospace operations?
> Answer: Laminar airflow is required to maintain ultra-clean environments in aerospace operations.
related_qrels = dataset["qrels"].filter(lambda x: x['query_id'] == query_sample['query_id'])
import matplotlib.pyplot as plt
import matplotlib.patches as patches

def plot_bbox(image, bboxes):
    _, ax = plt.subplots(figsize=(18, 12))
    ax.imshow(image), ax.axis('off')
    for bbox in bboxes:
        rect = patches.Rectangle((bbox['x1'], bbox['y1']), bbox['x2'] - bbox['x1'], bbox['y2'] - bbox['y1'], linewidth=2, edgecolor='r', facecolor='none')
        ax.add_patch(rect)
    plt.show()

for qrel in related_qrels:
    plot_bbox(dataset["corpus"][qrel['corpus_id']]['image'], qrel['bounding_boxes'])

Lời cảm ơn

Công việc này đã được cấp quyền truy cập vào các tài nguyên HPC của IDRIS (cụm Jean Zay) theo phân bổ AD011016393 do GENCI thực hiện. Dự án này sẽ không thể thực hiện được nếu không có sự cam kết của tất cả những người tham gia—một món nợ chúng tôi nợ tất cả những người đánh dấu và đồng nghiệp của chúng tôi.

Cảm ơn đội ngũ MTEB đã hợp tác với các bộ dữ liệu riêng tư.

Cuối cùng, xin cảm ơn những người tại NVIDIA đã đóng góp vào việc thiết kế và phát triển điểm chuẩn này: Tom Balough, Gabriel Moreira, Bo Liu, Eric Tramel, Mengyao Xu, Radek Osmulski, Erin Potter, Hannah Brandon vì sự giúp đỡ và lời khuyên vô giá của họ.

Liên kết


Cộng đồng

Chrisyichuan Hi, QQ here. How do you measure the sownstream generation quality here, since you have a golden label like answer in the query. If I want to measure the generation quality, I am not sure what I can do, I don’t quite understand how you label the answer, though

QuentinJG (Tác giả bài viết) Hey @Chrisyichuan ! to give more details on answer annotations :

  • Answers were annotated by trained humans for each query, sometimes multiple times by annotators (this raw annotation is in the raw_answers column)
  • The “final” answer (answer column) was VLM generated with Qwen2.5-VL-32B : we gave it all the relevant pages, and all answers from annotators, and asked it to merge them. We saw qualitatively that it worked quite well. (We also translated all answers in the 6 languages of the datasets using a big Qwen3 LLM) Hope that makes things clearer for you !

Chrisyichuan Oh, I see — that’s very clear now! By the way, I still have one question: maybe it would be better to make the evaluation easier to score, for example using exact match or F1. I was also curious how well an LLM alone (without the images) could handle these queries — I tried a few, and for some questions, it actually did quite well.

QuentinJG (Tác giả bài viết) The way we constructed this benchmark was really focused, in the first place, on retrieval only and not on the generation part (even if we designed it to make it possible to do much more than retrieval). Even if these retrieval tasks are very hard for current models, we’ve seen that big LLMs can sometimes answers queries without having the documents as inputs (since the corpus is made out of publicly available data, it must be present in their training dataset). However this highly depends on the actual subset you look at and still a lot of queries are actually challenging to answer.

Buluchacha Hi Vidore Team, good job. I modified the pipeline of vidore-benchmark codebase before (to fit my own research needs), so I am trying to evaluate the recently released vidore-v3 on vidore-benchmark. But it turns out that I got “DatasetGenerationError: An error occurred while generating the dataset”. This error did not occur when I ran other benchmarks such vidore-v1 and v2. So I am wondering if you can check on this, or is there any different setting we should know if we still use vidore-benchmark to evaluate?

QuentinJG (Tác giả bài viết) Hey @Buluchacha can you open an issue on github with the code you modified ? From the top on of my head I dont’ know what could be happening.

Buluchacha Hi, I have opened an issue at https://github.com/illuin-tech/vidore-benchmark/issues/122

Recommended for You

Apriel-H1- Chìa khóa bất ngờ để chưng cất các mô hình suy luận hiệu quả

Apriel-H1- Chìa khóa bất ngờ để chưng cất các mô hình suy luận hiệu quả

Apriel-H1- Chìa khóa bất ngờ để chưng cất các mô hình suy luận hiệu quả

Bản đồ Pharmome- bộ dữ liệu công khai toàn diện để mô hình hóa tương tác thuốc-mục tiêu

Bản đồ Pharmome- bộ dữ liệu công khai toàn diện để mô hình hóa tương tác thuốc-mục tiêu

Bản đồ Pharmome- bộ dữ liệu công khai toàn diện để mô hình hóa tương tác thuốc-mục tiêu