Giới thiệu RTEB- Một tiêu chuẩn mới để đánh giá khả năng truy xuất thông tin
Không có mô tả ngắn gọn
- 7 min read
Giới thiệu RTEB: Một tiêu chuẩn mới để đánh giá khả năng truy xuất
TL;DR – Chúng tôi rất vui mừng giới thiệu phiên bản beta của Retrieval Embedding Benchmark (RTEB), một chuẩn mới được thiết kế để đánh giá một cách đáng tin cậy độ chính xác truy xuất của các mô hình embedding cho các ứng dụng thực tế. Các chuẩn hiện có đang phải vật lộn để đo lường khả năng tổng quát hóa thực sự, trong khi RTEB giải quyết vấn đề này bằng một chiến lược kết hợp giữa tập dữ liệu mở và riêng tư. Mục tiêu của nó rất đơn giản: tạo ra một tiêu chuẩn công bằng, minh bạch và tập trung vào ứng dụng để đo lường hiệu suất của các mô hình trên dữ liệu mà chúng chưa từng thấy trước đây.
Hiệu suất của nhiều ứng dụng AI, từ RAG và agents đến hệ thống đề xuất, về cơ bản bị giới hạn bởi chất lượng tìm kiếm và truy xuất. Do đó, việc đo lường chính xác chất lượng truy xuất của các mô hình embedding là một vấn đề nan giải phổ biến đối với các nhà phát triển. Làm thế nào bạn thực sự biết một mô hình sẽ hoạt động tốt như thế nào trong thực tế?
Đây là nơi mọi thứ trở nên phức tạp. Tiêu chuẩn hiện tại để đánh giá thường dựa vào hiệu suất “zero-shot” của mô hình trên các chuẩn công khai. Tuy nhiên, đây là cách tốt nhất để ước tính khả năng tổng quát hóa thực sự của một mô hình. Khi các mô hình liên tục được đánh giá dựa trên cùng một tập dữ liệu công khai, một khoảng cách sẽ xuất hiện giữa điểm số được báo cáo của chúng và hiệu suất thực tế của chúng trên dữ liệu mới, chưa từng thấy.
Để giải quyết những thách thức này, chúng tôi đã phát triển RTEB, một chuẩn được xây dựng để cung cấp một tiêu chuẩn đáng tin cậy để đánh giá các mô hình truy xuất.
Tại sao các chuẩn hiện có không đáp ứng được
Mặc dù phương pháp luận và các số liệu đánh giá cơ bản (chẳng hạn như NDCG@10) đã được biết đến và mạnh mẽ, nhưng tính toàn vẹn của các chuẩn hiện có thường bị ảnh hưởng bởi các vấn đề sau:
Khoảng cách tổng quát hóa. Hệ sinh thái chuẩn hiện tại vô tình khuyến khích “dạy để kiểm tra”. Khi các nguồn dữ liệu huấn luyện trùng lặp với các tập dữ liệu đánh giá, điểm số của mô hình có thể bị thổi phồng, làm suy yếu tính toàn vẹn của chuẩn. Thực tế này, dù cố ý hay không, là rõ ràng trong các tập dữ liệu huấn luyện của một số mô hình. Điều này tạo ra một vòng phản hồi, trong đó các mô hình được khen thưởng vì ghi nhớ dữ liệu kiểm tra hơn là phát triển các khả năng mạnh mẽ, có thể tổng quát hóa.
Do những điều trên, các mô hình có điểm zero-shot thấp hơn[1] có thể hoạt động rất tốt trên chuẩn, mà không tổng quát hóa cho các vấn đề mới. Vì lý do này, các mô hình có hiệu suất chuẩn thấp hơn một chút và điểm zero-shot cao hơn thường được khuyến nghị thay thế.
Không phù hợp với các ứng dụng AI ngày nay. Nhiều chuẩn không phù hợp với các trường hợp sử dụng của doanh nghiệp mà các nhà phát triển đang xây dựng ngày nay. Chúng thường dựa vào các tập dữ liệu học thuật hoặc các tác vụ truy xuất có nguồn gốc từ các tập dữ liệu QA, bản thân chúng hữu ích, nhưng không được thiết kế để đánh giá khả năng truy xuất và có thể không nắm bắt được các độ lệch phân phối và độ phức tạp gặp phải trong các tình huống truy xuất thực tế. Các chuẩn không có những vấn đề này thường quá hẹp, tập trung vào một miền duy nhất như truy xuất mã, khiến chúng không phù hợp để đánh giá các mô hình đa năng.
Giới thiệu RTEB
Hôm nay, chúng tôi rất vui mừng giới thiệu Retrieval Embedding Benchmark (RTEB). Mục tiêu của nó là tạo ra một chuẩn mới, đáng tin cậy, chất lượng cao, đo lường độ chính xác truy xuất thực sự của các mô hình embedding.
Một chiến lược kết hợp để tổng quát hóa thực sự
Để chống lại việc overfitting chuẩn, RTEB triển khai một chiến lược kết hợp bằng cách sử dụng cả tập dữ liệu mở và riêng tư:
- Tập dữ liệu mở: Corpus, truy vấn và nhãn liên quan hoàn toàn công khai. Điều này đảm bảo tính minh bạch và cho phép bất kỳ người dùng nào tái tạo kết quả.
- Tập dữ liệu riêng tư: Các tập dữ liệu này được giữ riêng tư và việc đánh giá được xử lý bởi người duy trì MTEB để đảm bảo tính khách quan. Thiết lập này cung cấp một thước đo rõ ràng, không thiên vị về khả năng tổng quát hóa dữ liệu chưa thấy của mô hình. Để minh bạch, chúng tôi cung cấp thống kê mô tả, mô tả tập dữ liệu và bộ ba
(truy vấn, tài liệu, mức độ liên quan)mẫu cho từng tập dữ liệu riêng tư.
Cách tiếp cận kết hợp này khuyến khích sự phát triển của các mô hình có khả năng tổng quát hóa rộng, mạnh mẽ. Một mô hình có hiệu suất giảm đáng kể giữa tập dữ liệu mở và riêng tư sẽ cho thấy overfitting, cung cấp một tín hiệu rõ ràng cho cộng đồng. Điều này đã rõ ràng với một số mô hình, cho thấy sự sụt giảm đáng kể về hiệu suất trên tập dữ liệu riêng tư của RTEB.
Được xây dựng cho các miền thực tế
RTEB được thiết kế đặc biệt chú trọng đến các trường hợp sử dụng của doanh nghiệp. Thay vì một hệ thống phân cấp phức tạp, nó sử dụng các nhóm đơn giản để rõ ràng. Một tập dữ liệu duy nhất có thể thuộc nhiều nhóm (ví dụ: tập dữ liệu luật pháp của Đức tồn tại trong cả nhóm “luật pháp” và “tiếng Đức”).
- Bản chất đa ngôn ngữ: Các tập dữ liệu chuẩn bao gồm 20 ngôn ngữ, từ các ngôn ngữ phổ biến như tiếng Anh hoặc tiếng Nhật đến các ngôn ngữ hiếm hơn như tiếng Bengali hoặc tiếng Phần Lan.
- Tập trung vào miền cụ thể: Chuẩn bao gồm các tập dữ liệu từ các miền quan trọng của doanh nghiệp như luật pháp, chăm sóc sức khỏe, mã và tài chính.
- Kích thước tập dữ liệu hiệu quả: Các tập dữ liệu đủ lớn để có ý nghĩa (ít nhất 1k tài liệu và 50 truy vấn) mà không quá lớn đến mức làm cho thời gian đánh giá tốn kém và tốn thời gian.
- Số liệu ưu tiên truy xuất: Số liệu bảng xếp hạng mặc định là NDCG@10, một thước đo tiêu chuẩn vàng cho chất lượng của kết quả tìm kiếm được xếp hạng.
Danh sách đầy đủ các tập dữ liệu có thể được tìm thấy bên dưới. Chúng tôi dự định liên tục cập nhật cả phần mở cũng như phần kín với các danh mục tập dữ liệu khác nhau và tích cực khuyến khích sự tham gia từ cộng đồng; vui lòng mở một vấn đề trên kho lưu trữ MTEB trên GitHub nếu bạn muốn đề xuất các tập dữ liệu khác.
Link bài viết gốc
- Tags:
- Ai
- October 1, 2025
- Huggingface.co