QIMMA قِمّة ⛰- Bảng xếp hạng LLM tiếng Ả Rập ưu tiên chất lượng

April 21, 2026
9 min read

QIMMA قِمّة ⛰: Bảng Xếp Hạng LLM Tiếng Ả Rập Ưu Tiên Chất Lượng

QIMMA xác thực các bộ kiểm thử (benchmarks) trước khi đánh giá mô hình, đảm bảo điểm số được báo cáo phản ánh đúng khả năng ngôn ngữ tiếng Ả Rập thực tế của các LLM.

🏆 Bảng xếp hạng · 🔧 GitHub · 📄 Bài báo nghiên cứu

Nếu bạn đang theo dõi việc đánh giá các LLM tiếng Ả Rập, có lẽ bạn đã nhận thấy một mâu thuẫn ngày càng tăng: số lượng bộ kiểm thử và bảng xếp hạng đang mở rộng nhanh chóng, nhưng liệu chúng ta có thực sự đo lường đúng những gì mình nghĩ?

Chúng tôi xây dựng QIMMA (trong tiếng Ả Rập có nghĩa là “đỉnh cao”) để trả lời câu hỏi đó một cách hệ thống. Thay vì chỉ tổng hợp các bộ kiểm thử tiếng Ả Rập hiện có và chạy mô hình trên đó, chúng tôi đã áp dụng một quy trình xác thực chất lượng nghiêm ngặt trước khi tiến hành bất kỳ đánh giá nào. Kết quả thu được thật đáng suy ngẫm: ngay cả những bộ kiểm thử tiếng Ả Rập được sử dụng rộng rãi và đánh giá cao cũng chứa những lỗi chất lượng hệ thống, điều này có thể âm thầm làm sai lệch kết quả đánh giá.

Bài viết này sẽ trình bày chi tiết QIMMA là gì, cách chúng tôi xây dựng nó, những vấn đề chúng tôi đã phát hiện và thứ hạng của các mô hình sau khi dữ liệu được làm sạch.

🔍 Vấn đề: Đánh giá NLP tiếng Ả Rập bị phân mảnh và thiếu xác thực

Tiếng Ả Rập được nói bởi hơn 400 triệu người với nhiều phương ngữ và bối cảnh văn hóa đa dạng, tuy nhiên lĩnh vực đánh giá NLP tiếng Ả Rập vẫn còn rất phân mảnh. Những khó khăn chính thúc đẩy nghiên cứu này bao gồm:

Vấn đề dịch thuật: Nhiều bộ kiểm thử tiếng Ả Rập là bản dịch từ tiếng Anh. Điều này gây ra sự sai lệch về phân phối dữ liệu. Những câu hỏi tự nhiên trong tiếng Anh trở nên gượng gạo hoặc không phù hợp về văn hóa trong tiếng Ả Rập, khiến dữ liệu kiểm thử không đại diện cho cách ngôn ngữ này được sử dụng thực tế.
Thiếu xác thực chất lượng: Ngay cả các bộ kiểm thử tiếng Ả Rập gốc thường được phát hành mà không qua kiểm tra chất lượng nghiêm ngặt. Những sai sót trong chú thích, đáp án chuẩn (gold answers) bị sai, lỗi mã hóa và định kiến văn hóa trong nhãn dữ liệu đều đã được ghi nhận.
Khoảng cách về khả năng tái lập: Các mã nguồn đánh giá và kết quả chi tiết cho từng mẫu hiếm khi được công khai, gây khó khăn cho việc kiểm tra kết quả hoặc phát triển dựa trên các nghiên cứu trước đó.
Sự phân mảnh về phạm vi: Các bảng xếp hạng hiện tại thường chỉ tập trung vào các tác vụ đơn lẻ hoặc miền hẹp, khiến việc đánh giá mô hình một cách toàn diện trở nên khó khăn.

Để minh họa vị trí của QIMMA so với các nền tảng hiện có:

QIMMA là nền tảng duy nhất kết hợp cả năm đặc tính: mã nguồn mở, nội dung chủ yếu là tiếng Ả Rập gốc, xác thực chất lượng hệ thống, đánh giá khả năng lập trình và công khai kết quả suy luận chi tiết cho từng mẫu.

⛰ Có gì trong QIMMA?

QIMMA hợp nhất 109 tập con từ 14 bộ kiểm thử nguồn thành một bộ đánh giá thống nhất với hơn 52.000 mẫu, bao quát 7 miền:

Những điểm nổi bật trong thiết kế này:

99% nội dung tiếng Ả Rập gốc. Ngoại lệ duy nhất là đánh giá lập trình, vốn dĩ không phụ thuộc vào ngôn ngữ.
Bảng xếp hạng tiếng Ả Rập đầu tiên có đánh giá lập trình. QIMMA tích hợp các phiên bản HumanEval+ và MBPP+ đã được điều chỉnh cho tiếng Ả Rập, cho phép đánh giá khả năng lập trình thông qua các yêu cầu bài toán bằng tiếng Ả Rập.
Đa dạng miền và tác vụ. QIMMA đánh giá năng lực trong các lĩnh vực thực tế bao gồm giáo dục, quản trị, y tế, sáng tạo và phát triển phần mềm.

🔬 Quy trình xác thực chất lượng

Đây là trọng tâm phương pháp luận của QIMMA. Trước khi chạy bất kỳ mô hình nào, chúng tôi áp dụng một quy trình xác thực nhiều giai đoạn cho mọi mẫu trong mọi bộ kiểm thử.

Giai đoạn 1: Đánh giá tự động đa mô hình

Mỗi mẫu được đánh giá độc lập bởi hai LLM tiên tiến:

Qwen3-235B-A22B-Instruct
DeepSeek-V3-671B

Chúng tôi chọn hai mô hình có khả năng tiếng Ả Rập mạnh mẽ nhưng có thành phần dữ liệu huấn luyện khác nhau, để phán đoán kết hợp của chúng sẽ khách quan hơn. Mỗi mô hình chấm điểm mẫu dựa trên một bảng tiêu chí 10 điểm, với điểm nhị phân (0 hoặc 1) cho mỗi tiêu chí:

Một mẫu sẽ bị loại nếu bất kỳ mô hình nào chấm dưới 7/10. Những mẫu mà cả hai mô hình cùng đồng ý loại bỏ sẽ bị xóa ngay lập tức. Tuy nhiên, nếu chỉ có một mô hình gắn cờ, mẫu đó sẽ được chuyển sang đánh giá của con người ở Giai đoạn 2.

Giai đoạn 2: Chú thích và đánh giá bởi con người

Các mẫu bị gắn cờ sẽ được xem xét bởi những người nói tiếng Ả Rập bản xứ am hiểu về văn hóa và phương ngữ. Các chuyên gia chú thích sẽ đưa ra quyết định cuối cùng về:

Bối cảnh văn hóa và biến thể vùng miền.
Sắc thái phương ngữ.
Cách diễn giải chủ quan.
Các lỗi chất lượng tinh vi mà đánh giá tự động có thể bỏ sót.

Đối với nội dung nhạy cảm về văn hóa, nhiều góc nhìn sẽ được xem xét vì tính “đúng đắn” có thể thay đổi tùy theo các vùng Ả Rập khác nhau.

⚠️ Phát hiện: Các vấn đề chất lượng mang tính hệ thống

Quy trình xác thực đã tiết lộ những vấn đề chất lượng lặp đi lặp lại trong các bộ kiểm thử; đây không phải là các lỗi đơn lẻ mà là các mẫu hệ thống phản ánh lỗ hổng trong cách xây dựng ban đầu.

Số liệu cụ thể

Phân loại các vấn đề tìm thấy

💻 Bộ kiểm thử Code: Một kiểu làm việc chất lượng khác

Các bộ kiểm thử lập trình yêu cầu một cách can thiệp khác. Thay vì loại bỏ các mẫu, chúng tôi tinh chỉnh các mô tả bài toán bằng tiếng Ả Rập trong các bản thích nghi tiếng Ả Rập của HumanEval+ và MBPP+ từ 3LM, trong khi giữ nguyên mã định danh tác vụ, lời giải tham chiếu và bộ kiểm tra (test suites).

Tỷ lệ điều chỉnh là rất đáng kinh ngạc:

Các chỉnh sửa được chia thành năm loại:

Tinh chỉnh ngôn ngữ: Chuẩn hóa theo tiếng Ả Rập tiêu chuẩn hiện đại (MSA) tự nhiên và phong cách mệnh lệnh nhất quán.
Cải thiện độ rõ ràng: Sửa các hướng dẫn mơ hồ và các ràng buộc không rõ ràng.
Chuẩn hóa tính nhất quán: Tiêu chuẩn hóa thuật ngữ toán học, dấu câu và định dạng ví dụ.
Sửa lỗi cấu trúc: Sửa các chuỗi triple-quoted bị hỏng, lỗi thụt lề, các đoạn văn bản bị lỗi.
Tinh chỉnh ngữ nghĩa: Làm rõ các phạm vi là bao hàm hay loại trừ, bảo toàn mục đích của tác vụ.

⚙️ Thiết lập đánh giá

Khung đánh giá (Evaluation Framework)

QIMMA sử dụng LightEval, EvalPlus và FannOrFlop làm khung đánh giá, được chọn vì tính nhất quán, được cộng đồng đa ngôn ngữ chấp nhận và khả năng tái lập cao.

Chỉ số theo loại tác vụ

Mẫu Prompt

QIMMA chuẩn hóa việc đặt câu hỏi theo định dạng, với sáu loại mẫu:

Tất cả các prompt đều bằng tiếng Ả Rập. Đối với MizanQA và ArabCulture, các system prompt đặc thù từ các bài báo gốc được giữ nguyên.

🏆 Kết quả bảng xếp hạng

Kết quả tính đến tháng 4 năm 2026; bao gồm 10 mô hình được đánh giá hàng đầu. Truy cập bảng xếp hạng trực tiếp để xem thứ hạng hiện tại.

Quy mô không đảm bảo hiệu suất tốt nhất. Top 10 bao gồm các mô hình từ 32B đến 397B tham số, với một số mô hình cỡ trung bình vượt qua các mô hình lớn hơn trong các miền cụ thể.
Các mô hình chuyên biệt cho tiếng Ả Rập dẫn đầu trong các tác vụ văn hóa và ngôn ngữ. Jais-2-70B-Chat đạt thứ hạng cao nhất ở ArabicMMLU và ArabCulture, trong khi Karnak dẫn đầu về 3LM STEM và ArabLegalQA.
Lập trình vẫn là miền khó nhất đối với các mô hình chuyên biệt cho tiếng Ả Rập. Điểm số HumanEval+ và MBPP+ cao nhất thuộc về các mô hình đa ngôn ngữ, trong đó Qwen3.5-397B dẫn đầu cả hai.

Mối quan hệ giữa Quy mô và Hiệu suất

Trên toàn bộ bảng xếp hạng (46 mô hình), có một sự tương quan rõ ràng nhưng không tuyệt đối giữa quy mô và hiệu suất. Tuy nhiên, có một số ngoại lệ thú vị:

Các mô hình chuyên biệt cho tiếng Ả Rập thường vượt trội hơn các mô hình đa ngôn ngữ có cùng quy mô.
Các mô hình được tinh chỉnh theo hướng dẫn (instruction-tuned) nhất quán vượt trội hơn các mô hình cơ sở (base), ngoại trừ Qwen3.
Một số mô hình chuyên biệt tiếng Ả Rập nhỏ hơn (Fanar-1-9B, ALLaM-7B) vượt qua các mô hình đa ngôn ngữ lớn hơn nhiều trong các miền cụ thể.

🌟 Điều gì khiến QIMMA khác biệt

Tóm tắt các đặc tính phân biệt của QIMMA:

🔗 Tài nguyên

🏆 Bảng xếp hạng: QIMMA Leaderboard
💻 Mã nguồn: GitHub
📄 Bài báo: Are Arabic Benchmarks Reliable? QIMMA’s Quality-First Approach to LLM Evaluation

🔖 Trích dẫn

@misc{alqadi2026arabicbenchmarksreliableqimmas,
      title={Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation}, 
      author={Leen AlQadi and Ahmed Alzubaidi and Mohammed Alyafeai and Hamza Alobeidli and Maitha Alhammadi and Shaikha Alsuwaidi and Omar Alkaabi and Basma El Amel Boussaha and Hakim Hacid},
      year={2026},
      eprint={2604.03395},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2604.03395}, 
}

AI Today - SkyAI