Alyah ⭐️- Hướng tới Đánh giá Mạnh mẽ về Khả năng Tiếng Ả Rập Emirati trong các LLM Tiếng Ả Rập

Bài viết này giới thiệu Alyah, một mô hình được thiết kế để đánh giá các khả năng tiếng Ả Rập Emirati trong các Mô hình ngôn ngữ lớn (LLM) tiếng Ả Rập.

  • 12 min read
Alyah ⭐️- Hướng tới Đánh giá Mạnh mẽ về Khả năng Tiếng Ả Rập Emirati trong các LLM Tiếng Ả Rập
Bài viết này giới thiệu Alyah, một mô hình được thiết kế để đánh giá các khả năng tiếng Ả Rập Emirati trong các Mô hình ngôn ngữ lớn (LLM) tiếng Ả Rập.

Alyah ⭐️: Hướng tới Đánh giá Mạnh mẽ về Năng lực Phương ngữ UAE trong các LLM Tiếng Ả Rập

Một bài đăng trên blog từ Viện Đổi mới Công nghệ về Hugging Face.


Dataset trên HuggingFace | Mã trên GitHub

Alyah Benchmark Image

Tiếng Ả Rập là một trong những ngôn ngữ được nói nhiều nhất trên thế giới, với hàng trăm triệu người nói ở hơn hai mươi quốc gia. Mặc dù có phạm vi tiếp cận toàn cầu này, tiếng Ả Rập không phải là một ngôn ngữ đơn nhất. Tiếng Ả Rập Hiện đại Chuẩn (Modern Standard Arabic - MSA) cùng tồn tại với một bức tranh phong phú về các phương ngữ khu vực khác nhau đáng kể về từ vựng, cú pháp, ngữ âm và nền tảng văn hóa. Các phương ngữ này là phương tiện giao tiếp hàng ngày, kể chuyện bằng miệng, thơ ca và tương tác xã hội chính. Tuy nhiên, hầu hết các benchmark hiện có cho các mô hình ngôn ngữ lớn tiếng Ả Rập gần như chỉ tập trung vào MSA, khiến phương ngữ tiếng Ả Rập bị đánh giá thấp và đại diện kém.

Khoảng trống này đặc biệt có vấn đề khi các mô hình ngôn ngữ lớn ngày càng tương tác với người dùng trong các bối cảnh không chính thức, có nền tảng văn hóa và mang tính đàm thoại. Một mô hình hoạt động tốt trên văn bản tin tức chính thức có thể vẫn không hiểu một lời chào, một thành ngữ hoặc một câu chuyện cười ngắn được diễn đạt bằng một phương ngữ địa phương. Để giải quyết hạn chế này, nhóm của chúng tôi giới thiệu Alyah (الياه) (có nghĩa là Sao Bắc Đẩu ⭐️ trong tiếng Ả Rập UAE), một benchmark tập trung vào UAE được thiết kế để đánh giá mức độ mà các LLM tiếng Ả Rập nắm bắt được các khía cạnh ngôn ngữ, văn hóa và ngữ dụng của phương ngữ UAE.

Động lực và Phạm vi của Benchmark

Phương ngữ UAE gắn bó sâu sắc với văn hóa, di sản và lịch sử địa phương. Nó xuất hiện trong các lời chào hàng ngày, thơ ca truyền miệng, câu tục ngữ, truyện dân gian và các cách diễn đạt mà ý nghĩa của chúng không thể suy ra thông qua dịch nghĩa đen. Benchmark của chúng tôi được thiết kế có chủ đích để thăm dò chiều sâu này. Thay vì kiểm tra kiến thức từ vựng bề mặt, nó thách thức các mô hình về khả năng diễn giải ý nghĩa gắn liền với văn hóa, cách sử dụng ngữ dụng và các sắc thái đặc trưng của phương ngữ.

Benchmark bao gồm một loạt nội dung đa dạng, bao gồm các cách diễn đạt phổ biến và không phổ biến, lời chào có nền tảng văn hóa, các câu chuyện ngắn, câu hỏi liên quan đến di sản và các tài liệu tham khảo về thơ ca UAE. Mục tiêu không chỉ là đo lường tính chính xác, mà còn là hiểu nơi mà các mô hình thường thành công hoặc thất bại khi đối mặt với cách sử dụng ngôn ngữ xác thực của UAE.

Cấu trúc Bộ dữ liệu

Sau khi phát triển và hợp nhất thêm, benchmark đã được hợp nhất thành một bộ dữ liệu duy nhất có tên là Alyah. Benchmark cuối cùng chứa 1.173 mẫu, tất cả đều được thu thập thủ công từ những người bản ngữ nói tiếng Ả Rập UAE để đảm bảo tính xác thực về ngôn ngữ và nền tảng văn hóa. Bước biên soạn thủ công này là cần thiết để nắm bắt các cách diễn đạt, ý nghĩa và cách sử dụng hiếm khi được ghi lại trong các tài liệu viết và khó suy ra chỉ từ MSA.

Mỗi mẫu được định dạng dưới dạng câu hỏi trắc nghiệm với bốn lựa chọn trả lời, trong đó có chính xác một câu đúng. Các mô hình ngôn ngữ lớn đã được sử dụng để tạo ra các lựa chọn gây nhiễu một cách tổng hợp, sau đó chúng được xem xét để đảm bảo tính hợp lý và độ gần nghĩa với câu trả lời đúng. Để tránh sai lệch vị trí trong quá trình đánh giá, chỉ số của câu trả lời đúng tuân theo sự phân phối ngẫu nhiên trên bộ dữ liệu. Dưới đây là phân phối số lượng từ trên mỗi truy vấn và câu trả lời ứng viên.

Phân phối số lượng từ

Alyah bao gồm một phổ rộng các hiện tượng ngôn ngữ và văn hóa trong phương ngữ UAE, từ cách diễn đạt hàng ngày đến ngôn ngữ nhạy cảm về văn hóa và ẩn dụ. Phân phối theo các danh mục được tóm tắt dưới đây.

Danh mục Số lượng Mẫu Độ khó
Lời chào & Cách diễn đạt hàng ngày 61 Dễ
Nhạy cảm tôn giáo & xã hội 78 Trung bình
Hình ảnh & Ý nghĩa ẩn dụ 121 Trung bình
Nghi thức & Giá trị 173 Trung bình
Thơ ca & Diễn đạt sáng tạo 32 Khó
Kiến thức Lịch sử & Di sản 89 Khó
Ngôn ngữ & Phương ngữ 619 Khó

Dưới đây là các ví dụ về từng danh mục:

Ví dụ về các danh mục

Sự kết hợp này cho phép Alyah cùng lúc đánh giá sự trôi chảy đàm thoại bề mặt và sự hiểu biết sâu sắc về văn hóa, ngữ nghĩa và ngữ dụng, đặc biệt nhấn mạnh vào các hiện tượng ngôn ngữ đặc trưng của phương ngữ mà hiện tại vẫn còn thách thức đối với các mô hình.

Thiết lập Đánh giá Mô hình

Chúng tôi đã đánh giá tổng cộng 54 mô hình ngôn ngữ, bao gồm 23 mô hình cơ sở31 mô hình được tinh chỉnh theo hướng dẫn, trải rộng trên nhiều mô hình kiến trúc và phương pháp đào tạo. Chúng bao gồm các LLM gốc tiếng Ả Rập như Jais và Allam, các mô hình đa ngôn ngữ có hỗ trợ tiếng Ả Rập mạnh mẽ như Qwen và LLaMA, và các mô hình được điều chỉnh hoặc chuyên biệt theo khu vực như Fanar và AceGPT. Đối với mỗi họ, cả các biến thể cơ sở và được tinh chỉnh theo hướng dẫn đều được đánh giá để hiểu tác động của việc căn chỉnh và tinh chỉnh hướng dẫn đối với hiệu suất phương ngữ.

Tất cả các mô hình đều được đánh giá theo một giao thức gợi ý và chấm điểm nhất quán. Các phản hồi được đánh giá về tính chính xác về ngữ nghĩa và sự phù hợp so với cách sử dụng của UAE, thay vì sự trùng lặp theo nghĩa đen với câu trả lời tham chiếu. Điều này đặc biệt quan trọng đối với việc đánh giá phương ngữ, nơi có thể có nhiều cách diễn đạt hợp lệ.

Đối với mỗi danh mục câu hỏi, chúng tôi ước tính độ khó một cách thực nghiệm dựa trên hiệu suất của mô hình. Các danh mục mà hầu hết các mô hình gặp khó khăn được dán nhãn là khó hơn, trong khi các danh mục được trả lời chính xác một cách nhất quán trên các họ mô hình được coi là dễ hơn. Phương pháp này cho phép độ khó xuất hiện từ hành vi đã quan sát thay vì chỉ từ việc chú thích chủ quan.

Kết quả Đánh giá trên Alyah (Phương ngữ UAE)

Chúng tôi đánh giá một loạt các mô hình ngôn ngữ lớn tiếng Ả Rập đương đại và đa ngôn ngữ trên Alyah, sử dụng độ chính xác trong các câu hỏi trắc nghiệm làm thước đo chính. Đánh giá bao gồm tổng cộng 53 mô hình, bao gồm 22 mô hình cơ sở31 mô hình được tinh chỉnh theo hướng dẫn, trải rộng trên các hệ thống gốc tiếng Ả Rập, đa ngôn ngữ và được điều chỉnh theo khu vực. Dưới đây là biểu đồ radar hiển thị hiệu suất của các mô hình hàng đầu theo kích thước trên mỗi danh mục câu hỏi.

Biểu đồ Radar Hiệu suất Mô hình

Các kết quả này được coi là thước đo tham chiếu trong phạm vi của Alyah, chứ không phải là bảng xếp hạng tuyệt đối trên tất cả các benchmark tiếng Ả Rập.

Mô hình Cơ sở

Mô hình Độ chính xác
google/gemma-3-27b-pt 74.68
tiiuae/Falcon-H1-34B-Base 73.66
FreedomIntelligence/AceGPT-v2-32B 67.35
google/gemma-3-4b-pt 63.17
QCRI/Fanar-1-9B 62.75
tiiuae/Falcon-H1-7B-Base 60.78
meta-llama/Llama-3.1-8B 58.23
Qwen/Qwen3-14B-Base 57.29
inceptionai/jais-adapted-13b 56.01
Qwen/Qwen2.5-72B 47.91
Qwen/Qwen2.5-14B 46.8
google/gemma-2-2b 41.86
tiiuae/Falcon3-7B-Base 41.43
Qwen/Qwen3-8B-Base 40.75
tiiuae/Falcon-H1-3B-Base 40.41
Qwen/Qwen2.5-7B 36.57
Qwen/Qwen2.5-3B 35.29
meta-llama/Llama-3.2-3B 35.12
inceptionai/jais-adapted-7b 33.5
Qwen/Qwen3-4B-Base 27.45
Qwen/Qwen2.5-32B 53.03
FreedomIntelligence/AceGPT-13B 50.81

Mô hình được Tinh chỉnh Theo Hướng dẫn

Mô hình Độ chính xác
falcon-h1-arabic-7b-instruct 82.18
humain-ai/ALLaM-7B-Instruct-preview 77.24
google/gemma-3-27b-it 74.68
falcon-h1-arabic-3b-instruct 74.51
Qwen/Qwen2.5-72B-Instruct 74.6
CohereForAI/aya-expanse-32b 73.66
Navid-AI/Yehia-7B-preview 73.32
FreedomIntelligence/AceGPT-v2-32B-Chat 72.8
Qwen/Qwen2.5-32B-Instruct 71.61
tiiuae/Falcon-H1-34B-Instruct 71.1
meta-llama/Llama-3.3-70B-Instruct 69.74
QCRI/Fanar-1-9B-Instruct 69.22
tiiuae/Falcon-H1-7B-Instruct 65.13
CohereForAI/c4ai-command-r7b-arabic-02-2025 64.54
silma-ai/SILMA-9B-Instruct-v1.0 63.94
FreedomIntelligence/AceGPT-v2-8B-Chat 63.43
CohereLabs/aya-expanse-8b 61.21
yasserrmd/kallamni-2.6b-v1 61.13
yasserrmd/kallamni-4b-v1 60.7
microsoft/Phi-4-mini-instruct 58.57
tiiuae/Falcon-H1-3B-Instruct 57.12
silma-ai/SILMA-Kashif-2B-Instruct-v1.0 48.51
Qwen/Qwen2.5-7B-Instruct 45.44
google/gemma-3-4b-it 46.12
meta-llama/Llama-3.1-8B-Instruct 46.29
meta-llama/Llama-3.2-3B-Instruct 39.64
yasserrmd/kallamni-1.2b-v1 37.77
Qwen/Qwen3-4B 26.26
google/gemma-2-2b-it 26.00
Qwen/Qwen3-14B 26.00
Qwen/Qwen3-8B 25.66

Phân tích và Xu hướng Quan sát được

Hình 1: Độ chính xác của Mô hình theo Danh mục dựa trên Kích thước Hình 1: Độ chính xác của Mô hình theo Danh mục dựa trên Kích thước.

Hình 2: Độ chính xác của Mô hình theo Danh mục dựa trên Ngôn ngữ Hình 2: Độ chính xác của Mô hình theo Danh mục dựa trên Ngôn ngữ.

Một số xu hướng nổi bật từ việc đánh giá. Các mô hình được tinh chỉnh theo hướng dẫn thường hoạt động tốt hơn các mô hình cơ sở của chúng, như thể hiện trong Hình 1 và 2. Điều này đặc biệt đúng với các câu hỏi liên quan đến quy tắc hội thoại và phản hồi phù hợp về mặt văn hóa (tức là Danh mục Nghi thức & Giá trị). Hơn nữa, điều này đúng với các câu hỏi kiểm tra hình ảnh và ý nghĩa ẩn dụ. Điều này có thể được quy cho năng lực ban đầu mạnh mẽ của mô hình trong việc hiểu hình ảnh và ngôn ngữ ẩn dụ dựa trên MSA bất kể phương ngữ nào. Các mô hình có thể rút ra các mẫu mô tả phi nghĩa bất kể phương ngữ. Nói chung, các danh mục khó nhất đối với các mô hình nhất quán là “Ngôn ngữ và Phương ngữ” và “Lời chào và Cách diễn đạt hàng ngày” trên mọi kích thước mô hình như thể hiện trong Hình 1. Những kết quả này phản ánh trạng thái hiện tại về sự hiện diện của phương ngữ UAE trong phương tiện viết, vì phương ngữ chủ yếu được nói và hiếm khi được viết, điều này giải thích tính mới của nó so với các mô hình được đánh giá. Tuy nhiên, có một lợi ích rõ ràng khi tinh chỉnh các mô hình để hiểu phương ngữ (và các danh mục đánh giá khác) so với các đối tác của chúng, đặc biệt là ở các mô hình nhỏ và trung bình. Điều này đặc biệt đáng chú ý với danh mục Thơ ca và Diễn đạt sáng tạo, nơi các mô hình tinh chỉnh lớn hoạt động tốt hơn một chút so với các mô hình nhỏ hơn.

Hình 3: Độ chính xác trung bình của các mô hình được đánh giá Hình 3: Độ chính xác trung bình của các mô hình được đánh giá.

Như Hình 3 cho thấy, ngay cả các mô hình đa ngôn ngữ mạnh mẽ cũng cho thấy sự suy giảm đáng kể đối với các câu hỏi Alyah khó nhất, cho thấy rằng kiến thức ngữ nghĩa đặc trưng của phương ngữ không dễ dàng thu được thông qua đào tạo đa ngôn ngữ chung chung. Cần lưu ý rằng mặc dù các mô hình gốc tiếng Ả Rập có xu hướng hoạt động mạnh mẽ hơn đối với nội dung có nền tảng văn hóa, hiệu suất của chúng không đồng nhất trên tất cả các danh mục (Hình 2). Đặc biệt, các câu hỏi liên quan đến ý nghĩa ngầm và các cách diễn đạt hiếm gặp vẫn còn khó khăn đối với hầu hết các mô hình được đánh giá. Điều này nhấn mạnh một khoảng cách dai dẳng giữa sự quen thuộc bề mặt với phương ngữ và sự hiểu biết văn hóa sâu sắc hơn. Sự biến đổi cao về hiệu suất giữa các danh mục, nơi một mô hình vượt trội về hình ảnh và ý nghĩa ẩn dụ vẫn có thể gặp khó khăn với thơ ca hoặc các câu hỏi sáng tạo liên quan đến di sản, cho thấy rằng năng lực phương ngữ là đa chiều và không thể được nắm bắt bằng một điểm số duy nhất. Hình 3 cho thấy mô hình lớn có điểm số cao nhất trong Jais-2-70B, tiếp theo là hai mô hình nhỏ Jais-2-8B và ALLaM-7B-instruct, tất cả đều là các mô hình tinh chỉnh tiếng Ả Rập.

Kết luận và Tác động Cộng đồng

Benchmark này đại diện cho một bước tiến tới việc đánh giá các mô hình ngôn ngữ tiếng Ả Rập thực tế và có nền tảng văn hóa hơn. Bằng cách tập trung vào phương ngữ UAE, chúng tôi nhằm mục đích hỗ trợ sự phát triển của các mô hình phục vụ tốt hơn cho các cộng đồng, tổ chức và người dùng địa phương ở UAE. Ngoài việc xếp hạng mô hình, benchmark còn là một công cụ chẩn đoán để hướng dẫn các nỗ lực thu thập dữ liệu, đào tạo và điều chỉnh trong tương lai.

Chúng tôi mời các nhà nghiên cứu, học viên và cộng đồng rộng lớn hơn sử dụng benchmark, khám phá kết quả và chia sẻ phản hồi. Sự đóng góp của cộng đồng sẽ rất cần thiết để tinh chỉnh bộ dữ liệu, mở rộng phạm vi bao phủ và đảm bảo rằng phương ngữ tiếng Ả Rập nhận được sự quan tâm xứng đáng trong việc đánh giá các Mô hình Ngôn ngữ Lớn.

Trích dẫn

bibtex @misc{emirati_dialect_benchmark_2026, title = {Alyah: An Emirati Dialect Benchmark for Evaluating Arabic Large Language Models}, author={Omar Alkaabi and Ahmed Alzubaidi and Hamza Alobeidli and Shaikha Alsuwaidi and Mohammed Alyafeai and Leen AlQadi and Basma El Amel Boussaha and Hakim Hacid}, year = {2026}, month = {january}, }

Recommended for You

Mở khóa Đào tạo RL Thuộc tính cho GPT-OSS- Một Nhìn Lại Thực tế

Mở khóa Đào tạo RL Thuộc tính cho GPT-OSS- Một Nhìn Lại Thực tế

Bài viết này đi sâu vào các khía cạnh thực tế của việc đào tạo RL thuộc tính cho GPT-OSS, cung cấp những hiểu biết và bài học kinh nghiệm.

Các Mô hình Mở NVIDIA Earth-2 Bao trùm Toàn bộ Ngăn xếp Thời tiết

Các Mô hình Mở NVIDIA Earth-2 Bao trùm Toàn bộ Ngăn xếp Thời tiết

Bài viết này giới thiệu các mô hình mở NVIDIA Earth-2, nhấn mạnh khả năng của chúng trong việc giải quyết toàn bộ ngăn xếp dự báo thời tiết.