Bảng xếp hạng tiếng Ả Rập Giới thiệu hướng dẫn bằng tiếng Ả Rập, cập nhật AraGen và hơn thế nữa

Bài viết này giới thiệu bảng xếp hạng hướng dẫn bằng tiếng Ả Rập, cập nhật AraGen và hơn thế nữa.

  • 17 min read
Bảng xếp hạng tiếng Ả Rập Giới thiệu hướng dẫn bằng tiếng Ả Rập, cập nhật AraGen và hơn thế nữa
Bài viết này giới thiệu bảng xếp hạng hướng dẫn bằng tiếng Ả Rập, cập nhật AraGen và hơn thế nữa.

Bảng xếp hạng tiếng Ả Rập: Giới thiệu theo dõi hướng dẫn tiếng Ả Rập, cập nhật AraGen và hơn thế nữa

Tại Inception, chúng tôi đã và đang nỗ lực nâng cao đánh giá mô hình AI trong bối cảnh ngôn ngữ Ả Rập. Trước đây, chúng tôi đã giới thiệu AraGen, một trong những bảng xếp hạng tiếng Ả Rập đầu tiên, đóng vai trò là chuẩn mực để đánh giá LLM tiếng Ả Rập trên các tác vụ tạo sinh.

Là một phần trong nỗ lực không ngừng của chúng tôi, chúng tôi rất vui mừng được chia sẻ các bản cập nhật sau:

  • Không gian Bảng xếp hạng tiếng Ả Rập, được ra mắt với sự hợp tác của Đại học Trí tuệ Nhân tạo Mohammed bin Zayed (MBZUAI) để hợp nhất các đánh giá AI tiếng Ả Rập ở một nơi. Nền tảng này hiện hỗ trợ AraGen-03-25Theo dõi Hướng dẫn tiếng Ả Rập, với kế hoạch mở rộng sang bảng xếp hạng cho các mô hình AI tiếng Ả Rập trên các phương thức khác nhau.
  • AraGen 03-25 phát hành với những cải tiến và chuẩn mực cập nhật.
  • Bảng xếp hạng Theo dõi Hướng dẫn, được hỗ trợ bởi Chuẩn mực IFEval tiếng Ả Rập, chuẩn mực công khai đầu tiên để đánh giá khả năng theo dõi hướng dẫn bằng tiếng Ả Rập.

<gradio-app theme_mode=“dark” space=“inceptionai/Arabic-Leaderboards”>

Các phần sau đây cung cấp chi tiết về từng bản cập nhật này.

Không gian Bảng xếp hạng tiếng Ả Rập

Bảng xếp hạng tiếng Ả Rập là một không gian toàn diện và thống nhất cho tất cả các đánh giá và nhiệm vụ tiếng Ả Rập. Nó có nghĩa là đóng vai trò là một trung tâm trung tâm bao gồm một loạt các đánh giá, cho các mô hình trên các phương thức. Hiện tại, nó có AraGen-03-25 và Theo dõi Hướng dẫn tiếng Ả Rập làm bảng xếp hạng trực tiếp. Chúng tôi dự định mở rộng không gian này với nhiều bảng xếp hạng và nhiệm vụ hơn cho các mô hình AI tiếng Ả Rập trên các phương thức khác nhau.

Chúng tôi mời những người đóng góp quan tâm liên hệ với chúng tôi thông qua thẻ cộng đồng hoặc trực tiếp qua email để thảo luận về cách tích hợp công việc/bảng xếp hạng của họ làm các tab bổ sung vào không gian này.

Cập nhật mới nhất trong Bảng xếp hạng AraGen

Vào tháng 12 năm 2024, chúng tôi đã giới thiệu Chuẩn mực AraGen làm nền tảng cho Bảng xếp hạng AraGen. Một tính năng chính của bảng xếp hạng này là tính chất động của nó, với các bộ dữ liệu đánh giá vẫn ở chế độ riêng tư (kiểm tra mù) trong ba tháng để đảm bảo đánh giá công bằng và khách quan. Tuân thủ triết lý tương tự, chúng tôi đang phát hành công khai chuẩn mực AraGen-12-24, cùng với tất cả các phản hồi mô hình được đánh giá bởi Claude-3.5-Sonnet theo nguyên tắc 3C3H.

Bằng cách chia sẻ chuẩn mực và các phản hồi mô hình này, chúng tôi mong muốn khuyến khích cộng đồng xem xét chúng, xác định bất kỳ hành vi bất ngờ nào mà chúng tôi có thể đã bỏ lỡ và giúp chúng tôi tinh chỉnh khung đánh giá của mình.

Bản phát hành AraGen-03-25

Trong bản phát hành AraGen mới nhất này, chúng tôi đã mở rộng bộ dữ liệu để bao gồm 340 cặp câu hỏi và câu trả lời, tăng từ 279 trong phiên bản trước. Sự phân bố vẫn tương đối giống nhau:

  • Hỏi đáp: ~200 cặp
  • Lý luận: 70 cặp
  • Câu hỏi về an toàn: 40 cặp
  • Phân tích chính tả và ngữ pháp: 30 cặp

Sự phân bổ này phản ánh sự tập trung chính vào hỏi đáp làm trường hợp sử dụng chính của bất kỳ Mô hình ngôn ngữ/Chatbot/Trợ lý AI nào, đồng thời giải quyết các lĩnh vực đánh giá khác, đặc biệt là với sự phức tạp của việc tạo ra các truy vấn đầy thách thức trong ngữ pháp và chính tả tiếng Ả Rập.

Ngoài ra, chúng tôi đã tinh chỉnh lời nhắc hệ thống đánh giá để tăng cường sự rõ ràng, ngay cả đối với các mô hình đánh giá nhỏ hơn/yếu hơn.

Đánh giá động và phân tích xếp hạng

Duy trì tính nhất quán và độ tin cậy trong chuẩn mực và quy trình đánh giá của chúng tôi là rất quan trọng khi chúng tôi giới thiệu các chu kỳ đánh giá động. Để đảm bảo điều này, chúng tôi đã phân tích các biến thể xếp hạng giữa 10 mô hình hàng đầu trên các phiên bản tập dữ liệu và cấu hình lời nhắc hệ thống khác nhau.

Phân tích thay đổi xếp hạng

Chúng tôi đã phân tích hiệu suất mô hình theo hai kịch bản đánh giá:

  • So sánh lời nhắc hệ thống trước đó (SP1) với lời nhắc hệ thống hiện tại (SP2) bằng phiên bản AraGen mới nhất (AraGen-03-25).
  • Đánh giá tác động của việc cập nhật cả bộ dữ liệu và lời nhắc hệ thống đánh giá.

Xếp hạng tổng thể ổn định, với mô hình hoạt động tốt nhất (o1-2024-12-17) liên tục duy trì vị trí dẫn đầu của mình. Đáng chú ý, chúng tôi đã quan sát thấy một sự hoán đổi trong xếp hạng giữa hai mô hình Claude, nhấn mạnh độ nhạy của phương pháp đánh giá của chúng tôi, đặc biệt là với điểm số ban đầu gần nhau của chúng.

Sự thay đổi đáng kể duy nhất trong xếp hạng là đối với mô hình gpt-4o-2024-08-06, hiệu suất của mô hình này đã được cải thiện đáng kể với bộ dữ liệu và lời nhắc được cập nhật. Sự tăng vọt đột ngột này hiện đang được điều tra như một phần của nghiên cứu thiết kế chuẩn mực đang diễn ra của chúng tôi.

Không có biến thể lớn nào xảy ra chỉ do những thay đổi trong lời nhắc hệ thống, cho thấy khả năng tái tạo tốt miễn là mô hình đánh giá tương tự (claude-3.5-sonnet) được sử dụng. Tuy nhiên, chúng tôi dự đoán các biến thể tiềm năng với các mô hình nhỏ hơn hoặc yếu hơn làm người đánh giá, trong đó việc sử dụng lời nhắc hệ thống thứ hai (SP2) có thể tăng cường tính nhất quán.

Tóm lại, hiệu suất xếp hạng hàng đầu một cách mạnh mẽ, nhất quán của o1-2024-12-17—có điểm số hàng đầu giảm từ 82,67% xuống 70,25%—tiếp tục củng cố độ tin cậy của nó cho các ứng dụng tiếng Ả Rập theo chuẩn mực cập nhật đầy thách thức hơn. Mặc dù các bản cập nhật gần đây cho quy trình đánh giá đã giới thiệu những thay đổi nhỏ trong xếp hạng, nhưng khung tổng thể vẫn ổn định, với những người có hiệu suất hàng đầu và cuối cùng hiển thị các vị trí nhất quán. Nhiều điều chỉnh xếp hạng được quan sát có khả năng phản ánh các biên độ lỗi đánh giá điển hình do sự khác biệt nhỏ về điểm số. Đáng chú ý, điểm số cho các mô hình xếp thứ hai đến thứ năm, trước đây là từ 70–78%, hiện là từ 51–57%. Điều này nhấn mạnh rằng bộ dữ liệu AraGen được cập nhật đặt ra một chuẩn mực khó khăn hơn đáng kể, phù hợp với những tiến bộ đang diễn ra trong các mô hình lý luận. Mặc dù có những thay đổi này trong điểm số tuyệt đối, nhưng điều đáng khích lệ là các vị trí trên bảng xếp hạng vẫn phần lớn nhất quán, nhấn mạnh tính mạnh mẽ của phương pháp đánh giá tiến lên.

Cặp 1: Hiệu ứng lời nhắc hệ thống (AraGen-03-25 SP1 so với AraGen-03-25 SP2)

Bảng 1. Xếp hạng AraGen-03-25 (SP1)

Xếp hạng Tên mô hình Điểm 3C3H Độ chính xác Tính đầy đủ Tính ngắn gọn Tính hữu ích Tính trung thực Tính vô hại
1 o1-2024-12-17 69,49% 74,90% 73,04% 47,11% 72,40% 74,56% 74,90%
2 gpt-4o-2024-08-06 56,10% 61,96% 58,92% 34,22% 58,80% 60,81% 61,89%
3 claude-3-5-sonnet-20241022 54,29% 59,31% 57,65% 34,31% 57,13% 58,01% 59,31%
4 claude-3-7-sonnet-20250219 53,21% 59,31% 56,76% 28,53% 56,86% 58,53% 59,24%
5 o3-mini-2025-01-31 51,65% 56,67% 54,31% 31,74% 54,46% 56,10% 56,59%
6 deepseek-chat 47,82% 54,31% 52,35% 20,56% 51,94% 53,46% 54,31%
7 claude-3-5-haiku-20241022 43,62% 48,14% 44,61% 28,92% 45,37% 46,57% 48,14%
8 o1-mini-2024-09-12 43,60% 47,55% 47,06% 26,54% 46,35% 46,57% 47,55%
9 Qwen/Qwen2.5-72B-Instruct 42,18% 48,63% 47,55% 16,03% 44,93% 47,38% 48,55%
10 gpt-4o-mini-2024-07-18 40,96% 45,10% 44,02% 24,24% 43,19% 44,14% 45,10%

Bảng 2. Xếp hạng AraGen-03-25 (SP2)

Xếp hạng Tên mô hình Điểm 3C3H Độ chính xác Tính đầy đủ Tính ngắn gọn Tính hữu ích Tính trung thực Tính vô hại
1 o1-2024-12-17 70,25% 75,88% 70,98% 51,25% 72,55% 75,25% 75,59%
2 gpt-4o-2024-08-06 57,38% 63,14% 56,67% 39,95% 59,66% 61,79% 63,06%
3 claude-3-7-sonnet-20250219 56,54% 62,25% 58,53% 34,49% 60,39% 61,40% 62,18%
4 claude-3-5-sonnet-20241022 55,60% 60,49% 56,67% 39,14% 58,60% 58,50% 60,20%
5 o3-mini-2025-01-31 51,63% 56,08% 52,35% 36,72% 53,53% 55,10% 56,00%
6 deepseek-chat 51,00% 57,55% 53,92% 25,61% 54,95% 56,42% 57,55%
7 claude-3-5-haiku-20241022 44,79% 48,92% 44,51% 32,40% 46,67% 47,38% 48,85%
8 o1-mini-2024-09-12 43,78% 47,55% 46,76% 28,04% 46,27% 46,67% 47,40%
9 Qwen/Qwen2.5-72B-Instruct 43,09% 48,82% 47,55% 19,73% 46,59% 47,11% 48,75%
10 gpt-4o-mini-2024-07-18 40,62% 45,10% 40,88% 27,60% 42,06% 43,58% 44,51%
Cặp 2: Hiệu ứng cập nhật tập dữ liệu và lời nhắc (AraGen-12-24 SP1 (cũ) so với AraGen-03-25 SP2 (mới))

Bảng 3. Xếp hạng AraGen-12-24 (SP1)

Xếp hạng Tên mô hình Điểm 3C3H Độ chính xác Tính đầy đủ Tính ngắn gọn Tính hữu ích Tính trung thực Tính vô hại
1 o1-2024-12-17 82,67% 92,71% 92,47% 34,65% 91,19% 92,26% 92,71%
2 claude-3-5-sonnet-20241022 78,74% 88,31% 87,81% 33,27% 86,97% 87,78% 88,31%
3 claude-3-7-sonnet-20250219 77,71% 87,89% 87,77% 29,20% 86,27% 87,26% 87,89%
4 gpt-4o-2024-08-06 73,89% 83,75% 82,91% 28,94% 80,99% 83,00% 83,75%
5 deepseek-chat 71,28% 81,89% 81,89% 21,13% 79,53% 81,32% 81,89%
6 o3-mini-2025-01-31 70,91% 80,29% 79,21% 27,33% 78,38% 79,99% 80,29%
7 claude-3-5-haiku-20241022 66,40% 74,43% 73,36% 30,56% 72,34% 73,30% 74,43%
8 o1-mini-2024-09-12 64,95% 74,22% 74,22% 21,46% 72,24% 73,32% 74,22%
9 gpt-4o-mini-2024-07-18 63,40% 72,10% 71,38% 22,98% 70,41% 71,41% 72,10%
10 Qwen/Qwen2.5-72B-Instruct 62,58% 71,92% 71,80% 19,06% 69,86% 70,94% 71,92%

Bảng 4. Xếp hạng AraGen-03-25 (SP2)

Xếp hạng Tên mô hình Điểm 3C3H Độ chính xác Tính đầy đủ Tính ngắn gọn Tính hữu ích Tính trung thực Tính vô hại
1 o1-2024-12-17 70,25% 75,88% 70,98% 51,25% 72,55% 75,25% 75,59%
2 gpt-4o-2024-08-06 57,38% 63,14% 56,67% 39,95% 59,66% 61,79% 63,06%
3 claude-3-7-sonnet-20250219 56,54% 62,25% 58,53% 34,49% 60,39% 61,40% 62,18%
4 claude-3-5-sonnet-20241022 55,60% 60,49% 56,67% 39,14% 58,60% 58,50% 60,20%
5 o3-mini-2025-01-31 51,63% 56,08% 52,35% 36,72% 53,53% 55,10% 56,00%
6 deepseek-chat 51,00% 57,55% 53,92% 25,61% 54,95% 56,42% 57,55%
7 claude-3-5-haiku-20241022 44,79% 48,92% 44,51% 32,40% 46,67% 47,38% 48,85%
8 o1-mini-2024-09-12 43,78% 47,55% 46,76% 28,04% 46,27% 46,67% 47,40%
9 Qwen/Qwen2.5-72B-Instruct 43,09% 48,82% 47,55% 19,73% 46,59% 47,11% 48,75%
10 gpt-4o-mini-2024-07-18 40,62% 45,10% 40,88% 27,60% 42,06% 43,58% 44,51%

Phân tích 3C3H

Là một phần của bản phát hành tháng 12 của chúng tôi, chúng tôi đã giới thiệu 3C3H làm một thước đo đánh giá mới về khả năng trò chuyện của các mô hình, nhằm mục đích đánh giá cả tính chính xác và khả năng sử dụng câu trả lời của LLM. Trong ba tháng qua, chúng tôi đã quan sát thấy một số phát hiện thú vị, mà chúng tôi chia sẻ trong phần này.

Một xu hướng mới nổi là các chiều khác nhau gần như tương quan hoàn hảo với nhau. Trong hầu hết các trường hợp, câu trả lời chính xác được chấm điểm là rất hữu ích và vô hại, trong khi hầu hết các mô hình không duy trì được mối tương quan này cho chiều tính ngắn gọn. Điều này thường phản ánh cách chúng ta đào tạo các mô hình này ngày nay, trong đó các câu trả lời dài dòng hơn thường được thưởng là hữu ích hơn. Xu hướng này gần đây đã thu hút sự chú ý của cộng đồng nghiên cứu, như được minh chứng bằng việc phát hành mô hình GPT-4.5 của OpenAI. Theo phần trường hợp sử dụng của họ, câu trả lời từ GPT-4.5 ngắn gọn hơn so với câu trả lời từ GPT-4, đồng thời vẫn hữu ích như nhau.

Một mô hình nổi bật trong phân tích này là “silma-ai/SILMA-9B-Instruct-v1.0”, mô hình này thể hiện điểm tính ngắn gọn cao hơn so với các mô hình trọng số mở khác—ngay cả những mô hình có kích thước lớn hơn. Tuy nhiên, lợi ích về tính ngắn gọn này phải trả giá bằng tính hữu ích và các chiều khác khi so sánh với mô hình cơ sở của nó, “google/gemma-2-9b-it”. Chúng tôi tin rằng phân tích này, cùng với việc tối ưu hóa cho 3C3H, sẽ cho phép cộng đồng phát triển các mô hình tốt hơn thông qua các bộ dữ liệu được tuyển chọn trong khi vẫn duy trì mối tương quan trên tất cả các chiều.

Đây là một nỗ lực đang diễn ra để hiểu rõ hơn về cách các chiều này được kết nối với nhau và cách các tình huống và công thức đào tạo khác nhau ảnh hưởng đến mối quan hệ này. Bên dưới, chúng tôi cung cấp một không gian nơi bạn có thể tạo bản đồ nhiệt cho bất kỳ sự kết hợp nào của các mô hình bạn chọn. Chúng tôi hy vọng cộng đồng thấy nó hữu ích trong việc phát hiện thêm các xu hướng mà chúng tôi có thể chưa nhận thấy. Cuối cùng, chúng tôi mong muốn công cụ này thúc đẩy nhiều cuộc thảo luận hơn về đánh giá và 3C3H, đóng vai trò là nguồn tài liệu cho công việc của người khác.

<gradio-app theme_mode=“dark” space=“inceptionai/3C3H-HeatMap”>

Chúng tôi tin rằng một hạn chế của phân tích này là quy tắc bằng không, theo đó chúng tôi không đánh giá các chiều khác nếu câu trả lời không chính xác. Trong tương lai, chúng tôi dự định điều tra thêm xem một câu trả lời có thể hữu ích mặc dù không chính xác hay không và các chiều như tính ngắn gọn và tính vô hại ảnh hưởng đến đánh giá này như thế nào nếu câu trả lời không chính xác.

Bảng xếp hạng Theo dõi Hướng dẫn

Theo dõi Hướng dẫn là gì như một chuẩn mực?

Một trong những khả năng cốt lõi của các mô hình ngôn ngữ lớn (LLM) là khả năng hiểu và tuân theo các hướng dẫn của con người. Kỹ năng này rất quan trọng để xây dựng các chatbot, trợ lý ảo và hệ thống AI đáng tin cậy, những hệ thống này thực hiện những gì người dùng yêu cầu. Nếu không có khả năng theo dõi hướng dẫn mạnh mẽ, một mô hình có thể tạo ra thông tin chính xác nhưng ở định dạng sai, bỏ qua các ràng buộc do người dùng chỉ định hoặc tạo ra nội dung không mong muốn. Chuẩn mực Theo dõi Hướng dẫn là một cách khách quan, được tiêu chuẩn hóa để đo lường sự tuân thủ hướng dẫn của mô hình và so sánh các mô hình một cách công bằng để thúc đẩy những cải tiến.

Bộ dữ liệu: IFEval tiếng Ả Rập

Công việc của chúng tôi lấy cảm hứng từ bộ dữ liệu IFEval. IFEval, ban đầu được giới thiệu bởi Google, cung cấp một chuẩn mực có cấu trúc được thiết kế để đánh giá LLM về khả năng tuân theo các hướng dẫn có thể kiểm chứng. Nó bao gồm các lời nhắc chứa các lệnh cụ thể, có thể đo lường khách quan, chẳng hạn như “sử dụng chính xác ba dấu đầu dòng”, “bao gồm từ ‘đổi mới’ hai lần” hoặc “giới hạn câu trả lời của bạn trong 100 từ”. Bộ dữ liệu IFEval tiếng Anh chứa khoảng 500 lời nhắc bao gồm 25 loại hướng dẫn có thể kiểm chứng khác nhau như vậy. Đánh giá trong IFEval được thực hiện thông qua các hàm Python tự động xác minh xem các hướng dẫn có được tuân thủ hay không, tránh sự cần thiết của người đánh giá con người hoặc một người đánh giá AI khác. Điều này làm cho các đánh giá có thể tái tạo và khách quan. Mặc dù IFEval đã trở thành tiêu chuẩn để đánh giá LLM phản hồi bằng tiếng Anh, nhưng một tài nguyên chi tiết và có cấu trúc tương tự lại không có cho tiếng Ả Rập.

Việc xây dựng tập dữ liệu IFEval tiếng Ả Rập của chúng tôi bắt đầu bằng cách cẩn thận điều chỉnh khoảng 300 lời nhắc từ IFEval tiếng Anh gốc. Đây không phải là một bản dịch từng chữ, theo nghĩa đen; thay vào đó, chúng tôi đã điều chỉnh các lời nhắc một cách chu đáo để phản ánh rõ ràng các sắc thái ngôn ngữ và bối cảnh văn hóa của tiếng Ả Rập. Các hướng dẫn ít có ý nghĩa trong tiếng Ả Rập, chẳng hạn như các hướng dẫn liên quan đến các ràng buộc về nguyên âm cụ thể của tiếng Anh, đã được điều chỉnh cho phù hợp với các thách thức ngôn ngữ tiếng Ả Rập tương đương hoặc bị bỏ qua hoàn toàn. Các tài liệu tham khảo văn hóa cụ thể cho bối cảnh nói tiếng Anh đã được thay thế bằng các tài liệu tham khảo có liên quan về mặt văn hóa hoặc ngôn ngữ tiếng Ả Rập để duy trì sự rõ ràng về ngữ cảnh. Ngoài ra, chúng tôi đã tạo các mẫu riêng cho tiếng Ả Rập từ đầu, được thiết kế đặc biệt để nhấn mạnh ngữ âm, đặc điểm chính tả và hình thái học đặc biệt của tiếng Ả Rập, chẳng hạn như sử dụng cẩn thận các dấu phụ (tashkīl), các ràng buộc ngữ âm như tránh một số chữ cái nhất định (ví dụ: viết mà không sử dụng chữ Alef (ا)) và tận dụng hình thái học dựa trên gốc để thách thức khả năng lựa chọn từ của các mô hình. Tất cả các lời nhắc đều trải qua quá trình xác thực nghiêm ngặt bởi các nhà ngôn ngữ học và chuyên gia trong lĩnh vực tiếng Ả Rập, những người đảm bảo tính chính xác về ngữ pháp, tính phù hợp về văn hóa và sự rõ ràng không mơ hồ của từng hướng dẫn.

Bộ dữ liệu IFEval tiếng Ả Rập được công khai cho cộng đồng nghiên cứu sử dụng, kiểm tra và đóng góp. Nó có sẵn trên Huggingface.

Lời nhắc (Ar):Giải thích cách các công nghệ hiện đại, chẳng hạn như trí tuệ nhân tạo, có thể góp phần bảo tồn văn học Ả Rập, bao gồm 12 từ kết thúc bằng một trong các chữ cái Ả Rập cụ thể này (د، ذ، أ، ر، ز، و), câu trả lời của bạn phải ngắn gọn và không được vượt quá 120 từ. Phản hồi của bạn không được chứa bất kỳ dấu phẩy nào.

Dịch lời nhắc (En): Giải thích cách các công nghệ hiện đại, chẳng hạn như trí tuệ nhân tạo, có thể góp phần bảo tồn văn học Ả Rập. Câu trả lời của bạn phải bao gồm ít nhất 12 từ kết thúc bằng một trong các chữ cái Ả Rập cụ thể này (د، ذ، أ، ر، ز، و), phải ngắn gọn và không được vượt quá 120 từ. Phản hồi của bạn không được chứa bất kỳ dấu phẩy nào.

Hướng dẫn tuân theo:

  • Ràng buộc tần suất chữ cái: Bao gồm ít nhất 12 từ kết thúc bằng một trong các chữ cái (د، ذ، أ، ر، ز، و).
  • Ràng buộc dấu câu: Không sử dụng dấu phẩy.
  • Ràng buộc độ dài: Viết ngắn gọn, không vượt quá 120 từ.

Ví dụ định dạng JSON:

{
  "key": 4767,
  "prompt": "فسر كيف يمكن للتقنيات الحديثة مثل الذكاء الاصطناعي أن تسهم في الحفاظ على الأدب العربي، مع تضمين 12 كلمة تنتهي بأحد الحروف الرافسة (د، ذ، أ، ر، ز، و)، وأن تكون الإجابة مكتوبة بأسلوب موجز لا يتجاوز 120 كلمة. يجب أن لا تحتوي إجابتك على أي فواصل.",
  "instruction_id_list": [
 

### [Link bài báo gốc](https://huggingface.co/blog/leaderboard-3c3h-aragen-ifeval)

Recommended for You

Chào mừng Llama 4 Maverick & Scout trên Hugging Face!

Chào mừng Llama 4 Maverick & Scout trên Hugging Face!

Bài viết này giới thiệu Llama 4 Maverick & Scout trên Hugging Face.

Cách Hugging Face mở rộng quy mô quản lý bí mật cho cơ sở hạ tầng AI

Cách Hugging Face mở rộng quy mô quản lý bí mật cho cơ sở hạ tầng AI

Bài viết này mô tả cách Hugging Face mở rộng quy mô quản lý bí mật cho cơ sở hạ tầng AI.