FilBench - LLM có thể hiểu và tạo ra tiếng Filipino không?
- 8 min read
🇵🇭 FilBench - Liệu các LLM có thể hiểu và tạo ra tiếng Filipino?
Khi các mô hình ngôn ngữ lớn (LLM) ngày càng được tích hợp vào cuộc sống của chúng ta, việc đánh giá xem chúng có phản ánh các sắc thái và khả năng của các cộng đồng ngôn ngữ cụ thể hay không trở nên rất quan trọng.
Ví dụ: người Philippines là một trong những người dùng ChatGPT tích cực nhất trên toàn cầu, đứng thứ tư về lưu lượng truy cập ChatGPT (sau Hoa Kỳ, Ấn Độ và Brazil [1] [2]), nhưng mặc dù được sử dụng mạnh mẽ như vậy, chúng ta vẫn thiếu hiểu biết rõ ràng về hiệu suất của LLM đối với ngôn ngữ của họ, chẳng hạn như Tagalog và Cebuano.
Hầu hết các bằng chứng hiện có chỉ là giai thoại, chẳng hạn như ảnh chụp màn hình ChatGPT phản hồi bằng tiếng Filipino như một bằng chứng cho thấy nó trôi chảy. Thay vào đó, những gì chúng ta cần là một đánh giá có hệ thống về khả năng của LLM bằng các ngôn ngữ Philippine.
Đó là lý do tại sao chúng tôi đã phát triển FilBench: một bộ đánh giá toàn diện để đánh giá khả năng của LLM cho Tagalog, Filipino (hình thức tiêu chuẩn của Tagalog) và Cebuano, về khả năng trôi chảy, ngôn ngữ và dịch thuật, cũng như kiến thức văn hóa cụ thể.
Chúng tôi đã sử dụng nó để đánh giá hơn 20 LLM hiện đại trên FilBench, cung cấp một đánh giá toàn diện về hiệu suất của chúng trong các ngôn ngữ Philippine:
<iframe
src="https://ud-filipino-filbench-leaderboard.hf.space"
frameborder="0"
width="850"
height="450"
></iframe>
- 📄 Bài báo: https://arxiv.org/abs/2508.03523
- 🖥️ GitHub: https://github.com/filbench/filbench-eval
FilBench
Bộ đánh giá FilBench chứa bốn loại chính - Kiến thức văn hóa, NLP cổ điển, Đọc hiểu và Tạo - được chia thành 12 nhiệm vụ. Ví dụ: danh mục NLP cổ điển bao gồm các tác vụ như phân tích tình cảm, trong khi các tác vụ Tạo bao gồm các khía cạnh khác nhau của dịch thuật. Để đảm bảo rằng các danh mục này phản ánh các ưu tiên và xu hướng trong nghiên cứu và sử dụng NLP, chúng tôi tuyển chọn chúng dựa trên một khảo sát lịch sử về nghiên cứu NLP về các ngôn ngữ Philippine từ năm 2006 đến đầu năm 2024. (Hầu hết các danh mục này chỉ chứa nội dung không được dịch để đảm bảo tính trung thực đối với việc sử dụng tự nhiên các ngôn ngữ Philippine.)
- Kiến thức văn hóa: Danh mục này kiểm tra khả năng của mô hình ngôn ngữ trong việc nhớ lại thông tin thực tế và cụ thể về văn hóa. Đối với Kiến thức văn hóa, chúng tôi đã tuyển chọn nhiều ví dụ khác nhau để kiểm tra kiến thức khu vực và thực tế của LLM (Global-MMLU), các giá trị tập trung vào Filipino (KALAHI) và khả năng phân biệt nghĩa của từ (StingrayBench).
- NLP cổ điển: Danh mục này bao gồm nhiều tác vụ khai thác thông tin và ngôn ngữ khác nhau, chẳng hạn như nhận dạng thực thể được đặt tên, phân tích tình cảm và phân loại văn bản, mà các mô hình chuyên dụng, được đào tạo thường thực hiện. Trong danh mục này, chúng tôi bao gồm các phiên bản từ CebuaNER, TLUnified-NER và Universal NER để nhận dạng thực thể được đặt tên, và các tập hợp con của SIB-200 và BalitaNLP để phân loại văn bản và phân tích tình cảm.
- Đọc hiểu: Danh mục này đánh giá khả năng của mô hình ngôn ngữ trong việc hiểu và giải thích văn bản Filipino, tập trung vào các tác vụ như khả năng đọc, khả năng hiểu và suy luận ngôn ngữ tự nhiên. Đối với danh mục này, chúng tôi bao gồm các phiên bản từ Cebuano Readability Corpus, Belebele và NewsPH NLI.
- Tạo: Chúng tôi dành một phần lớn của FilBench để kiểm tra khả năng của LLM trong việc dịch văn bản một cách trung thực, từ tiếng Anh sang tiếng Filipino hoặc từ Cebuano sang tiếng Anh. Chúng tôi bao gồm một tập hợp đa dạng các ví dụ kiểm tra khác nhau, từ tài liệu (NTREX-128), văn bản thực tế từ tình nguyện viên (Tatoeba) và văn bản dành riêng cho miền (TICO-19).
Mỗi danh mục này cung cấp một số liệu tổng hợp. Để tạo ra một điểm số đại diện duy nhất, chúng tôi tính trung bình có trọng số dựa trên số lượng ví dụ trong mỗi danh mục, mà chúng tôi gọi là Điểm FilBench.
Để đơn giản hóa việc sử dụng và thiết lập, chúng tôi đã xây dựng FilBench trên Lighteval, một khung tất cả trong một để đánh giá LLM. Để đánh giá cụ thể theo ngôn ngữ, trước tiên chúng tôi xác định các cặp dịch từ tiếng Anh sang Tagalog (hoặc Cebuano) cho các thuật ngữ phổ biến được sử dụng trong đánh giá như “có” (oo), “không” (hindi) và “đúng” (totoo) trong số những người khác. Sau đó, chúng tôi đã sử dụng các mẫu được cung cấp để triển khai các tác vụ tùy chỉnh cho các khả năng mà chúng tôi quan tâm.
FilBench hiện có sẵn dưới dạng một tập hợp các tác vụ cộng đồng trong kho lưu trữ Lighteval chính thức!
Chúng ta đã học được gì từ FilBench?
Bằng cách đánh giá một số LLM trên FilBench, chúng tôi đã khám phá ra một số hiểu biết về cách chúng hoạt động trong tiếng Filipino.
Phát hiện #1: Mặc dù các LLM dành riêng cho khu vực vẫn còn tụt hậu so với GPT-4, nhưng việc thu thập dữ liệu để đào tạo các mô hình này vẫn là một hướng đi đầy hứa hẹn
Trong vài năm qua, chúng ta đã thấy sự gia tăng của các LLM dành riêng cho khu vực nhắm mục tiêu các ngôn ngữ Đông Nam Á (SEA-specific), chẳng hạn như SEA-LION và SeaLLM. Đây là những LLM trọng lượng mở mà bạn có thể tải xuống miễn phí từ HuggingFace. Chúng tôi thấy rằng các LLM dành riêng cho SEA thường hiệu quả tham số nhất cho các ngôn ngữ của chúng tôi, đạt được điểm FilBench cao nhất so với các mô hình khác có cùng kích thước. Tuy nhiên, mô hình dành riêng cho SEA tốt nhất vẫn bị vượt trội hơn bởi các LLM nguồn đóng như GPT-4o.
Việc xây dựng các LLM dành riêng cho khu vực vẫn có ý nghĩa, vì chúng tôi quan sát thấy hiệu suất tăng 2-3% khi liên tục tinh chỉnh một LLM cơ sở với dữ liệu điều chỉnh hướng dẫn cụ thể của SEA. Điều này cho thấy rằng những nỗ lực tuyển chọn dữ liệu đào tạo cụ thể của Filipino/SEA để tinh chỉnh vẫn phù hợp, vì chúng có thể dẫn đến hiệu suất tốt hơn trên FilBench.
Phát hiện #2: Dịch thuật Filipino vẫn là một nhiệm vụ khó khăn đối với LLM
Chúng tôi cũng quan sát thấy rằng trên bốn danh mục trên FilBench, hầu hết các mô hình đều gặp khó khăn với khả năng Tạo. Khi kiểm tra các chế độ lỗi trong Tạo, chúng tôi thấy rằng chúng bao gồm các trường hợp mô hình không tuân theo hướng dẫn dịch thuật, tạo ra các văn bản quá dài dòng hoặc ảo giác một ngôn ngữ khác thay vì Tagalog hoặc Cebuano.
Phát hiện #3: LLM mở vẫn là một lựa chọn hiệu quả về chi phí cho các tác vụ ngôn ngữ Filipino
Philippines có xu hướng có cơ sở hạ tầng internet hạn chế và thu nhập bình quân đầu người thấp hơn [3], đòi hỏi các LLM có thể truy cập được, hiệu quả về chi phí và tính toán. Thông qua FilBench, chúng tôi đã có thể xác định các LLM nằm trên ranh giới Pareto về hiệu quả.
Nói chung, chúng tôi thấy rằng các LLM trọng lượng mở, tức là các mô hình mà bạn có thể tải xuống miễn phí từ HuggingFace, rẻ hơn nhiều so với các mô hình thương mại mà không làm giảm hiệu suất của chúng. Nếu bạn muốn một giải pháp thay thế cho GPT-4o cho các tác vụ ngôn ngữ Filipino của mình, hãy thử Llama 4 Maverick!
Chúng tôi cũng cung cấp thông tin này trong không gian HuggingFace của bảng xếp hạng FilBench.
LLM của bạn có hoạt động trên các ngôn ngữ Philippine không? Hãy thử nó trên FilBench!
Chúng tôi hy vọng rằng FilBench cung cấp những hiểu biết sâu sắc hơn về khả năng của LLM đối với các ngôn ngữ Philippine và đóng vai trò là chất xúc tác để thúc đẩy nghiên cứu và phát triển NLP của Filipino. Bộ đánh giá FilBench được xây dựng trên lighteval của Hugging Face, cho phép các nhà phát triển LLM dễ dàng đánh giá các mô hình của họ trên điểm chuẩn của chúng tôi. Để biết thêm thông tin, vui lòng truy cập các liên kết bên dưới:
- 📄 Bài báo: https://arxiv.org/abs/2508.03523
- 🖥️ GitHub: https://github.com/filbench/filbench-eval
Lời cảm ơn
Các tác giả xin cảm ơn Cohere Labs vì đã cung cấp tín dụng thông qua Cohere Research Grant để chạy chuỗi mô hình Aya và Together AI vì các tín dụng tính toán bổ sung để chạy một số mô hình mở. Chúng tôi cũng xin cảm ơn nhóm Hugging Face, đặc biệt là nhóm OpenEvals (Clémentine Fourrier và Nathan Habib) và Daniel van Strien, vì sự hỗ trợ của họ trong việc xuất bản bài đăng trên blog này.
Trích dẫn
Nếu bạn đang đánh giá trên FilBench, vui lòng trích dẫn công việc của chúng tôi:
@article{filbench,
title={Fil{B}ench: {C}an {LLM}s {U}nderstand and {G}enerate {F}ilipino?},
author={Miranda, Lester James V and Aco, Elyanah and Manuel, Conner and Cruz, Jan Christian Blaise and Imperial, Joseph Marvin},
journal={arXiv preprint arXiv:2508.03523},
year={2025}
}
Link bài viết gốc
- Tags:
- Ai
- August 12, 2025
- Huggingface.co