Giới thiệu Falcon-H1-Arabic- Đẩy lùi ranh giới AI ngôn ngữ Ả Rập với kiến trúc lai
Giới thiệu Falcon-H1-Arabic, một mô hình ngôn ngữ lớn tiên tiến được thiết kế đặc biệt cho tiếng Ả Rập. Khám phá kiến trúc lai đột phá và tác động của nó đối với các ứng dụng AI ngôn ngữ Ả Rập.
- 11 min read
Giới thiệu Falcon-H1-Arabic: Đẩy ranh giới AI ngôn ngữ Ả Rập với Kiến trúc Hybrid
Hành trình xây dựng các mô hình ngôn ngữ tiếng Ả Rập đẳng cấp thế giới là một quá trình học hỏi và cải tiến liên tục. Hôm nay, chúng tôi vui mừng công bố Falcon-H1-Arabic, dòng mô hình ngôn ngữ tiếng Ả Rập tiên tiến nhất của chúng tôi cho đến nay, đánh dấu một bước tiến vượt bậc về cả kiến trúc và khả năng. Bản phát hành này là kết quả của nhiều tháng nghiên cứu, phản hồi từ cộng đồng và đổi mới kỹ thuật, cuối cùng tạo ra ba mô hình mạnh mẽ đặt ra các tiêu chuẩn mới cho xử lý ngôn ngữ tự nhiên tiếng Ả Rập.
Xây dựng trên nền tảng thành công: Sự phát triển từ Falcon-Arabic
Khi chúng tôi ra mắt Falcon-Arabic vài tháng trước, phản hồi từ cộng đồng vừa khiêm tốn vừa mang tính khai sáng. Các nhà phát triển, nhà nghiên cứu và sinh viên trên khắp thế giới Ả Rập đã sử dụng mô hình cho các trường hợp sử dụng thực tế, đưa chúng đến giới hạn và cung cấp phản hồi vô giá. Chúng tôi đã học được nơi mô hình vượt trội và, quan trọng hơn, nơi nó gặp khó khăn. Khả năng hiểu ngữ cảnh dài, các biến thể phương ngữ, suy luận toán học và kiến thức chuyên ngành đã nổi lên như những lĩnh vực chính đòi hỏi sự quan tâm sâu sắc hơn.
Chúng tôi không chỉ muốn cải tiến gia tăng, mà muốn suy nghĩ lại một cách cơ bản về cách tiếp cận của mình. Kết quả là Falcon-H1-Arabic, một dòng mô hình giải quyết mọi phản hồi chúng tôi nhận được đồng thời giới thiệu những đổi mới kiến trúc chưa từng được khám phá trước đây trong mô hình hóa ngôn ngữ tiếng Ả Rập.
Một bước đột phá cho NLP tiếng Ả Rập: Kiến trúc Mamba-Transformer Hybrid
Falcon-H1-Arabic được xây dựng trên kiến trúc hybrid Falcon-H1, kết hợp Mô hình Không gian Trạng thái (Mamba) và sự chú ý của Transformer trong mọi khối. Cả hai thành phần đều chạy song song và biểu diễn của chúng được hợp nhất trước phép chiếu đầu ra của khối. Thiết kế này cung cấp khả năng mở rộng theo thời gian tuyến tính của Mamba cho các chuỗi cực kỳ dài, đồng thời bảo tồn khả năng mô hình hóa phạm vi xa chính xác của sự chú ý. Đối với tiếng Ả Rập, với hình thái phong phú và cấu trúc câu linh hoạt, cách tiếp cận này cải thiện đáng kể sự mạch lạc và suy luận trên văn bản mở rộng. Chúng tôi đã triển khai kiến trúc này trên ba quy mô (3B, 7B, 34B tham số), mỗi quy mô cân bằng giữa năng lực, hiệu quả và khả năng triển khai cho các trường hợp sử dụng khác nhau, từ thiết bị biên đến ứng dụng doanh nghiệp.
Phá vỡ ranh giới ngữ cảnh
Chúng tôi đã tăng đáng kể khả năng ngữ cảnh từ giới hạn 32K của Falcon-Arabic lên 128K token cho mô hình 3B và 256K token cho cả hai mô hình 7B và 34B. Với 256K token (khoảng 200.000 từ), các mô hình này có thể xử lý nhiều tiểu thuyết hoặc hàng trăm trang tài liệu kỹ thuật, cho phép các ứng dụng trong phân tích pháp lý, hồ sơ y tế, nghiên cứu học thuật và các cuộc trò chuyện kéo dài trước đây không khả thi. Việc tinh chỉnh sau đào tạo của chúng tôi đặc biệt giải quyết các thách thức “lạc trong giữa” để đảm bảo mô hình sử dụng hiệu quả toàn bộ phạm vi ngữ cảnh của chúng, không chỉ chấp nhận đầu vào dài.
Chất lượng và Đa dạng Dữ liệu: Nền tảng của Sự xuất sắc
Chúng tôi đã xây dựng lại quy trình dữ liệu tiền huấn luyện từ đầu để phản ánh tốt hơn sự phức tạp của tiếng Ả Rập. Điều này bắt đầu bằng một quy trình lọc chất lượng đa giai đoạn được tùy chỉnh cho chính tả, hình thái học, dấu phụ âm và các mẫu cú pháp tiếng Ả Rập. Thay vì lọc dựa trên heuristic, chúng tôi đã sử dụng phân tích ngôn ngữ sâu để cô lập văn bản mạch lạc, có cấu trúc tốt và loại bỏ nhiễu thường thấy trong các tập dữ liệu web mở. Kết quả là một tập dữ liệu tiếng Ả Rập sạch hơn, nhất quán hơn về mặt phong cách.
Phạm vi phương ngữ là một ưu tiên quan trọng khác. Tiếng Ả Rập không đơn nhất; Tiếng Ả Rập Hiện đại Chuẩn cùng tồn tại với các phương ngữ như Ai Cập, Levant, Vùng Vịnh và Maghreb, mỗi phương ngữ có từ vựng và cấu trúc ngữ pháp riêng biệt. Chúng tôi đã mở rộng đáng kể các nguồn phương ngữ để các mô hình có thể hiểu và tạo ra toàn bộ phạm vi tiếng Ả Rập thực tế thay vì chỉ dựa vào tiếng MSA trang trọng. Để duy trì khả năng suy luận toàn cầu và đa dạng lĩnh vực, chúng tôi cũng đã giữ lại khả năng đa ngôn ngữ của Falcon-H1 bằng cách huấn luyện các mô hình tiếng Ả Rập trên một hỗn hợp gần như bằng nhau gồm nội dung tiếng Ả Rập, tiếng Anh và đa ngôn ngữ, với tổng cộng khoảng 300 tỷ token. Điều này đảm bảo hiệu suất mạnh mẽ trong mã, STEM và suy luận đa ngôn ngữ. Hình sau đây minh họa sự phân phối của dữ liệu tiền huấn luyện trên các ngôn ngữ và danh mục. Tất cả các giá trị được biểu thị bằng tỷ tỷ token.
Tinh chỉnh sau đào tạo: Hoàn thiện Khả năng mà không làm tổn hại Năng lực
Sau giai đoạn tiền huấn luyện, Falcon-H1-Arabic trải qua một quy trình tinh chỉnh tập trung bao gồm tinh chỉnh có giám sát (SFT) theo sau là tối ưu hóa sở thích trực tiếp (DPO). Trong SFT, chúng tôi cung cấp cho các mô hình các chỉ dẫn tiếng Ả Rập chất lượng cao, các ví dụ về ngữ cảnh dài được tuyển chọn và các nhiệm vụ suy luận có cấu trúc, dạy chúng tuân theo chỉ dẫn, duy trì sự mạch lạc trên các chuỗi dài và dựa trên phản hồi của chúng vào thông tin liên quan. Giai đoạn này rất quan trọng để đảm bảo rằng các mô hình thực sự có thể sử dụng cửa sổ ngữ cảnh lớn của chúng, điều này không tự động xuất hiện từ kiến trúc.
Chúng tôi theo sau SFT bằng giai đoạn DPO có mục tiêu để hoàn thiện sự liên kết, chất lượng hội thoại và tính nhất quán về sở thích. DPO giúp các mô hình cân bằng suy luận ngữ cảnh dài với năng lực ngôn ngữ chung, cải thiện tính hữu ích và giảm các lỗi phổ biến như trôi dạt, lạm dụng ngữ cảnh hoặc bỏ qua thông tin trước đó. Trong cả hai giai đoạn, chúng tôi cẩn thận theo dõi sự quên lãng thảm khốc và duy trì một chương trình giảng dạy có kiểm soát để những cải tiến trong hành vi ngữ cảnh dài không làm tổn hại đến suy luận cốt lõi hoặc độ chính xác thực tế. Kết quả là một dòng mô hình xử lý tài liệu và hội thoại mở rộng một cách dễ dàng, đồng thời duy trì hiệu suất mạnh mẽ trong các tác vụ ngôn ngữ hàng ngày.
Ngoài việc tối ưu hóa dựa trên điểm chuẩn, quy trình tinh chỉnh của chúng tôi còn củng cố một cách có chủ ý các lĩnh vực mà các đánh giá truyền thống không nắm bắt đầy đủ, bao gồm tính trung thực của hội thoại, tổ chức hùng biện, các bước theo dõi có cấu trúc và sự mạch lạc của diễn ngôn. Những cải tiến này giúp tăng đáng kể tính hữu dụng thực tế của mô hình, làm cho Falcon-H1-Arabic trở nên đáng tin cậy hơn trong các cuộc hội thoại đa lượt thực tế, thực thi chỉ dẫn và các luồng hội thoại ngữ cảnh dài.
Hiệu suất Benchmark: Thiết lập Tiêu chuẩn Mới
Các con số kể một phần quan trọng của câu chuyện. Trên Open Arabic LLM Leaderboard (OALL), một benchmark toàn diện đánh giá khả năng hiểu ngôn ngữ tiếng Ả Rập trên các tác vụ đa dạng, Falcon-H1-Arabic đạt được kết quả hàng đầu ở mọi quy mô chúng tôi đã kiểm tra. Lưu ý rằng điểm số của chúng tôi có thể hơi khác so với những điểm được báo cáo trên bảng xếp hạng, vì chúng tôi đã sử dụng vLLM làm backend thay vì triển khai dựa trên Accelerate của bảng xếp hạng. Những khác biệt này thường dưới một điểm, đồng thời mang lại thời gian chạy nhanh hơn đáng kể.
Ngoài OALL, chúng tôi cũng báo cáo kết quả trên benchmark 3LM cho các tác vụ liên quan đến STEM trên cả hai tập dữ liệu tổng hợp và gốc; Arabculture để đánh giá văn hóa Ả Rập; và AraDice cho phạm vi phương ngữ tiếng Ả Rập trên các biến thể Levant và Ai Cập cũng như văn hóa Ả Rập trên 6 quốc gia. Điểm AraDice được báo cáo là điểm trung bình của tất cả 3 điểm.
Ứng dụng Thực tế: Từ Biên đến Doanh nghiệp
Mỗi mô hình trong dòng Falcon-H1-Arabic đều phù hợp với các kịch bản triển khai khác nhau. Mô hình 3B được tối ưu hóa cho tốc độ, hiệu quả chi phí và các hệ thống thông lượng cao, làm cho nó trở nên lý tưởng cho quy trình làm việc tác nhân, ứng dụng trên thiết bị, trò chuyện độ trễ thấp và các môi trường có ràng buộc tài nguyên nghiêm ngặt. Mô hình 7B đóng vai trò là công cụ đa năng cho hầu hết các ứng dụng sản xuất, cung cấp năng lực cho các hệ thống hiểu tài liệu, chatbot, quy trình tóm tắt và các công cụ tạo nội dung. Mô hình 34B được thiết kế cho các lĩnh vực có độ rủi ro cao, nơi độ chính xác và suy luận phạm vi xa quan trọng nhất, bao gồm phân tích pháp lý, tóm tắt y tế, nghiên cứu học thuật và tự động hóa doanh nghiệp quy mô lớn. Cửa sổ ngữ cảnh mở rộng của nó làm cho nó có khả năng xử lý hàng trăm trang văn bản trong một lần truyền tải duy nhất, đồng thời duy trì sự mạch lạc chính xác.
AI có Trách nhiệm và Hạn chế
Giống như tất cả các mô hình ngôn ngữ, Falcon-H1-Arabic có thể phản ánh thành kiến từ dữ liệu đào tạo và có thể tạo ra thông tin bị ảo giác. Đầu ra của mô hình không nên được sử dụng làm cơ quan duy nhất cho các quyết định y tế, pháp lý hoặc tài chính mà không có xác minh chuyên nghiệp. Hiệu suất ngữ cảnh dài có thể suy giảm ở các phạm vi cực đoan. Chúng tôi khuyên bạn nên đánh giá theo tác vụ và các biện pháp bảo vệ phù hợp trước khi triển khai trong các ứng dụng sản xuất hoặc nhạy cảm.
Lời cảm ơn
Công việc này đứng trên vai nhiều người. Chúng tôi gửi lời cảm ơn đến cộng đồng nghiên cứu NLP tiếng Ả Rập, những người đã chia sẻ cởi mở các benchmark, tập dữ liệu và phương pháp luận, tạo điều kiện cho sự tiến bộ trong toàn lĩnh vực. Đặc biệt cảm ơn các đồng nghiệp của chúng tôi tại TII: Ilyas Chahed, Younes Belkada, Dhia Eddine Rhaiem, Puneesh Khanna, Jingwei Zuo, Mikhail Lubinets, Slim Frikha, Maksim Velikanov, Kacper Piskorski và Suhail Mohmad vì sự hỗ trợ vô giá của họ trong dự án này.
Trích dẫn
bibtex @misc{Falcon-H1-Arabic-2025, title={Falcon-H1-Arabic: State-of-the-Art Arabic Language Models with Hybrid Mamba-Transformer Architecture}, author={Basma El Amel Boussaha and Mohammed Alyafeai and Ahmed Alzubaidi and Leen AlQadi and Shaikha Alsuwaidi and Omar Alkaabi and Hamza Alobeidli and Hakim Hacid}, url={https://huggingface.co/blog/tiiuae/falcon-h1-arabic}, month={December}, year={2025}, note={Available in 3B, 7B, and 34B parameter versions} }
- NB: điểm số của ALLaM-7B-Instruct-preview trong đánh giá của chúng tôi cao hơn so với những điểm được báo cáo trên OALL leaderboard, vì chúng tôi đã sử dụng phiên bản mới nhất (7b-alpha-v2.33.0.30), trong khi bảng xếp hạng hiện đang phản ánh kết quả từ phiên bản cũ hơn (7b-alpha-v1.27.2.25).
Link bài viết gốc
- Tags:
- Ai
- 05 January 2026
- Huggingface.co