Apriel-1.6-15b-Thinker- Hiệu suất đa phương thức tiên phong hiệu quả về chi phí
Apriel-1.6-15b-Thinker- Hiệu suất đa phương thức tiên phong hiệu quả về chi phí
- 13 min read
Apriel-1.6-15b-Thinker: Hiệu suất đa phương thức hiệu quả về chi phí ở biên giới
Chúng tôi giới thiệu Apriel-1.6-15b-Thinker, một mô hình đa phương thức có 15 tỷ tham số, thuộc dòng Apriel SLM của ServiceNow. Mô hình này đạt hiệu suất SOTA (State-of-the-Art) so với các mô hình lớn gấp 10 lần. Apriel-1.6 được xây dựng dựa trên Apriel-1.5-15b-Thinker, tập trung nâng cao khả năng suy luận văn bản và hình ảnh, đồng thời cải thiện hiệu quả sử dụng token. Phiên bản này được huấn luyện trên NVIDIA DGX™ Cloud với các siêu chip GB200 Grace™ Blackwell.
Apriel-1.6 đạt 57 điểm trên Artificial Analysis Index, vượt trội so với các mô hình như Gemini 2.5 Flash, Claude Haiku 4.5 và GPT OSS 20b. Nó có điểm số tương đương với Qwen3 235B A22B, trong khi hiệu quả hơn đáng kể. Phiên bản mới này cải thiện hoặc duy trì hiệu suất nhiệm vụ so với Apriel-1.5-15B-Thinker [1], đồng thời giảm hơn 30% việc sử dụng token cho suy luận.

Huấn luyện giữa kỳ
Chúng tôi tuân theo quy trình huấn luyện tổng thể tương tự như Apriel-1.5-15B-Thinker, bao gồm giai đoạn tăng cường chiều sâu và sau đó là hai giai đoạn Huấn luyện liên tục (CPT) (chi tiết tại [1]). Tập dữ liệu tăng cường chiều sâu bao gồm 35% dữ liệu từ nhiều nguồn đa dạng, bao gồm nội dung web chất lượng cao, tài liệu khoa học và kỹ thuật, bộ bài toán toán học và mã lập trình; 15% dữ liệu chất lượng cao từ NVIDIA Nemotron™; và 50% dữ liệu còn lại theo phong cách huấn luyện trước đóng vai trò là bản ghi nhớ.
Đối với Apriel-1.6-15B-Thinker, chúng tôi đã mở rộng hỗn hợp CPT Giai đoạn 1, tập trung vào việc tăng cường khả năng suy luận văn bản và hiểu hình ảnh, với các mẫu chỉ văn bản bổ sung và các cặp hình ảnh-văn bản. Dữ liệu văn bản mới hoàn toàn là tổng hợp, bao gồm suy luận chung, kiến thức, mã hóa và viết sáng tạo, trong khi phần đa phương thức bao gồm hiểu tài liệu và biểu đồ, OCR, các tác vụ suy luận thị giác và tổng hợp mã web/SVG.
Sau Giai đoạn 1, chúng tôi thực hiện một lần chạy CPT chỉ văn bản với độ dài chuỗi mở rộng là 49K và sau đó chạy Giai đoạn 2 để tinh chỉnh thêm khả năng suy luận thị giác của mô hình. Sự kết hợp này đã tạo ra một mô hình cơ sở mạnh mẽ, cung cấp nền tảng vững chắc cho các giai đoạn sau huấn luyện. Việc huấn luyện cho quy trình giữa kỳ này đòi hỏi khoảng 10.000 giờ GPU trên GB200 của NVIDIA, một dấu chân tính toán nhỏ nhờ thông lượng cao của chúng và phù hợp với mục tiêu của chúng tôi là xây dựng các mô hình mạnh mẽ với tài nguyên hạn chế thông qua chiến lược dữ liệu và phương pháp huấn luyện cẩn thận.
Sau huấn luyện
Sử dụng mô hình đã được huấn luyện giữa kỳ, chúng tôi thực hiện sau huấn luyện theo một quy trình bao gồm Huấn luyện Sâu (SFT) quy mô lớn và Học tăng cường (RL) nhắm mục tiêu cả khả năng thị giác và văn bản.
Siêu huấn luyện có giám sát (SFT)
Giai đoạn Siêu huấn luyện có giám sát (SFT) của chúng tôi tập trung vào việc cải thiện chất lượng suy luận của Apriel-1.6 bằng cách huấn luyện trên một tập dữ liệu được tuyển chọn tỉ mỉ gồm 2,4 triệu mẫu văn bản có tín hiệu cao. Mỗi ví dụ bao gồm các dấu vết suy luận chi tiết, theo từng bước, cho phép mô hình nội hóa các quy trình suy luận minh bạch thay vì chỉ sao chép câu trả lời cuối cùng.
Để xây dựng tập dữ liệu này, chúng tôi đã kết hợp các mẫu tổng hợp có thể xác minh bằng thực thi cho toán học, mã hóa và giải quyết vấn đề khoa học với hỗn hợp rộng các mẫu tuân theo hướng dẫn, hội thoại, gọi API/hàm, viết sáng tạo, an toàn và các mẫu chuyên sâu về kiến thức khác. Chất lượng dữ liệu được coi là ưu tiên hàng đầu: mỗi mẫu đều trải qua quá trình loại bỏ trùng lặp nhiều giai đoạn, lọc nội dung, loại bỏ chất lượng dựa trên heuristic, xác thực LLM-as-Judge, xác minh dựa trên thực thi (nếu có thể áp dụng) và khử nhiễm nghiêm ngặt đối với các điểm chuẩn đánh giá.
SFT được thực hiện trong hai giai đoạn, cả hai đều được huấn luyện ở độ dài ngữ cảnh 32K. Trong giai đoạn đầu, chúng tôi đã chạy một lần huấn luyện chỉ văn bản quy mô lớn trên 2,4 triệu mẫu trong 4 epoch. So với Apriel-1.5-15b-Thinker, chúng tôi đã đơn giản hóa mẫu trò chuyện bằng cách xóa các thẻ dư thừa và giới thiệu bốn token đặc biệt vào trình mã hóa (<tool_calls>, </tool_calls>, [BEGIN FINAL RESPONSE], <|end|>) để dễ dàng phân tích đầu ra.
Giai đoạn thứ hai là một lần chạy đa phương thức nhẹ, được huấn luyện trong 3 epoch, sử dụng dữ liệu được lấy mẫu từ Apriel-1.5-15b-Thinker để đảm bảo mô hình duy trì hiệu suất mạnh mẽ trên đầu vào hình ảnh sau khi giới thiệu các token đặc biệt này, đồng thời chuẩn bị cho nó các giai đoạn RL tiếp theo.
Cách tiếp cận này đã cung cấp cho chúng tôi một nền tảng SFT mạnh mẽ, chất lượng cao mà trên đó quy trình RL của chúng tôi có thể hoạt động hiệu quả. Mô hình thu được thể hiện khả năng hiểu đa phương thức mạnh mẽ, cải thiện khả năng suy luận văn bản và hành vi đại lý nâng cao.
Học tăng cường (RL)
Chúng tôi áp dụng thiết lập RL đa giai đoạn tập trung vào việc đồng thời cải thiện khả năng suy luận và hiệu quả. Chúng tôi huấn luyện mô hình trên các miền hình ảnh như suy luận thị giác, trả lời câu hỏi thị giác chung (VQA) và nhận dạng ký tự quang học (OCR). Dữ liệu huấn luyện của chúng tôi cũng bao gồm dữ liệu trên các miền khác nhau, chẳng hạn như câu hỏi đơn giản (để khuyến khích câu trả lời ngắn gọn, trực tiếp cho các truy vấn dễ dàng), toán học (suy luận số), STEM (câu hỏi khoa học trắc nghiệm) và gọi hàm (sử dụng công cụ có cấu trúc).
Phần thưởng được trao cho tính đúng đắn của phản hồi, cùng với các hình phạt cho hành vi không mong muốn, chẳng hạn như dài dòng, định dạng sai, v.v. Nhìn chung, thiết lập của chúng tôi được thiết kế để cải thiện khả năng suy luận của mô hình trong khi sử dụng ít token suy luận hơn, khuyến khích nó tránh các bước trung gian không cần thiết, dừng sớm hơn khi tự tin và trả lời trực tiếp hơn cho các truy vấn đơn giản.
Việc huấn luyện được thực hiện bằng hàm mất mát Tối ưu hóa Chính sách Chuỗi Nhóm (GSPO) [2] sử dụng framework VeRL và xác minh dựa trên quy tắc.
Đánh giá
Chúng tôi đánh giá Apriel-1.6 trên một bộ đánh giá đại diện với trọng tâm chính vào suy luận toán học, trả lời câu hỏi thị giác, suy luận logic, các nhiệm vụ liên quan đến STEM và suy luận dựa trên biểu đồ. Tất cả các đánh giá đều được thực hiện bằng VLMEvalkit. Apriel-1.6 cải thiện so với phiên bản tiền nhiệm với 4 điểm về điểm trung bình của 13 điểm chuẩn trong Chỉ số Hình ảnh, bao gồm các điểm chuẩn sau: MathVision, MathVista, MMMU (xác thực), MMMU-Pro (10 lựa chọn COT), MMMU-Pro (Chỉ thị giác COT), MathVerse (Ưu thế Thị giác), MathVerse (Ưu thế Văn bản), MMStar, BLINK, LogicVista, CharXiV (mô tả), CharXiV (suy luận), AI2D (kiểm tra).

Đánh giá Văn bản
Chúng tôi đánh giá Apriel-1.6 trên các miền khác nhau như sử dụng công cụ, toán học, mã hóa, tuân theo hướng dẫn và ngữ cảnh dài.
- Các điểm chuẩn văn bản được bao gồm trong Chỉ số Phân tích Trí tuệ Nhân tạo v3.0 sử dụng điểm số do Artificial Analysis báo cáo. Tất cả các điểm chuẩn khác được đánh giá nội bộ.
| Danh mục | Điểm chuẩn | Apriel-1.6-15B-Thinker | Apriel-1.5-15B-Thinker | GPT OSS 120B | DeepSeek R1 0528 | Gemini 2.5 Flash (Sep) | GPT 5 mini (high) | Claude 4.5 Sonnet (thinking) | o3-mini (high) |
|---|---|---|---|---|---|---|---|---|---|
| Điểm trung bình** | 53.22 | 46.56 | 52.56 | 51.92 | 50.71 | 62.58 | 60.37 | 48.85 | |
| Gọi hàm | |||||||||
| BFCL v3 only | 63.50 | 51.88 | 50.62 | 39.75 | 39.75 | 17.62 | - | 50 | |
| Tau2 bench Telecom | 69 | 57.8 | 66 | 37 | 32 | 68 | 50.8 | 31 | |
| Tau2 bench Retail | 66.67 | 46.78 | 61.4 | 59.94 | 61.69 | 73.39 | 69.8 | 75.73 | |
| Tau2 bench Airline | 58 | 52 | 45.3 | 47.33 | 56.66 | 59.33 | 58 | 61.33 | |
| ComplexFuncBench | 33.2 | 19 | 24.6 | 24.2 | 26.3 | 37.5 | 24.6 | 18.9 | |
| Tuân theo hướng dẫn | |||||||||
| Agent IF | 57.2 | 55 | 54.20 | 52.20 | 49.70 | 57.60 | 54.50 | 54.90 | |
| Multi IF | 83.34 | 76.91 | 82.95 | 73.76 | 82.49 | 85.37 | 84.32 | 87.28 | |
| Multi-Challenge | 46.15 | 41.39 | 46.90 | 44.50 | 49.08 | 57.90 | 42.49 | 38.46 | |
| IF Bench | 69 | 62 | 69 | 40 | 50 | 75 | 57 | 70.07 | |
| Toán học | |||||||||
| AIME 25 | 88 | 88 | 93 | 76 | 73 | 91 | 88 | 86.67 | |
| Mã hóa | |||||||||
| Struct Eval | 79 | 48.50 | 71 | 73 | 70 | 69.92 | 76 | 73 | |
| LCB | 81 | 73 | 88 | 77 | 70 | 84 | 71 | 73 | |
| SciCode | 37 | 35 | 39 | 40 | 41 | 39 | 45 | 40 | |
| Đại lý | |||||||||
| DeepresearchBench | 36.47 | 32.73 | 36.30 | 34.19 | 38.15 | - | - | 33.40 | |
| GAIA | 40 | 30.91 | 21.21 | 32.12 | 47.88 | 65.45 | 69.09 | 23.03 | |
| Work-Arena L1 | 50.2 | 51.5 | 50.9 | 63.9 | 51.8 | 65.5 | 62.7 | 52.4 | |
| OS World Small | 16.70 | 13.90 | 16.70 | 25 | 19.40 | 22.20 | 30.60 | 19.40 | |
| SWE Bench Verified | 23 | 16 | 31 | 29.60 | 34.20 | 61 | 64.2 | 22.60 | |
| Terminal Bench | 14 | 10 | 22 | 15 | 13 | 31 | 33 | 5.67 | |
| Aider Polyglot | 37.68 | 26.37 | 42 | 71.40 | 40 | 71.60 | 78 | 60.40 | |
| Kiến thức | |||||||||
| MMLU Pro | 79 | 77 | 81 | 85 | 83 | 84 | 88 | 80 | |
| Viết sáng tạo | |||||||||
| Creative writing v3 / EQ Bench | 59.73 | 60.24 | 53.70 | 79.40 | 74.25 | 75.25 | 80.70 | 30.40 | |
| Khác | |||||||||
| GPQA Diamond | 73 | 71 | 78 | 81 | 79 | 83 | 83 | 77 | |
| HLE | 10 | 12 | 18.5 | 14.9 | 11.1 | 19.7 | 17.3 | 12.3 | |
| Ngữ cảnh dài | |||||||||
| AA LCR | 50* | 20 | 51 | 55 | 62 | 68 | 66 | 30*** |
* Điểm số này có kích hoạt DCA. Nếu không có, mô hình đạt 36 điểm.
** Điểm trung bình được tính bằng cách sử dụng tất cả các điểm chuẩn ngoại trừ BFCL v3 Only và DeepResearchBench, vì một số mô hình không có điểm số cho hai điểm chuẩn này.
*** Điểm AA LCR cho o3-mini-high là điểm dự kiến dựa trên điểm AA Index của nó.
Đánh giá hình ảnh
Chúng tôi đánh giá mô hình Apriel-1.6 trên một bộ đánh giá đại diện với trọng tâm chính vào suy luận toán học, trả lời câu hỏi thị giác, suy luận logic, các nhiệm vụ liên quan đến STEM và suy luận dựa trên biểu đồ. Tất cả các đánh giá đều được thực hiện bằng VLMEvalkit. Apriel-1.6 cải thiện so với phiên bản tiền nhiệm với 4 điểm về điểm trung bình của 13 điểm chuẩn trong Chỉ số Hình ảnh.
Hiệu suất biên hiệu quả về chi phí

Apriel-1.6-15B-Thinker nằm ở điểm ngọt của biên hiệu quả về chi phí. Nó mang lại điểm số trí tuệ cạnh tranh hoặc vượt trội so với các mô hình lớn hơn nhiều trong khi chỉ sử dụng 15B tham số. Trên biểu đồ, nó nằm chắc chắn trong góc phần tư hấp dẫn nhất, cân bằng hiệu quả với khả năng suy luận hàng đầu. Trên thực tế, điều này có nghĩa là Apriel-1.6-15B-Thinker mang lại hiệu suất mạnh mẽ và suy luận sâu sắc với chi phí tính toán và triển khai chỉ bằng một phần nhỏ so với các đối thủ cạnh tranh hạng nặng, làm cho nó trở thành một lựa chọn đặc biệt hiệu quả cho thế giới thực, đặc biệt trong các ứng dụng doanh nghiệp.

Quá trình sau huấn luyện của chúng tôi tập trung mạnh vào việc cải thiện hiệu quả sử dụng token suy luận. Hình ảnh trên cho thấy điểm số trí tuệ so với việc sử dụng token làm nổi bật hiệu quả sau huấn luyện của chúng tôi. Apriel-1.6-15B-Thinker một lần nữa nằm trong góc phần tư hấp dẫn nhất. Mô hình đạt điểm Chỉ số Trí tuệ Phân tích Trí tuệ cao trong khi sử dụng ít token hơn nhiều so với nhiều mô hình có khả năng tương tự hoặc lớn hơn. So với Apriel-1.5-15b-Thinker [1], chúng tôi đã giảm hơn 30% việc sử dụng token.
Nhìn chung, Apriel-1.6 là một mô hình có khả năng suy luận cao, duy trì các đặc tính về bộ nhớ và hiệu quả cần thiết cho việc triển khai doanh nghiệp.
Lời cảm ơn
Chúng tôi xin chân thành cảm ơn những người sau đây vì những đóng góp của họ: Varun Pandey, Shashank Maiya, Dhruv Jhamb, Massimo Caccia, Dheeraj Vattikonda, Nicolas Gontier, Patrice Bechard, Tayfun Tuna, Kavya Sriram, Denis Akhiyarov, Hari Subramani, Tara Bogavelli.
Ghi chú và hạn chế
Chúng tôi là một phòng thí nghiệm nhỏ với những mục tiêu lớn. Mặc dù chúng tôi không thiếu GPU, phòng thí nghiệm của chúng tôi có một phần nhỏ tài nguyên tính toán so với các phòng thí nghiệm Biên giới khác. Mục tiêu của chúng tôi với công việc này là chứng minh rằng một mô hình SOTA có thể được xây dựng với các tài nguyên hạn chế nếu bạn có dữ liệu, thiết kế và phương pháp luận vững chắc phù hợp.
Chúng tôi đặt mục tiêu xây dựng một mô hình nhỏ nhưng mạnh mẽ, nhắm đến khả năng ngang bằng với các mô hình biên giới. Việc phát triển một mô hình 15B với hiệu suất này đòi hỏi sự đánh đổi, vì vậy chúng tôi ưu tiên đạt được hiệu suất cấp SOTA và cải thiện hiệu quả token suy luận.
Mô hình này được huấn luyện để thực hiện suy luận chuyên sâu cho các câu hỏi khó và nỗ lực suy luận ít hơn cho các câu hỏi đơn giản hơn. Chúng tôi luôn tích cực làm việc để làm cho các mô hình của chúng tôi hiệu quả và súc tích hơn trong các bản phát hành trong tương lai.
Mô hình có một vài hạn chế liên quan đến thị giác cần lưu ý. Các hình ảnh phức tạp hoặc chất lượng thấp có thể làm giảm độ chính xác của OCR, các cảnh dày đặc (như đám đông hoặc nhiều đối tượng tương tự) có thể làm cho các chi tiết nhỏ và biểu đồ khó hiểu hơn, và các biểu đồ có định dạng bất thường hoặc chi tiết cao đôi khi có thể dẫn đến việc diễn giải không hoàn hảo. Nó cũng có thể kém chính xác hơn với việc định vị thị giác chi tiết, vì vậy các dự đoán hộp giới hạn đôi khi có thể gần đúng hoặc không nhất quán.
Tài liệu tham khảo
[1] Radhakrishna, S., Tiwari, A., Shukla, A., Hashemi, M., Maheshwary, R., Malay, S.K.R., Mehta, J., Pattnaik, P., Mittal, S., Slimi, K., Ogueji, K., Oladipo, A., Parikh, S., Bamgbose, O., Liang, T., Masry, A., Mahajan, K., Mudumba, S.R., Yadav, V., Madhusudhan, S.T., Scholak, T., Davasam, S., Sunkara, S. và Chapados, N., 2025. Apriel-1.5-15b-Thinker. Bản thảo arXiv arXiv:2510.01141.
[2] Zheng, C., Liu, S., Li, M., Chen, X.-H., Yu, B., Gao, C., Dang, K., Liu, Y., Men, R., Yang, A., Zhou, J. và Lin, J., 2025. Tối ưu hóa Chính sách Chuỗi Nhóm. Bản thảo arXiv arXiv:2507.18071.
Link bài viết gốc
- Tags:
- Ai
- 9 December 2025
- Huggingface.co