Apriel-H1- Chìa khóa bất ngờ để chưng cất các mô hình suy luận hiệu quả
Apriel-H1- Chìa khóa bất ngờ để chưng cất các mô hình suy luận hiệu quả
- 13 min read
Apriel-H1: Chìa khóa bất ngờ để chắt lọc các mô hình suy luận hiệu quả
Chúng tôi đã chuyển đổi mô hình suy luận 15B của mình thành một mô hình lai Mamba, đạt được thông lượng gấp 2,1 lần với tổn thất chất lượng tối thiểu. Bí quyết? Một cái nhìn sâu sắc không hiển nhiên về loại dữ liệu cần chắt lọc và tại sao trực giác lại thất bại ở đây.
Khi MiniMax xuất bản bài viết phân tích M2 của họ vào tháng 10, giải thích lý do họ từ bỏ cơ chế chú ý hiệu quả ở quy mô 230B, câu chuyện tạm thời trở thành “cơ chế chú ý hiệu quả đã chết”. Trong vòng vài ngày, Kimi Linear đã chứng minh điều ngược lại. Bài học thực sự: nó phụ thuộc vào các ràng buộc của bạn.
Ràng buộc của chúng tôi rất đơn giản: chúng tôi có một mô hình suy luận 15B mạnh mẽ và cần làm cho nó hiệu quả mà không cần bắt đầu lại. Không có đủ sức mạnh tính toán vô hạn để huấn luyện trước 20T token. Không có sự xa xỉ của việc thiết kế kiến trúc đồng thời ngay từ đầu. Chỉ là một câu hỏi thực tế: liệu bạn có thể trang bị thêm hiệu quả cho một mô hình hiện có thông qua quá trình chắt lọc không?
Tiết lộ: có, nhưng chỉ khi bạn bỏ qua trực giác của mình về loại dữ liệu cần sử dụng.
Những gì chúng tôi đã xây dựng
Gia đình Apriel-H1: bảy điểm kiểm tra trải dài từ 25-40 lớp Mamba (trong tổng số 50), thể hiện đường biên hiệu quả-chất lượng hoàn chỉnh. Mô hình hàng đầu của chúng tôi Apriel-H1-15b-Thinker-SFT đạt được thông lượng gấp 2,1 lần với tổn thất chất lượng tối thiểu: MATH500 và MTBench cải thiện vài điểm (0,90 → 0,92 và 8,30 → 8,58, tương ứng), trong khi GSM8k (0,97 → 0,95), GPQA (0,59 → 0,55) và AIME24 (0,70 → 0,65) giảm nhẹ. Tổng huấn luyện: 76,8B token.
Apriel-H1-15b-Thinker-SFT (màu xanh lá cây) so với giáo viên chú ý đầy đủ (màu xanh lam). Chất lượng suy luận gần như không đổi trên các bộ đánh giá trong khi thông lượng tăng gấp 1,89-2,09 lần tùy thuộc vào độ dài ngữ cảnh.
Chi tiết đầy đủ có trong bài báo Apriel-H1 của chúng tôi. Ở đây, chúng tôi tập trung vào cái nhìn sâu sắc quan trọng đã làm cho nó hoạt động.
Cái nhìn sâu sắc không hiển nhiên
Đây là những gì chúng tôi ban đầu nghĩ sẽ hiệu quả: chỉ cần chắt lọc dữ liệu huấn luyện trước và bổ sung thêm một số SFT.
Lý do có vẻ vững chắc. Chúng tôi đang chèn các lớp Mamba hoàn toàn mới chưa từng thấy dữ liệu. Các SSM tuyến tính này cần học cách trộn token đa năng từ đầu. Làm thế nào chúng có thể trở thành bộ trộn hiệu quả trừ khi chúng tiếp xúc với cùng một phân phối rộng mà các lớp chú ý ban đầu đã thấy?
Vì vậy, chúng tôi đã thử. Sau đó, chúng tôi đã thử trộn dữ liệu huấn luyện trước và SFT. Nó không hiệu quả. Các mô hình lai được chắt lọc đã mất đi chất lượng suy luận, đôi khi rất đáng kể.
Thứ thực sự hiệu quả: các chuỗi suy luận chất lượng cao từ tập dữ liệu SFT của giáo viên.
Việc chắt lọc một mô hình suy luận không phải là về việc chuyển giao khả năng dự đoán token tiếp theo chung chung. Mô hình cơ sở đã có điều đó và chúng tôi bắt đầu từ một nền tảng 15B mạnh mẽ. Những gì chúng tôi đang bảo tồn là cụ thể và mong manh: các mẫu suy luận đa bước của giáo viên.
Những mẫu đó xuất hiện từ các cơ chế chú ý phức tạp. Các đầu truy xuất kéo ngữ cảnh từ hàng nghìn token trở lại. Các đầu quy nạp nhận dạng và tiếp tục chuỗi logic. Sự phụ thuộc tầm xa kết nối các tiền đề với kết luận nhiều bước sau đó. Khi bạn thay thế hoàn toàn cơ chế chú ý bằng sự lặp lại tuyến tính của Mamba, các cơ chế tính toán này bị gián đoạn. Mô hình lai phải khám phá những con đường mới để đạt được cùng một kết quả suy luận.
Việc khám phá đó đòi hỏi các ví dụ rõ ràng nơi cấu trúc suy luận có thể nhìn thấy và chính xác:
- Các bằng chứng toán học nhiều bước, trong đó mỗi ý nghĩ tuân theo ý nghĩ trước đó
- Các tác vụ mã hóa với các phụ thuộc logic rõ ràng
- Phân tích khoa học với các chuỗi giải thích chi tiết
Mặt khác, dữ liệu huấn luyện trước quá nhiễu và quá khuếch tán. Tín hiệu suy luận bị mất. Bạn cần các ví dụ tập trung về khả năng cụ thể mà bạn đang cố gắng bảo tồn.
Sau khi chúng tôi hiểu được lựa chọn dữ liệu, phương pháp chắt lọc của chúng tôi cũng trở nên rõ ràng. Chúng tôi đã sử dụng phân kỳ KL ngược (nhiệt độ 1) thay vì KL tiến. Chế độ ngược đã thắng một cách nhất quán. Tại sao? Chúng tôi đang đào tạo trên các vấn đề mà giáo viên có độ tin cậy cao và cấu trúc rõ ràng. Hành vi tìm kiếm chế độ của KL ngược khuyến khích học sinh cam kết với các dự đoán có độ tin cậy cao đó. Khi giáo viên của bạn tự tin và chính xác, bạn muốn học sinh của mình cũng tự tin.
Cái nhìn sâu sắc này là chìa khóa cho toàn bộ phương pháp: khớp dữ liệu chắt lọc của bạn với khả năng bạn đang bảo tồn, không phải khả năng bạn đang xây dựng.
Cách áp dụng nó: Chắt lọc theo giai đoạn
Bạn không thể chỉ hoán đổi 40 lớp chú ý lấy Mamba và hy vọng. Chúng tôi đã học điều này theo cách khó khăn, và cuối cùng đã phát triển một quy trình chắt lọc theo giai đoạn để đạt được điều đó một cách đáng tin cậy.
Giai đoạn 1: Xác định các lớp ít quan trọng nhất. Chúng tôi đã sử dụng phân tích Leave-One-Out (LOO) trên MMLU: loại bỏ từng lớp, thay thế bằng lớp nhận dạng, sau đó đo lường mức độ suy giảm. Sắp xếp theo mức độ quan trọng, thay thế 25 lớp dưới cùng bằng các bộ trộn được khởi tạo Mamba-in-Llama (MIL). Chắt lọc đầu cuối. Điều này đã hoạt động với điểm kiểm tra H-25 của chúng tôi.
Giai đoạn 2: Chuyển đổi lũy tiến vượt quá 25 lớp. LOO đã bị phá vỡ sau 25 lớp vì các lớp không quan trọng một cách độc lập trở nên quan trọng khi kết hợp. Để giải quyết vấn đề này, chúng tôi đã phát triển một phương pháp heuristic động mà chúng tôi gọi là MMR (Mamba-Replacement-in-Llama). Đối với mỗi lớp chú ý còn lại, chúng tôi khởi tạo bộ trộn Mamba với MIL, chạy 100 bước huấn luyện và ghi lại tổn thất chắt lọc. Các lớp hội tụ về tổn thất thấp hơn “dễ” thay thế hơn. Điều này nắm bắt được động lực huấn luyện thay vì tầm quan trọng tĩnh.
Chúng tôi đã tiến hành từng bước: 25 → 27 → 30 → 34 → 37 → 40 lớp Mamba, nhóm các lần thay thế theo điểm MMR. Mỗi điểm kiểm tra được chắt lọc từ điểm trước đó.
Giai đoạn 3: Huấn luyện đầu cuối trên dữ liệu SFT. Sau khi đạt được số lượng lớp Mamba mục tiêu, chúng tôi đã thực hiện một lần SFT cuối cùng cho đến khi hiệu suất suy luận ổn định. Sau 55,9B token chắt lọc và 20,9B token SFT, điều này đã tạo ra mô hình Apriel-H1-15b-Thinker-SFT cuối cùng của chúng tôi.
Đường biên hiệu quả hoàn chỉnh. Mỗi điểm kiểm tra hiển thị token huấn luyện tích lũy. Hàng đầu của chúng tôi H-30-SFT (được phát hành dưới dạng Apriel-H1-15b-Thinker-SFT) đã sử dụng tổng cộng 76,8B cho thông lượng gấp 2,1 lần với điểm trung bình 0,76. Biến thể H-40 được chuyển đổi tích cực đã sử dụng 136,5B token cho thông lượng gấp 3,4 lần. Để tham khảo: Nemotron-Nano-9B-v2 của NVIDIA đạt 4,6 lần với điểm 0,77 nhưng yêu cầu huấn luyện từ đầu với lượng tính toán lớn hơn nhiều.
Làm cho nó có thể tái tạo: Fast-LLM
Chúng tôi đã xây dựng tất cả những điều này trên Fast-LLM, khung huấn luyện mã nguồn mở của chúng tôi. Nguyên tắc kiến trúc cốt lõi: các bộ biến đổi mô hình ngôn ngữ lớn nên có tính mô-đun. Cơ chế chú ý và Mamba là các triển khai khác nhau của cùng một giao diện “trộn lẫn”, và có thể hoán đổi tự do.
Đây là một kiến trúc lai ở định dạng cấu hình của Fast-LLM:
yaml decoder: type: “pattern” blocks: attention_block: mixer: type: “attention” heads: 32 head_groups: 8 head_size: 128 mlp: type: “gated” activation: “silu” mamba_block: mixer: type: “mamba” d_inner: 4096 state_size: 16 dt_rank: 16 mlp: type: “gated” activation: “silu” num_blocks: 50 pattern: [“attention_block”, “attention_block”, “mamba_block”, …]
Trường pattern chỉ định thứ tự lớp. Đối với Apriel-H1-15b-Thinker-SFT: 30 mamba_block, 20 attention_block, đặt theo mức độ quan trọng. Đó là tất cả.
Chắt lọc là cấu hình quá:
yaml model: base_model: head: distillation_model: teacher distillation_loss_implementation: reverse_kl reference_models: teacher: pretrained: format: mistral path: path/to/Apriel-Nemotron-15b-Thinker
Fast-LLM xử lý tích lũy gradient, huấn luyện phân tán, song song tensor, lưu điểm kiểm tra, mọi thứ bạn cần cho thử nghiệm quy mô lớn. Nó là mã nguồn mở, và được cấp phép theo Apache 2.0. Bạn có thể tái tạo công việc này vì chúng tôi đã thiết kế cơ sở hạ tầng để làm cho nó có thể tái tạo.
Câu hỏi thường gặp
Tại sao lại phát hành tất cả các điểm kiểm tra? Vì tối ưu phụ thuộc vào các ràng buộc của bạn. H-30 cung cấp sự cân bằng tốt nhất. H-40 tối đa hóa thông lượng cho các khối lượng công việc nhạy cảm với độ trễ. Các điểm kiểm tra trung gian cho phép bạn chọn sự đánh đổi chính xác của mình.
Tại sao bạn lại nhận được tốc độ tăng tốc khác nhau ở các độ dài ngữ cảnh khác nhau? Lợi thế độ phức tạp tuyến tính của Mamba tăng lên theo độ dài chuỗi và cơ chế chú ý giảm theo cấp số nhân.
Tại sao bạn chỉ thử Mamba? Chúng tôi đã sử dụng Mamba-1 vì ba lý do: nó có lịch sử chắt lọc đã được chứng minh, đã cho thấy hiệu suất thực nghiệm mạnh mẽ và dễ dàng triển khai trong khung của chúng tôi. Nó cho phép chúng tôi tập trung vào câu hỏi dữ liệu trước tiên.
Các siêu tham số Mamba là gì? Kích thước trạng thái 16, DT rank 16, kích thước bên trong 4096. Đối với thiết lập GQA của chúng tôi trong Apriel, chúng tôi đã mở rộng B (phép chiếu đầu vào) và x (trạng thái) để khớp với tổng số đầu chú ý theo M1.
Tại sao bạn không thử các phương pháp chuyển đổi tiên tiến hơn? Chúng tôi đã sử dụng khởi tạo Mamba-in-Llama và chắt lọc kiến thức thay vì quy trình nhiều giai đoạn của MOHAWK vì phương pháp sau không cho thấy lợi thế đáng kể trong các thí nghiệm sơ bộ.
Tại sao bạn chỉ SFT mô hình H-30? Chúng tôi chỉ áp dụng SFT cho H-30 để xác nhận rằng các mô hình lai được chắt lọc có thể được cải thiện thông qua quá trình huấn luyện sau tiêu chuẩn. Các điểm kiểm tra khác là chắt lọc thuần túy nhưng có thể được tinh chỉnh tương tự.
Tại sao bạn không khám phá RL? Đây là một quyết định phạm vi để cô lập câu hỏi chắt lọc: liệu bạn có thể chuyển giao suy luận chỉ thông qua chắt lọc kiến thức không? Trả lời: có. Nhưng RL sẽ đóng các khoảng trống chất lượng còn lại xa hơn. Chúng tôi đang khám phá RL cho các vòng lặp trong tương lai.
Bạn có thực sự cho thấy rằng Apriel-H1 phù hợp với suy luận chú ý đầy đủ ở ngân sách tính toán tương tự không? Chúng tôi đã không thực hiện so sánh tương đương giữa Apriel chú ý đầy đủ và mô hình lai được huấn luyện giống hệt nhau từ giai đoạn huấn luyện trước về phía trước. Điều đó sẽ yêu cầu lặp lại tất cả quá trình huấn luyện giữa chừng và huấn luyện sau của giáo viên với kiến trúc Apriel-H1, điều này nằm ngoài ngân sách tính toán của chúng tôi. Tuy nhiên, điều chúng tôi có thể khẳng định là việc trang bị thêm hiệu quả thông qua chắt lọc là thực tế và hiệu quả, và các mô hình lai kết quả có thể được tinh chỉnh để phù hợp hoặc vượt trội hơn chất lượng suy luận của giáo viên.
Thực tế sản xuất
Chúng tôi đã triển khai Apriel-H1 trong Hugging Face Transformers và vLLM. Việc tích hợp Transformers rất đơn giản. Chúng tôi cung cấp một lớp mô hình mới với các lớp chú ý và Mamba có thể hoán đổi cho nhau. Việc tích hợp vLLM sử dụng các thao tác cache Mamba gần đây của họ để tạo hàng loạt liên tục, bộ nhớ đệm tiền tố và prefill theo phân đoạn. Plugin vLLM đã sẵn sàng. Chúng tôi hiện đang chờ phê duyệt pháp lý cuối cùng để mã nguồn mở nó.
Đánh giá trung thực: Triển khai các mô hình lai ngày nay có những chỗ chưa hoàn thiện. Công cụ đang phát triển nhanh chóng nhưng chưa phải là hoàn chỉnh. Bạn sẽ cần viết mã tùy chỉnh, xác thực hành vi số một cách cẩn thận và khắc phục các hạn chế của khung. Đối với các nhóm có thể chấp nhận chi phí đó, lợi ích về thông lượng là xứng đáng. Đối với những người không thể, việc chờ đợi có thể là lựa chọn đúng đắn.
Lời kết
Hầu hết các nhóm không có khả năng tính toán vô hạn để huấn luyện trước 20T token. Nếu bạn đã đầu tư vào một mô hình cơ sở mạnh mẽ và cần hiệu quả, công việc này cho thấy một con đường thực tế: chắt lọc thành các mô hình lai bằng cách sử dụng dữ liệu chuyên biệt chất lượng cao phù hợp với khả năng bạn đang bảo tồn.
Phát hiện bất ngờ, sử dụng dữ liệu suy luận để chắt lọc suy luận, dường như hiển nhiên khi nhìn lại nhưng mâu thuẫn với trực giác ban đầu. Chúng tôi đã xác nhận điều đó, giải thích tại sao nó lại hiệu quả và xây dựng cơ sở hạ tầng để làm cho nó có thể tái tạo.
Thử ngay
Mô hình: Bộ sưu tập Apriel-H1 trên HuggingFace Khung huấn luyện: Fast-LLM trên GitHub Mô hình giáo viên: Apriel-Nemotron-15B-Thinker Bài báo: Apriel-H1: Hướng tới các mô hình suy luận doanh nghiệp hiệu quả
Tìm thấy thứ gì đó bị lỗi? Gửi một vấn đề. Khám phá một phương pháp heuristic đặt lớp tốt hơn? Hãy cho chúng tôi biết. Xây dựng thứ gì đó thú vị trên Apriel-H1? Chúng tôi rất muốn xem nó.
Trích dẫn:
bibtex @article{apriel-h1-2025, title={Apriel-H1: Towards Efficient Enterprise Reasoning Models}, author={SLAM Lab, ServiceNow}, journal={arXiv preprint arXiv:2511.02651}, year={2025} }
Những người đóng góp cốt lõi: Oleksiy Ostapenko, Luke Kumar, Raymond Li, Denis Kocetkov, Joel Lamy-Poirier, Torsten Scholak Những người đóng góp: Shruthan Radhakrishna, Soham Parikh, Shambhavi Mishra Đồng lãnh đạo kỹ thuật: Torsten Scholak, Sathwik Tejaswi Madhusudhan