DeepMath- Một tác nhân suy luận toán học nhẹ với smolagents

December 10, 2025
9 min read

DeepMath: Một tác nhân suy luận toán học nhẹ với smolagents

Bởi Nhóm AI Software của Intel

DeepMath là một tác nhân suy luận toán học được tinh chỉnh dựa trên Qwen3-4B Thinking và tinh chỉnh bằng GRPO (Group Relative Policy Optimization). Thay vì văn bản dài dòng, mô hình xuất ra các đoạn mã Python nhỏ cho các bước trung gian, chạy chúng trong môi trường an toàn và tích hợp lại kết quả vào quá trình suy luận, giúp giảm lỗi và độ dài đầu ra. Tác nhân này được triển khai bằng thư viện smolagents.

Chúng tôi đánh giá DeepMath trên bốn bộ dữ liệu toán học: MATH500, AIME, HMMT và HLE, và cho thấy rằng:

🤖 Tác nhân toán học tự nó giảm độ dài đầu ra tới 66%, đồng thời thường cải thiện độ chính xác.
⚡ Huấn luyện GRPO còn cải thiện hiệu suất của tác nhân hơn nữa, trên hầu hết các bài kiểm tra.

👉 Mã nguồn và các tập lệnh đánh giá: https://github.com/IntelLabs/DeepMath 👉 Mô hình: https://huggingface.co/Intel/deepmath-v1

Một LLM đang sử dụng máy tính để trả lời câu hỏi.

Tại sao DeepMath?

Các mô hình ngôn ngữ lớn (LLM) có khả năng suy luận tiên tiến, nhưng việc giải quyết các bài toán toán học vẫn còn thách thức; các chuỗi suy luận có thể rất dài và dễ mắc lỗi số học. Các công trình gần đây¹² cho thấy các mô hình nhỏ có thể đạt hiệu suất mạnh mẽ, và các nghiên cứu khác³ khám phá việc sử dụng công cụ để cải thiện độ tin cậy. Tuy nhiên, các bài báo này thường không nhấn mạnh việc giảm độ dài của chuỗi suy luận hoặc huấn luyện rõ ràng mô hình ưu tiên các chuỗi suy luận ngắn, tập trung vào tính toán được thực thi trong một môi trường bị kiểm soát và có thể kiểm toán.

Chúng tôi tập trung vào hai mục tiêu:

Tách biệt tính toán xác định sang một trình thực thi an toàn.
Huấn luyện mô hình ưu tiên các chuỗi suy luận ngắn gọn, tập trung vào tính toán thay vì văn bản dài dòng.

DeepMath giải quyết vấn đề này bằng cách kết hợp một trình thực thi Python nhỏ với một LLM được tinh chỉnh, cho phép suy luận ngắn gọn, dựa trên tính toán. Mô hình học cách tạo ra các đoạn mã Python ngắn, được thực thi trong môi trường sandbox và tích hợp lại vào ngữ cảnh. Việc tinh chỉnh GRPO khuyến khích hành vi này bằng cách thưởng cho sự chính xác và khuyến khích đầu ra ngắn hơn.

Cách thức hoạt động

Mô hình cơ sở: Qwen3-4B Thinking.
Các ràng buộc của trình thực thi: môi trường sandbox, danh sách trắng các mô-đun được nhập, thời gian chờ cho mỗi đoạn mã.
Suy luận: dựa trên smolagents, một tác nhân toán học đã được tạo ra. vLLM được sử dụng làm công cụ suy luận.
Huấn luyện: dựa trên trình huấn luyện GRPO trong TRL, chúng tôi đã sửa đổi máy khách và máy chủ vLLM của TRL để tạo các bản hoàn chỉnh GRPO bằng tác nhân DeepMath của chúng tôi.

Thay đổi đối với máy khách và máy chủ vLLM trong thư viện TRL. Hình 1: Máy khách và máy chủ vLLM đã được sửa đổi để sử dụng tác nhân DeepMath trong việc tạo ra các ứng viên, đồng thời sử dụng backend vLLM.

Giao diện Tác nhân: Trong quá trình suy luận, mô hình có thể xuất ra các token thông thường hoặc các lệnh gọi tác nhân đặc biệt chứa các đoạn mã Python.
Thực thi: Các đoạn mã được chạy trong một môi trường sandbox với các giới hạn an toàn nghiêm ngặt (không có I/O tệp, không có mạng, giới hạn thời gian).
Mục tiêu Thiết kế:
- Ngắn gọn: Thay thế các phép tính nhiều dòng bằng các đoạn mã ngắn, tập trung.
- Xác định & An toàn: Thực thi các giới hạn nghiêm ngặt.
- Khả năng giải thích: Các đoạn mã có thể đọc và kiểm toán được.

Ví dụ về đầu ra: nó chứa một đoạn mã python ngắn cũng như đầu ra của nó được sử dụng trong quá trình suy luận. Hình 2: Ví dụ về đầu ra nơi mã python được tạo ra, đánh giá và câu trả lời được chèn vào dấu vết và được sử dụng làm ngữ cảnh.

Huấn luyện với GRPO

Chúng tôi tinh chỉnh mô hình bằng GRPO, một phương pháp tối ưu hóa dựa trên phần thưởng cân bằng:

Phần thưởng Độ chính xác: +1 cho câu trả lời đúng.
Sử dụng đoạn mã: +1 cho việc tạo đoạn mã, có trọng số 10:1 so với phần thưởng độ chính xác.
Giảm độ dài: khuyến khích độ dài ngắn hơn bằng cách giới hạn các ứng viên hoàn chỉnh GRPO ở 5k token.
Lịch trình nhiệt độ: Chúng tôi đã triển khai lịch trình nhiệt độ tuyến tính (T=1.2 → T=0.7) để cân bằng giữa khám phá và ổn định trong quá trình huấn luyện. Phương pháp này nhằm tăng cường thử nghiệm trong giai đoạn huấn luyện ban đầu, sau đó giảm nhiệt độ khi chúng tôi trau dồi khả năng thành thạo kỹ năng.
Học trong ngữ cảnh: chúng tôi bao gồm 4 ví dụ đã giải quyết mà dấu vết chứa lệnh gọi tác nhân và đầu ra của trình thực thi, vì vậy mô hình học cú pháp và mẫu lệnh/phản hồi.
Tập dữ liệu: chúng tôi đã sử dụng tập con Lập luận Tích hợp Công cụ (TIR) của bộ dữ liệu OpenMathReasoning. Lưu ý rằng GRPO chỉ sử dụng vấn đề, không phải giải pháp trong dữ liệu. Tập dữ liệu này được chọn để đảm bảo các vấn đề có lợi từ công cụ bên ngoài.

Đánh giá

Chúng tôi đã đánh giá DeepMath so với các mô hình cơ sở trên bốn bộ dữ liệu. Các chỉ số bao gồm:

majority@16: độ mạnh mẽ trên các mẫu, như được sử dụng trong các công trình suy luận toán học trước đây, xem các tài liệu tham khảo.
Độ dài đầu ra trung bình: sự ngắn gọn.

Bảng kết quả chính.

Chúng tôi so sánh một cấu hình cơ sở (Qwen3-4B-Thinking-2507, không sử dụng tác nhân) với mô hình DeepMath của chúng tôi. Là một phương pháp loại trừ, chúng tôi đánh giá khung tác nhân mà chúng tôi đã phát triển khi chạy với mô hình Qwen3 chưa được huấn luyện, được ký hiệu là +Agent. Ngoài ra, chúng tôi xem xét liệu việc huấn luyện GRPO (cho mục đích sử dụng tác nhân) có cải thiện suy luận không dùng tác nhân hay không, được ký hiệu là +GRPO. Do đó, hai phương pháp loại trừ là độc lập, không cộng gộp.
Chúng tôi quan sát thấy rằng suy luận bằng tác nhân làm giảm độ dài đầu ra, với kết quả độ chính xác hỗn hợp. Mô hình DeepMath vừa được huấn luyện GRPO vừa chạy ở chế độ tác nhân, cho thấy độ chính xác cao nhất với các dấu vết ngắn hơn. Chúng tôi kết luận rằng cả việc huấn luyện GRPO và suy luận bằng tác nhân đều cần thiết để đạt kết quả tốt nhất.

Phát hiện quan trọng: DeepMath giảm độ dài đầu ra tới 66% trong khi cải thiện độ chính xác trên các bộ dữ liệu đầy thách thức.

Tại sao nó quan trọng

Độ chính xác: Tách biệt tính toán làm giảm lỗi số học và số.
Hiệu quả: Đầu ra ngắn hơn có nghĩa là suy luận nhanh hơn và khả năng giải thích dễ dàng hơn.
An toàn: Thực thi trong sandbox giảm thiểu rủi ro khi chạy mã tùy ý.

Kết luận

DeepMath thể hiện một cách thực tế và nhẹ nhàng để kết hợp một trình thực thi nhỏ với LLM và huấn luyện mô hình ưu tiên các dấu vết ngắn gọn, dựa trên tính toán. Việc tách biệt tính toán xác định giúp giảm lỗi số học và số, đồng thời làm ngắn các dấu vết, và việc tinh chỉnh GRPO tiếp tục khuyến khích các câu trả lời ngắn gọn, chính xác. Kết quả là một tác nhân giải quyết toán học chính xác và dễ giải thích hơn mà không yêu cầu mô hình khổng lồ hoặc các công cụ bên ngoài nặng nề.

Hãy thử ngay

Kiểm tra kho lưu trữ GitHub của DeepMath và chia sẻ phản hồi của bạn! Mọi đóng góp đều được chào đón. 🚀

Trích dẫn

Nếu bạn sử dụng DeepMath trong nghiên cứu của mình, vui lòng trích dẫn:

bibtex @software{deepmath2025, author = {Fleischer, Daniel and Berchansky, Moshe and Wasserblat, Moshe}, title = {DeepMath: A Lightweight Math Reasoning Agent for LLMs}, year = {2025}, publisher = {Intel AI Labs}, url = {https://github.com/IntelLabs/DeepMath} }

Hạn chế & Công việc trong tương lai

Phạm vi: Chúng tôi tập trung vào một mô hình nhỏ và suy luận toán học.
Khả năng khái quát hóa: Đã được đánh giá trên toán học kiểu cuộc thi; kết quả có thể không chuyển sang khả năng sáng tạo toán học mở hoặc chứng minh chính thức.
Việc thực thi mã được tạo ra vốn dĩ có rủi ro. DeepMath sử dụng sandbox nghiêm ngặt và giới hạn tài nguyên, nhưng bất kỳ việc triển khai nào cũng nên quản lý cẩn thận các bề mặt tấn công và thực thi giới hạn tốc độ.

Tài liệu tham khảo

Cộng đồng

Chủ đề thảo luận về bài viết này
Chỉnh sửa bài viết này trên GitHub: Cập nhật trên GitHub

Công ty

Website

Link bài viết gốc

Luo, Michael, Sijun Tan, Justin Wong, et al. 2025. “DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL.” https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2 ↩︎
Liu, Mingjie, Shizhe Diao, Ximing Lu, et al. 2025. “ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models.” arXiv:2505.24864. Preprint, arXiv, May 30. https://doi.org/10.48550/arXiv.2505.24864 ↩︎
Moshkov, Ivan, Darragh Hanley, Ivan Sorokin, et al. 2025. “AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning Dataset.” arXiv:2504.16891. Preprint, arXiv, April 23. https://doi.org/10.48550/arXiv.2504.16891 ↩︎

AI Today - SkyAI