Căn chỉnh với cái gì? Suy nghĩ lại về Tổng quát hóa Tác nhân trong MiniMax M2

November 10, 2025
8 min read

Aligning to What? Rethinking Agent Generalization in MiniMax M2

Bài viết này của MiniMax trên Hugging Face.

Thật tuyệt vời khi thấy cộng đồng đã khám phá sâu về MiniMax M2 mới của chúng tôi, và nhiều người đã nhấn mạnh khả năng ấn tượng của nó trong các tác vụ phức điều hành phức tạp. Điều này đặc biệt thú vị đối với tôi, vì công việc của tôi tập trung vào khía cạnh căn chỉnh (alignment) của tác tử (agent) sau quá trình huấn luyện. Trong bài viết này, tôi muốn chia sẻ một số hiểu biết và bài học quan trọng mà chúng tôi đã rút ra trong quá trình đó.

Vấn đề căn chỉnh tác tử thực sự: Chuẩn mực hay Thực tế?

Nếu bạn đã từng làm việc với các tác tử LLM, bạn sẽ cảm nhận được nỗi đau này: cùng một mô hình có thể hoạt động xuất sắc trong một khung làm việc nhưng lại vô dụng trong một khung làm việc khác. Một tác tử có thể chinh phục bảng xếp hạng sử dụng công cụ nhưng lại thất bại thảm hại trong một tác vụ thực tế đơn giản. Khoảng cách này giữa hiệu suất theo chuẩn mực và khả năng sử dụng thực tế là một trong những thách thức lớn nhất trong lĩnh vực này.

Khi chúng tôi thiết kế M2, chúng tôi biết mình phải giải quyết vấn đề này một cách trực diện. Điều này dẫn chúng tôi đến hai mục tiêu cốt lõi, đôi khi mâu thuẫn:

Xuất sắc trên các Chuẩn mực Mã nguồn mở. Chuẩn mực là cần thiết để đo lường các khả năng “thuần túy”. Một chuẩn mực như BrowseComp, chẳng hạn, kiểm tra các kỹ năng tìm kiếm tinh vi. Mặc dù người dùng hiếm khi đặt câu hỏi “câu giờ” như, “Tìm bài báo mà chữ cái thứ ba của tên tác giả thứ n là ‘x’”, một mô hình có thể giải quyết được nó chứng tỏ nó có khả năng nền tảng vững chắc.
Tổng quát hóa Mạnh mẽ cho Thế giới Thực. Đây là phần khó hơn, quan trọng hơn. Một tác tử xuất sắc phải hoạt động đáng tin cậy trên các công cụ không quen thuộc, IDE/CLI, khung tác tử và cài đặt của người dùng. Nó không thể là một “con ngựa bất kham” đơn độc; nó cần phải tổng quát hóa.

Vậy, chúng ta nên căn chỉnh với ai? Câu trả lời là cả hai. Chúng ta căn chỉnh với các chuẩn mực để xây dựng kỹ năng, nhưng cuối cùng chúng ta phải căn chỉnh với người dùng bằng cách đảm bảo rằng những kỹ năng đó hoạt động ở mọi nơi.

Mặc dù các phương pháp để đạt điểm cao trên chuẩn mực là một chủ đề sâu sắc cho một ngày khác, tôi muốn tập trung vào mục tiêu thứ hai, khó khăn hơn: Làm thế nào để huấn luyện một tác tử cho thế giới thực?

Sự cần thiết của Tư duy Xen kẽ (Interleaved Thinking)

Sớm trong dự án, chúng tôi đã gặp phải một bức tường khó chịu. Hiệu suất của tác tử không nhất quán, và chúng tôi gặp khó khăn trong việc chẩn đoán lý do. Sau nhiều cuộc thảo luận, đặc biệt là với Giáo sư @Junxian He và @Wenhu Chen, chúng tôi đã đi đến kết luận lớn đầu tiên của mình: Tác tử cần Tư duy Xen kẽ.

Điều này có nghĩa là “suy nghĩ” nội bộ của tác tử - “suy luận” của nó - có thể và nên xảy ra bất cứ lúc nào trong quá trình thực hiện tác vụ, không chỉ một lần duy nhất vào đầu như một mô hình suy luận tiêu chuẩn. Thiết kế này rất quan trọng vì hai lý do:

Duy trì Sự Tập trung vào các Nhiệm vụ Dài Hạn. Các tác vụ tác tử phức tạp có ngữ cảnh cực kỳ dài. Một quy trình suy nghĩ duy nhất ở đầu là không đủ để duy trì khả năng tuân theo chỉ dẫn và sự mạch lạc.
Thích ứng với các Nhiễu Động Bên Ngoài. Đây là sự khác biệt quan trọng. Các tác vụ tác tử đưa vào các nhiễu động liên tục, khó đoán từ thế giới bên ngoài (ví dụ: đầu ra của công cụ). Mô hình phải đủ mạnh mẽ để xử lý các nhiễu động này, chẩn đoán lỗi và trích xuất thông tin hữu ích. Quy trình “suy nghĩ” cho phép mô hình liên tục đánh giá lại và thích ứng với thông tin mới từ môi trường.

Nguyên tắc này đã trở thành nền tảng cho hiệu quả của M2.

Mẹo chuyên nghiệp cho người dùng M2: Do M2 dựa vào Tư duy Xen kẽ, ngữ cảnh của nó chính là bộ nhớ của nó. Để có hiệu suất tốt nhất, bạn phải giữ lại toàn bộ lịch sử phiên, bao gồm cả các bước suy nghĩ. Chúng tôi nhận thấy rằng nhiều phản hồi của cộng đồng về khoảng trống hiệu suất xuất phát từ việc vô tình loại bỏ ngữ cảnh quan trọng này, điều này thường xảy ra với các mô hình suy luận đơn giản hơn.

Tổng quát hóa thực sự là về Nhiễu động

Lý thuyết ban đầu của chúng tôi rất đơn giản: mở rộng quy mô công cụ là tổng quát hóa tác tử.

Chúng tôi bắt đầu với một bộ công cụ tối thiểu (một trình thông dịch Python, công cụ tìm kiếm, một trình duyệt) để xây dựng một nền tảng cơ bản về khả năng gọi công cụ. Lộ trình rất rõ ràng: mở rộng số lượng và sự đa dạng của các công cụ, và khả năng tổng quát hóa của tác tử đối với các công cụ chưa thấy sẽ tự nhiên theo sau.

Ban đầu, điều này có hiệu quả. Điểm chuẩn của chúng tôi đã tăng lên mức đáng nể. Nhưng khi đào sâu hơn, chúng tôi nhận ra mình đang giải quyết sai vấn đề. Mô hình đã đạt điểm cao trong các bài kiểm tra, nhưng nếu chúng tôi thay đổi môi trường dù chỉ một chút - ví dụ như chuyển sang một khung tác tử khác - hiệu suất của nó sẽ giảm mạnh. Chúng tôi vẫn còn xa mục tiêu “hữu ích trên thực tế” của mình.

Điều này dẫn đến nhận thức thứ hai, sâu sắc hơn của chúng tôi: Tổng quát hóa tác tử không chỉ là thích ứng với các công cụ mới; đó là về việc thích ứng với các nhiễu động trên toàn bộ không gian hoạt động của mô hình.

Điều này nghe có vẻ trừu tượng, vì vậy hãy phân tích nó. Hãy xem xét mọi thứ có thể thay đổi trong một tác vụ tác tử duy nhất:

Thông tin Công cụ và bộ công cụ có sẵn.
Lời nhắc Hệ thống xác định vai trò và quy tắc của tác tử.
Lời nhắc Người dùng và mục tiêu cụ thể của nó.
Môi trường tự nó (tệp, cơ sở mã, API).
Phản hồi Công cụ được trả về ở mỗi bước.

Cách tiếp cận “mở rộng quy mô công cụ” cũ của chúng tôi chỉ giải quyết vấn đề đầu tiên. Nó bỏ qua các nhiễu động trong tất cả các phần khác của quy trình. Với hiểu biết mới này, nhóm của chúng tôi đã xây dựng một quy trình dữ liệu toàn diện được thiết kế cho tổng quát hóa toàn bộ quỹ đạo. Dữ liệu mà nó tạo ra huấn luyện mô hình để ổn định trước các nhiễu động ở mỗi bước. Kết quả đã cực kỳ đáng khích lệ. Trong các thử nghiệm nội bộ, chúng tôi đã thử nghiệm các khung tác tử không rõ ràng, “khởi động nguội” với M2 - các khung mà chúng tôi hầu như không xem xét - và hiệu suất của nó đã vượt quá mong đợi của chúng tôi. Cả khả năng gọi công cụ và khả năng tuân theo chỉ dẫn của nó đều tổng quát hóa một cách tuyệt đẹp.

Tiếp theo là gì?

Công việc của chúng tôi về M2 đã dạy chúng tôi rất nhiều về tác tử, tổng quát hóa và dữ liệu, nhưng nó đã mở ra nhiều câu hỏi hơn là trả lời. Nhiều ý tưởng của chúng tôi vẫn còn trên bảng trắng. Trong những tháng tới, chúng tôi sẽ khám phá những lĩnh vực này sâu hơn nữa, và chúng tôi nóng lòng mang đến cho bạn thế hệ mô hình mạnh mẽ và thực sự hữu ích tiếp theo.

Tham gia

Sử dụng Mô hình: Chúng tôi thực sự hy vọng bạn sẽ kiểm tra M2. Bạn có thể truy cập nó thông qua các kênh chính thức của chúng tôi hoặc tìm phiên bản mã nguồn mở để thực hiện nghiên cứu của riêng mình.
Tham gia Đội ngũ của Chúng tôi: Nếu những loại thử thách này khiến bạn hứng thú, chúng tôi đang tuyển dụng. Chúng tôi luôn tìm kiếm những người đam mê để cùng chúng tôi thực hiện sứ mệnh xây dựng AGI. Vui lòng gửi cho chúng tôi sơ yếu lý lịch của bạn!

AI Today - SkyAI