Forge- Khung và Thuật toán Agent RL có thể mở rộng

Một bài viết về Forge, một khung và thuật toán Agent RL có thể mở rộng.

February 17, 2026
21 min read

Forge- Khung và Thuật toán Agent RL có thể mở rộng — Một bài viết về Forge, một khung và thuật toán Agent RL có thể mở rộng.

Forge: Khung và Thuật toán RL có khả năng mở rộng cho Tác tử

Bài viết trên blog bởi MiniMax trên Hugging Face

Giới thiệu

Việc mở rộng RL cho các tác tử phức tạp, trong thế giới thực đối mặt với một tam giác nghịch lý cơ bản: cân bằng giữa thông lượng hệ thống, tính ổn định của việc huấn luyện và tính linh hoạt của tác tử. Những ràng buộc mâu thuẫn này từ lâu đã cản trở việc áp dụng RL quy mô lớn trong các hệ thống cấp công nghiệp.

Trong bài viết này, chúng tôi tiết lộ cách chúng tôi đã giải quyết “tam giác bất khả thi” này thông qua một cách tiếp cận toàn diện trong khung RL nội bộ của chúng tôi, Forge, kết hợp kiến trúc hệ thống linh hoạt, thiết kế thuật toán, lập lịch bất đồng bộ được tối ưu hóa và hiệu quả huấn luyện-suy luận cực cao. Bằng cách tận dụng các giao thức tương tác được tiêu chuẩn hóa, Forge hỗ trợ việc huấn luyện các khung tác tử tùy ý, cho phép RL quy mô lớn dẫn đến các khả năng đột phá của mô hình MiniMax M2.5.

Trong quá trình phát triển MiniMax M2.5, hệ thống RL của chúng tôi đã xử lý hơn một trăm nghìn khung tác tử và môi trường thực tế riêng biệt. Hoạt động với độ dài ngữ cảnh lên tới 200k, hệ thống duy trì thông lượng xử lý hàng ngày ở quy mô hàng triệu mẫu, hiện thực hóa sự hội tụ phần thưởng nhất quán và cải thiện khả năng thực tế cho mô hình cơ bản. Tích hợp với thuật toán CISPO của chúng tôi và khung phần thưởng tổng hợp, M2.5 đẩy ranh giới cho năng suất thực tế hiệu quả và đáng tin cậy, đạt được sứ mệnh của chúng tôi “Trí tuệ với Mọi người”.

1. Định hình vấn đề

Trước khi đi sâu vào thiết kế kiến trúc của chúng tôi, trước tiên chúng tôi sẽ định hình mục tiêu tối ưu hóa của hệ thống Agent RL của chúng tôi là tối đa hóa Năng suất Huấn luyện Tác tử Hiệu quả (J), được định nghĩa là:

$$ \begin{aligned} \max_{\theta} J(\mathcal{\theta}) = & \text{Throughput}(\mathcal{A}) \times \text{Sample Efficiency}(\mathcal{A}) \ \text{s.t.} \quad & \forall \mathcal{A} \in \Omega_{\text{agent}} \quad (\text{Arbitrary Agent}) \ & \mathbb{E}[\text{Update Variance}] < \delta \quad (\text{Stability}) \ & \mathbb{E}[|J^{(T)} - J^*|] < \epsilon \quad (\text{Convergence}) \end{aligned} $$

trong đó Thông lượng Hệ thống đề cập đến số lượng mã thông báo thô được xử lý mỗi giây, bị giới hạn bởi 4 thành phần của toàn bộ hệ thống RL: rollout, huấn luyện, xử lý dữ liệu và I/O. Hiệu quả Mẫu đề cập đến sự cải thiện hiệu suất trung bình cho mỗi mẫu được xác định bởi phân phối dữ liệu, chất lượng dữ liệu, hiệu quả thuật toán và tính chất ngoại lai. Chúng tôi chọn các ràng buộc cụ thể của mình bằng cách sử dụng các chỉ báo proxy cho cả tính ổn định và cân nhắc hội tụ, như được ghi chú trong phương trình. Việc đạt được JJJ tối đa bị cản trở bởi ba thách thức cấu trúc, mà chúng tôi giải thích chi tiết dưới đây.

1.1. Tính mở rộng của Tác tử và tính linh hoạt của Khung

Các mô hình RL hiện tại áp đặt một “Trần kính” đối với độ phức tạp của tác tử do hai lỗi cấu trúc:

Sự tự chủ hạn chế của Tác tử: Các khung tiêu chuẩn coi các tác tử là các hàm hộp trắng với trạng thái được chia sẻ giữa tác tử và bộ huấn luyện. Sự cứng nhắc này làm cho việc mô hình hóa kiến trúc nhận thức phức tạp (ví dụ: Quản lý Ngữ cảnh Động, Hợp tác Đa Tác tử) trở nên khó khăn và do đó ngăn mô hình có khả năng tổng quát hóa hiệu quả trên một tác tử hộp đen tùy ý mà không có các ràng buộc cấu trúc được giả định này.

Rào cản tính nhất quán của Mã thông báo: Các kiến trúc TITO (Token-In-Token-Out) hiện có buộc Tác tử phải gắn bó sâu sắc với logic mã thông báo cơ bản. Việc duy trì tính nhất quán nghiêm ngặt giữa Trừu tượng Hóa Suy luận (logic cấp cao) và Biểu diễn Huấn luyện (dữ liệu cấp mã thông báo) dưới Quản lý Ngữ cảnh (CM) phức tạp là không khả thi về mặt tính toán.

1.2. Hiệu quả Hệ thống và Dự phòng Tính toán

Thời gian hoàn thành quá trình lăn của tác tử cho thấy sự biến thiên cực lớn, từ vài giây (lời gọi API đơn giản) đến vài giờ (chuỗi suy luận phức tạp). Điều này tạo ra tình trạng tắc nghẽn lập lịch:

Bộ điều khiển bất đồng bộ: Các hệ thống đối mặt với sự đánh đổi quan trọng giữa hiệu quả phần cứng và tính ổn định của việc huấn luyện: trong khi lập lịch FIFO/Đồng bộ nghiêm ngặt phải chịu Hiệu ứng Straggler, trong đó một tác vụ có độ trễ cao duy nhất gây ra Tắc nghẽn Head-of-Line (HoL) và khiến cụm bị trống, các chế độ Tham lam/FFFO tối đa hóa thông lượng với chi phí là Sự dịch chuyển Phân phối Dữ liệu nghiêm trọng. Sự dịch chuyển này tạo ra một môi trường huấn luyện không ổn định — ban đầu bị chi phối bởi các tác vụ ngắn, “dễ dàng” và sau đó bởi các tác vụ “khó” được nhóm lại — dẫn đến sự bất ổn định trong tối ưu hóa và dao động gradient.

Sự dư thừa tiền tố: Trong các kịch bản Tác tử, sự tương tác giữa cơ chế bộ mã hóa và Quản lý Ngữ cảnh vốn có dẫn đến một khối lượng yêu cầu đáng kể chia sẻ các tiền tố giống hệt nhau. Sự dư thừa này gây lãng phí tính toán đáng kể trong quá trình huấn luyện, do đó đưa ra các thách thức kỹ thuật riêng biệt.

1.3. Thách thức Thuật toán: Phân công Tín dụng và Tính ổn định Tối ưu hóa

Phần thưởng thưa thớt và Phương sai Gradient cao: Các tác vụ tác tử thường liên quan đến các đường chân trời kéo dài với phản hồi chậm trễ, nơi một kết quả duy nhất phụ thuộc vào một chuỗi hàng nghìn hành động. Việc phân công tín dụng cho các mã thông báo cụ thể hoặc việc gọi công cụ trong cửa sổ ngữ cảnh 200k về mặt toán học là không chắc chắn. Sự thưa thớt này dẫn đến tỷ lệ tín hiệu trên nhiễu thấp trong phép tính trả về, gây ra phương sai gradient cao làm mất ổn định việc huấn luyện các mô hình quy mô lớn.

Tối ưu hóa không nhạy cảm với độ trễ: Các mục tiêu RL truyền thống chỉ tập trung vào tính chính xác (phần thưởng theo bước hoặc theo kết quả) trong khi bỏ qua chi phí thực thi theo thời gian thực. Trong các kịch bản tác tử trong thế giới thực, tồn tại nhiều quỹ đạo hợp lệ, nhưng chúng khác biệt đáng kể về độ trễ do chi phí thực thi công cụ và xử lý nối tiếp. Các mô hình truyền thống không khuyến khích song song hóa hoặc sử dụng công cụ hiệu quả, dẫn đến các tác tử hoạt động chính xác về mặt chức năng nhưng chậm về mặt thực tế.

2. Kiến trúc Hệ thống và Mô hình RL Tác tử

Để giảm thiểu sự đánh đổi giữa “Hiệu quả và Tính ngoại lai” và giảm thiểu sự dư thừa, chúng tôi giới thiệu các cải tiến kiến trúc sau.

2.1. Thiết kế Hệ thống RL

Để đạt được kiến trúc thực sự có thể mở rộng, chúng tôi vượt ra ngoài các triển khai cụ thể để thiết kế “Middleware” tổng quát. Điều này tách rời logic suy luận của Tác tử khỏi cơ sở hạ tầng huấn luyện cơ bản.

Hệ thống RL của chúng tôi bao gồm 3 mô-đun:

Bên Tác tử: Lớp này trừu tượng hóa Tác tử Tổng quát — bao gồm cả kiến trúc hộp trắng và hộp đen — và môi trường hoạt động của nó. Nó điều phối các tương tác môi trường đệ quy, cho phép Tác tử hoạt động như một nhà sản xuất quỹ đạo thuần túy. Bằng cách tách rời phản hồi môi trường khỏi chi phí hệ thống, Tác tử có thể tập trung hoàn toàn vào logic nghiệp vụ cốt lõi (như Quản lý Ngữ cảnh và Chuỗi Suy luận), không phụ thuộc vào cơ chế huấn luyện và suy luận cơ bản.

Lớp Trừu tượng Middleware: Hoạt động như một cầu nối, lớp này cô lập vật lý Bên Tác tử khỏi Bên Huấn luyện/Suy luận, bao gồm máy chủ Gateway và Kho dữ liệu.

Bên Huấn luyện và Suy luận: Lớp này quản lý công việc tính toán nặng, bao gồm Công cụ LLM và Công cụ Huấn luyện.

Trong quá trình đánh giá ngoại tuyến, chúng tôi đã quan sát thấy sự khác biệt đáng kể về hiệu suất do sự khác biệt về khung. Tận dụng thiết kế mô-đun của khung RL của chúng tôi, chúng tôi có thể tiến hành huấn luyện bằng cách sử dụng một loạt các khung mở rộng mà không yêu cầu sửa đổi nội bộ đối với Tác tử. Cách tiếp cận này cho phép mô hình tổng quát hóa hiệu quả trên các khung đa dạng, hay còn gọi là môi trường. Kiến trúc của chúng tôi đạt được sự tách biệt hoàn toàn giữa các công cụ và tác tử, đảm bảo tích hợp liền mạch các tác tử khác nhau. Tổng cộng, chúng tôi đã tích hợp hàng trăm loại khung và hàng nghìn định dạng gọi công cụ riêng biệt.

2.2. RL Tác tử Hộp trắng cho Quản lý Ngữ cảnh (CM)

Đối với các tác tử hộp trắng, việc thiết kế và tăng cường khung toàn diện cho phép chúng tôi quan sát và tối ưu hóa trực tiếp hiệu suất của mô hình trên các kiến trúc tác tử cụ thể. Trong quá trình phát triển MiniMax M2.5, chúng tôi đặc biệt giải quyết một số vấn đề quan trọng đã ảnh hưởng đến các mô hình trước đó trong các tác vụ đường chân trời dài đòi hỏi quản lý ngữ cảnh chủ động (chẳng hạn như DeepSearch):

Thách thức về Quay vòng Ngữ cảnh: Khi số lượng lượt tương tác tăng lên, sự tích lũy các bước suy luận trung gian và các quan sát dư thừa tạo ra hiệu ứng “pha loãng sự chú ý”. Nhiễu tích lũy này khiến mô hình mất tập trung vào thông tin quan trọng, ngay cả khi hoạt động nghiêm ngặt trong giới hạn cửa sổ ngữ cảnh tuyệt đối của nó.

Sự không khớp giữa Suy luận và Huấn luyện: Mặc dù quản lý ngữ cảnh có thể mở rộng hiệu quả đường chân trời tương tác và tăng cường hiệu suất của tác tử trong các kịch bản ngữ cảnh dài, việc áp dụng nó chỉ trong quá trình suy luận sẽ tạo ra sự dịch chuyển phân phối nghiêm trọng từ dữ liệu huấn luyện RL. Sự khác biệt này buộc mô hình phải đột ngột thích ứng với các chuyển đổi ngữ cảnh không mong muốn và xử lý các cấu trúc ngữ cảnh dài không quen thuộc khi đang bay, cuối cùng làm suy giảm hiệu suất tổng thể của nó.

Để giải quyết sự dịch chuyển phân phối này và duy trì tính trung thực của suy luận, chúng tôi tích hợp cơ chế CM trực tiếp vào vòng lặp tương tác RL, coi Quản lý Ngữ cảnh như một hành động chức năng thúc đẩy các chuyển đổi trạng thái:

Các chuyển đổi trạng thái do CM điều khiển: Chúng tôi mô hình hóa CM như một hành động tác tử rõ ràng, với các chuyển đổi ngữ cảnh được nhúng tự nhiên trong động lực của môi trường. Sự chuyển đổi trạng thái từ StS_tSt sang St+1S_{t+1}St+1 bao gồm một cách tự nhiên logic chuyển đổi ngữ cảnh, gấp gọn việc thích ứng ngữ cảnh trực tiếp vào mục tiêu huấn luyện của mô hình.

Các mẫu suy luận thích ứng: Bằng cách tối ưu hóa chính sách π\piπ trong khuôn khổ này, mô hình học cách nội hóa sự dịch chuyển phân phối. Điều này thúc đẩy sự xuất hiện của các mẫu suy luận mạnh mẽ vốn ưu tiên các mã thông báo “quan trọng về trạng thái”.

Chiến lược Quản lý Nhận biết Ngữ cảnh: Theo mô hình này, mô hình được huấn luyện để dự đoán các hoạt động quản lý ngữ cảnh và các thay đổi tiềm năng trong quá trình tạo RL. Bằng cách chủ động giữ lại thông tin quan trọng của tác vụ đồng thời cắt bỏ nhiễu ngữ cảnh không liên quan, mô hình cải thiện đáng kể hiệu suất của nó khi được triển khai trong các khung Tác tử Quản lý Ngữ cảnh.

2.3. RL Tác tử Hộp đen: Tính mạnh mẽ trên các Khung không đồng nhất

Trong quá trình triển khai thực tế, một phần đáng kể cơ sở người dùng của chúng tôi vận hành các kiến trúc tác tử độc quyền hoặc phức tạp hoạt động như “Hộp đen”. Chúng tôi đã quan sát thấy hiệu suất mô hình thường thay đổi mạnh mẽ tùy thuộc vào khung tác tử cơ bản, vì các mô hình huấn luyện tiêu chuẩn không khái quát hóa được trên các kiến trúc tác tử khác nhau. Để giải quyết vấn đề này, chúng tôi đã xác thực khung của mình thông qua một Thử nghiệm Tác tử Hộp đen chuyên dụng, đảm bảo tối ưu hóa nhất quán bất kể sự mờ đục nội bộ của tác tử.

Tích hợp không xâm phạm và Tương thích: Forge hoàn toàn không phụ thuộc vào các chi tiết triển khai nội bộ của tác tử. Các tác tử chỉ cần định tuyến yêu cầu của chúng đến Gateway RL của dịch vụ và khung tự động xử lý việc thu thập dữ liệu và huấn luyện ngầm. Do đó, trong quá trình huấn luyện RL thực tế, Forge hỗ trợ liền mạch các thao tác ngữ cảnh tùy ý (như nén bộ nhớ và viết lại lịch sử) cùng với bất kỳ Vòng lặp Tác tử nội bộ phức tạp nào (ví dụ: Deep Think, kiến trúc Đa Tác tử).

Tổng quát hóa Đa Khung: Bằng cách tách vòng lặp huấn luyện khỏi trạng thái nội bộ của tác tử, MiniMax M2.5 đạt được khả năng tương thích rộng rãi với vô số tác tử hộp đen. Khả năng thích ứng này trải dài từ các tác tử dựa trên mã mạnh mẽ dựa vào môi trường Sandbox và Giao thức Ngữ cảnh Mô hình (MCP) — ví dụ, huấn luyện Tác tử OpenCode của chúng tôi hoàn toàn như một hộp đen — đến các tác tử sử dụng các chiến lược giảm ngữ cảnh tích cực, chẳng hạn như Truncate BC. Các kết quả thực nghiệm chứng minh rằng phương pháp này mang lại những cải thiện nhất quán, ổn định ngay cả trên các hệ thống hộp đen hoàn toàn mờ đục.

3. Tối ưu hóa Kỹ thuật

3.1. Chiến lược Lập lịch Lai: FIFO theo Cửa sổ

Để giải quyết xung đột giữa Thông lượng Hệ thống và Tính nhất quán Phân phối, chúng tôi giới thiệu FIFO theo Cửa sổ. Chiến lược này áp đặt một ràng buộc trượt cho Bộ lập lịch Huấn luyện, hoạt động như một “trung gian” giữa thứ tự đồng bộ nghiêm ngặt và thực thi bất đồng bộ tham lam.

Logic cốt lõi điều chỉnh cách Bộ lập lịch Huấn luyện lấy mẫu từ hàng đợi tạo toàn cầu. Ngay cả khi một lô lớn các yêu cầu (ví dụ: Kích thước lô Tạo NNN) được gửi đi, bộ lập lịch bị giới hạn ở cửa sổ hiển thị có kích thước WWW (ví dụ: W=0.3NW = 0.3NW=0.3N).

Phạm vi hiển thị hạn chế: Gọi hàng đợi tạo là Q=[T0,T1,...,TN−1]Q = [T_0, T_1, …, T_{N-1}]Q=[T0,T1,…,TN−1], với đầu hiện tại ở chỉ số iii. Bộ lập lịch Huấn luyện bị giới hạn nghiêm ngặt trong việc lấy các quỹ đạo đã hoàn thành từ phạm vi [Ti,Ti+W−1][T_i, T_{i+W-1}][Ti,Ti+W−1].

Rối loạn “Tham lam” cục bộ (Trong Cửa sổ): Bên trong cửa sổ hoạt động [Ti,Ti+W−1][T_i, T_{i+W-1}][Ti,Ti+W−1], bộ lập lịch có thể truy xuất bất kỳ quỹ đạo nào đã hoàn thành ngay lập tức. Điều này làm giảm thiểu hiệu ứng tắc nghẽn Head-of-Line (HoL), vì các tác vụ nhanh trong cửa sổ không cần phải chờ đợi tác vụ đầu tiên hoàn thành.

Chặn nghiêm ngặt toàn cầu (Ranh giới cửa sổ): Quan trọng nhất, ngay cả khi một tác vụ ở chỉ số j>i+Wj > i+Wj>i+W (bên ngoài cửa sổ) đã hoàn thành — phổ biến đối với các tác vụ đơn giản, nhanh chóng trong một lô tạo lớn — bộ lập lịch bị cấm truy xuất nó.

Triển khai Ràng buộc: Cửa sổ dịch chuyển về phía trước (i→i+1)( i \rightarrow i+1 )(i→i+1) chỉ khi các tác vụ ở đầu được tiêu thụ. Cơ chế này buộc bộ lập lịch phải đợi các “tác vụ chậm” (tác vụ đường chân trời dài, phức tạp) trong cửa sổ hiện tại, ngăn phân phối huấn luyện trôi dạt về phía các mẫu “nhanh và dễ” được tìm thấy sau trong hàng đợi.

3.2. Tăng tốc Huấn luyện Quỹ đạo Tác tử bằng Hợp nhất Cây Tiền tố

Trong quá trình huấn luyện tác tử, tập dữ liệu thường bao gồm các mẫu hội thoại đa lượt mở rộng. Về mặt cấu trúc, các mẫu này thể hiện mức độ trùng lặp cao.

Thách thức: Sự dư thừa trong các Phương pháp Truyền thống

Trùng lặp Tiền tố: Trong các hội thoại đa lượt ngây thơ, tin nhắn được nối tiếp nhau. Với một bộ mã hóa nhất quán, nhiều kết quả hoàn chỉnh chia sẻ cùng một lịch sử có thể được hợp nhất về mặt lý thuyết.

Quản lý Ngữ cảnh Phức tạp: Các tác tử thường sử dụng các chiến lược quản lý ngữ cảnh tinh vi, chẳng hạn như loại bỏ các kết quả trung gian không liên quan hoặc thực hiện tự tóm tắt. Do đó, các kết quả hoàn chỉnh riêng biệt thường chia sẻ các tiền tố chung rộng rãi.

Hạn chế của Phương pháp Ngây thơ: Các phương pháp huấn luyện truyền thống coi mỗi mẫu là một thực thể độc lập, liên tục tính toán lại các tiền tố chung này. Trong các kịch bản ngữ cảnh dài, sự dư thừa tính toán này dẫn đến lãng phí TFLOPS khổng lồ và hạn chế nghiêm trọng thông lượng huấn luyện.

Hợp nhất Cây Tiền tố

Để loại bỏ sự dư thừa này, chúng tôi đề xuất một sơ đồ Hợp nhất Cây Tiền tố, chuyển đổi quá trình huấn luyện từ “xử lý tuyến tính” sang phương pháp “cấu trúc cây”.

Hợp nhất Cây Tiền tố: Giải quyết quản lý ngữ cảnh phức tạp trong các kịch bản Tác tử (như được minh họa bởi “ngữ cảnh chung dài”), nhiều kết quả hoàn chỉnh có thể được hợp nhất thành một cây tiền tố ở cấp độ mẫu — ngay cả khi các phản hồi tiếp theo khác nhau đôi chút hoặc thuộc các nhánh lấy mẫu khác nhau — miễn là chúng chia sẻ một tiền tố cơ bản.

Bằng cách sử dụng các nguyên tắc chú ý (như Chú ý Magi), chúng tôi đảm bảo rằng việc thực thi logic vẫn nhất quán với một lượt truyền xuôi tiêu chuẩn. Sau lượt truyền xuôi, cây tiền tố được phân rã dựa trên siêu dữ liệu để tính toán tổn thất thông thường, đảm bảo không có tác động nào đến logic hạ nguồn.

Bằng cách loại bỏ việc điền tiền tố dư thừa, giải pháp này đạt được tốc độ huấn luyện gấp 40 lần và giảm đáng kể chi phí bộ nhớ để hỗ trợ các chuỗi dài hơn hoặc lô lớn hơn, tất cả trong khi đảm bảo sự tương đương toán học nghiêm ngặt với các phương pháp tiêu chuẩn mà không ảnh hưởng đến việc tính toán tổn thất hoặc các chỉ số.

3.3. Tăng tốc Suy luận Cực cao

Chúng tôi tối ưu hóa đường ống tạo thông qua ba cải tiến kiến trúc:

Giải mã theo Suy đoán dựa trên MTP: Thay vì các mô hình bản nháp tĩnh, chúng tôi sử dụng các đầu Dự đoán Nhiều Mã thông báo (MTP) được tinh chỉnh liên tục thông qua tổn thất KL Top-K. Điều này đảm bảo sự phù hợp với phân phối chính sách RL đang phát triển, duy trì tỷ lệ chấp nhận cao và tăng tốc đáng kể bằng cách giảm thiểu sự dịch chuyển phân phối.

Phân tán PD không đồng nhất: Chúng tôi tách Prefill và Decode để loại bỏ sự can thiệp của PD vào lập lịch MoE hỗn hợp và cho phép các chiến lược song song hóa độc lập cho mỗi phiên bản, đồng thời tối đa hóa thông lượng toàn cầu và tối ưu hóa độ trễ đuôi cho các tác vụ đường chân trời dài.

Hồ sơ KV L3 Toàn cầu: Để ngăn chặn việc điền tiền tố dư thừa trong RL tác tử đa lượt và tối đa hóa tỷ lệ truy cập bộ nhớ cache tiền tố với việc lăn cấp nhóm, chúng tôi giới thiệu Hồ sơ L3 Toàn cầu dựa trên DFS. Bộ lập lịch nhận biết chi phí động định tuyến các yêu cầu bằng cách cân bằng độ trễ xếp hàng với chi phí di chuyển bộ nhớ cache, tối đa hóa tính cục bộ của bộ nhớ cache mà không làm quá tải các phiên bản.

4. Thuật toán RL Tác tử có khả năng mở rộng

4.1. Thuật toán RL

Chúng tôi tận dụng CISPO làm thuật toán cốt lõi, được điều chỉnh đặc biệt cho các đặc điểm của Tác tử đường chân trời dài.

Huấn luyện Miền Hỗn hợp Hợp nhất: Không giống như học tăng cường nhiều giai đoạn, thường dẫn đến chuyển giao tiêu cực hoặc can thiệp giữa các miền, chúng tôi áp dụng chiến lược huấn luyện hợp nhất. Chúng tôi kết hợp các tác vụ trên các miền Suy luận, QA Tổng quát và Tác tử đồng thời. Cách tiếp cận huấn luyện chung này giảm thiểu sự suy giảm hiệu suất thường thấy trong huấn luyện tuần tự và tăng cường đáng kể khả năng tổng quát hóa của mô hình trên các tác vụ đa dạng.

$$ \mathcal{J}{\text{CISPO}}(\theta) = \mathbb{E}{(q,a)\sim\mathcal{D}, {o_i}{i=1}^G \sim \pi{\theta_{\text{old}}}(\cdot|q)} \left[ \frac{1}{\sum_{i=1}^G |o_i|} \sum_{i=1}^G \sum_{t=1}^{|o_i|} \mathbf{sg}(\hat{r}{i,t}(\theta)) \hat{A}{i,t} \log \pi_\theta(o_{i,t} \mid q, o_{i,<t}) \right] $$

trong đó:

$$ \begin{aligned} \hat{r}{i,t}(\theta) &= \text{clip}\left( r{i,t}(\theta), 0, 1 + \epsilon_{high}^{IS} \right) \ \widehat{A}{i,t} &= \sum{p=t}^T (r_p^{\text{speed}} + r_p^{\text{perf}}) - B_i \end{aligned} $$

4.2. Phần thưởng Tích cực và Nhận biết Hiệu quả

Chúng tôi đề xuất một khung phần thưởng tổng hợp được thiết kế để giải quyết các thách thức phân công tín dụng của ngữ cảnh cực dài (lên tới 200k) đồng thời đảm bảo tính ổn định của việc huấn luyện:

Phần thưởng Quy trình: Để cung cấp phản hồi dày đặc, chúng tôi nhắm mục tiêu các hành vi trung gian (ví dụ: phạt việc trộn lẫn ngôn ngữ hoặc lỗi gọi công cụ cụ thể) thay vì chỉ dựa vào kết quả cuối cùng.

Phần thưởng Thời gian Hoàn thành Tác vụ: Trong các kịch bản tác tử, tồn tại nhiều quỹ đạo để hoàn thành tác vụ. Tổng thời lượng không chỉ phụ thuộc vào việc tạo mã thông báo mà còn phụ thuộc vào độ trễ liên quan đến việc thực thi công cụ cụ thể và lời gọi tác tử con. Vì thời gian hoàn thành rất quan trọng đối với trải nghiệm người dùng thực tế, chúng tôi kết hợp thời gian hoàn thành tương đối làm tín hiệu phần thưởng. Điều này khuyến khích tác tử tận dụng song song hóa, do đó tăng tốc việc thực thi tác vụ.

Phần thưởng-cho-đi để Giảm phương sai: Phần thưởng thưa thớt tiêu chuẩn thường dẫn đến phương sai gradient cao trong các tác vụ đường chân trời dài. Chúng tôi sử dụng công thức Phần thưởng-cho-đi để chuẩn hóa kết quả trả về. Điều này có hiệu quả làm giảm phương sai gradient và cải thiện độ chính xác của việc phân công tín dụng, ổn định quá trình tối ưu hóa.

5. Kết luận

Chúng tôi đã giải quyết thành công “tam giác bất khả thi” của việc mở rộng quy mô RL cho tác tử. Thông qua Forge, chúng tôi đã đạt được một bước đột phá về thông lượng hệ thống RL trong khi đảm bảo khả năng tổng quát hóa mạnh mẽ trên các Khung Tác tử tùy ý. Bằng cách tích hợp kiến trúc linh hoạt này với thuật toán CISPO ổn định của chúng tôi, chúng tôi đã cho phép huấn luyện quy mô lớn đằng sau MiniMax M2.5. Cách tiếp cận toàn diện này vượt qua các ràng buộc trước đây, mang lại các khả năng tác tử hiệu quả, trong thế giới thực và thúc đẩy sứ mệnh của chúng tôi là “Trí tuệ với Mọi người”.

AI Today - SkyAI