Tại sao MiniMax M2 lại trở thành một Mô hình Chú ý Toàn phần?
Tại sao MiniMax M2 lại trở thành một Mô hình Chú ý Toàn phần?
- 13 min read
Tại sao MiniMax M2 lại trở thành mô hình chú ý đầy đủ?
Sau khi ra mắt M2, chúng tôi đã nhận được nhiều câu hỏi từ cộng đồng về việc “Tại sao các bạn lại quay lại quá khứ và sử dụng chú ý đầy đủ với MiniMax M2?”. Chúng tôi có thể đưa ra cuộc tranh luận theo sách giáo khoa — dành một buổi chiều để giải thích tại sao bạn nên xây dựng chú ý tuyến tính hoặc thưa thớt, sau đó dành một buổi chiều khác để giải thích tại sao bạn không nên làm vậy. Nhưng cuối cùng, tất cả những lý thuyết đó cũng chỉ có vậy. Câu hỏi thực sự rất đơn giản: bạn có nên làm điều đó không?
Vì vậy, hãy bắt đầu với kết luận: Chúng tôi luôn nỗ lực vì điều đó. Nhưng trong một hệ thống cấp công nghiệp, thực tế là chú ý hiệu quả vẫn còn một chặng đường dài phía trước trước khi nó có thể vượt trội hơn chú ý đầy đủ một cách dứt khoát. Khi LLM phát triển, toàn bộ ngăn xếp đã trở nên cực kỳ phức tạp. Chúng tôi phục vụ nhiều trường hợp hơn và các đánh đổi thiết kế kiến trúc đang bùng nổ: “Nó hoạt động như thế nào trên mã và toán học? Còn các kịch bản tác nhân thì sao? Nó xử lý đa phương thức như thế nào? Chuỗi CoT dài có còn hiệu quả không? Liệu RL có thể mở rộng trên đó không? Có những cạm bẫy ẩn với tính toán có độ chính xác thấp không? Làm thế nào để triển khai tư duy xen kẽ, lưu trữ bộ nhớ đệm, giải mã suy đoán? … "
Nói tóm lại, có sự khác biệt rất lớn giữa lời hứa trên lý thuyết và lợi ích thu được trong sản xuất. Bạn chỉ có thể tuyên bố lợi ích đó sau khi đáp ứng Điều kiện 1…n và giải quyết Vấn đề 1…n.
II. Tại sao lại cần Chú ý Hiệu quả?
Hãy làm một thí nghiệm tưởng tượng. Nếu bạn có khả năng tính toán vô hạn, bạn có bận tâm đến chú ý tuyến tính hoặc chú ý thưa thớt không? Một số người có thể đưa ra các lập luận lý thuyết về chú ý softmax “làm mịn quá mức” trong ngữ cảnh vô hạn… nhưng ai mà biết được? Trong giới hạn tính toán hiện tại, không có mô hình nào thực sự đẩy chú ý softmax đến giới hạn tuyệt đối của nó. Vì vậy, vì mọi mục đích thực tế, cuộc đua cho chú ý hiệu quả là một cuộc đua để tiết kiệm tính toán.
Đối với thiết kế M2 của chúng tôi, liệu chúng tôi có thể nhắm đến việc tiết kiệm token — đạt được chất lượng tương tự với ít token hơn không? Chà, nếu bạn tin vào luật tỷ lệ, để đạt được mục tiêu này, bạn có lẽ sẽ đặt cược vào các con đường khác để đạt được điều đó, chứ không phải chú ý hiệu quả. Vì vậy, sự thật đơn giản là: Tính toán là hữu hạn. Chúng ta cần một kiến trúc sử dụng nó tốt hơn — các mô hình đạt hiệu suất cao hơn trong cùng một ngân sách (huấn luyện & suy luận).
III. Các nút thắt thực sự
Để xây dựng một mô hình có thể triển khai và sử dụng thực tế bởi cộng đồng, chúng ta phải bắt đầu với những gì người dùng quan tâm: Chất lượng, Tốc độ (TPS) và Giá cả. Chất lượng là không thể thương lượng. Một mô hình vô dụng thì vẫn vô dụng ngay cả khi nó miễn phí. Vậy làm thế nào để chúng ta tạo ra một mô hình Chú ý Tuyến tính/Thưa thớt/Kết hợp hoạt động đủ tốt? Thách thức lớn nhất ở đây không phải là thiết kế kiến trúc — nút thắt thực sự là những hạn chế của việc đánh giá. (Đối với tốc độ và giá cả, chúng bị ảnh hưởng nặng nề bởi ngăn xếp suy luận — và các mô hình tuyệt vời có xu hướng thu hút các kỹ sư giỏi để tối ưu hóa chúng.)
Bẫy đánh giá: Luật Goodhart được áp dụng
“Miễn là bạn xây dựng bảng xếp hạng, chúng tôi sẽ tìm cách đánh bại nó.” Trong vài năm qua của sự phát triển LLM, tốc độ tiến bộ của bảng xếp hạng là đáng kinh ngạc. Bất kể một điểm chuẩn khó đến đâu — ngay cả khi điểm SOTA bắt đầu bằng các chữ số đơn — một khi nó thu hút sự chú ý của ngành, nó thường sẽ bị nghiền nát trong vòng vài lần lặp lại. Nhưng làm thế nào để xây dựng một hệ thống đánh giá toàn diện và thực sự phản ánh khả năng thực sự của mô hình? Đó là một trong những vấn đề khó khăn nhất — và quan trọng nhất — trong phát triển LLM, và nó càng trở nên cấp bách hơn khi bạn bắt đầu can thiệp vào một thành phần cơ bản như sự chú ý.
Các điểm chuẩn là sự trừu tượng bị rò rỉ
Không có bữa trưa miễn phí. Khi bạn giảm độ phức tạp của sự chú ý, bạn phải trả giá. Câu hỏi là, ở đâu?
Khi chúng tôi phát triển MiniMax-Text-01, mọi người vẫn đang đánh giá MMLU, BBH, MATH và LongBench (tất cả đều đã bão hòa). Từ góc nhìn của một năm trước, một mô hình kết hợp giữa Lightning Attention và Full Attention trông cũng tốt như chú ý đầy đủ thuần túy. Các mô hình kết hợp nhỏ của chúng tôi đã xác nhận điều này trên các bảng xếp hạng. (Chúng tôi đã tìm thấy bữa trưa miễn phí?)
Không hẳn. Cái giá phải trả trở nên rõ ràng ở quy mô lớn hơn: mô hình có những thiếu sót rõ ràng trong các tác vụ suy luận phức tạp, đa bước. Được rồi, một khi vấn đề được phơi bày, bạn có thể sửa nó. Chúng tôi đã phát triển các chỉ số proxy cho điểm yếu cụ thể này và lặp đi lặp lại cho đến khi mô hình kết hợp dường như khớp với MHA. Nhưng chỉ số proxy đó có còn tương quan với hiệu suất hạ nguồn trong thế giới thực ở quy mô lớn hơn nữa không? Có những điểm yếu ẩn nào khác không? Ai mà biết được. Chúng tôi chưa chạy các thí nghiệm đó.
Mô hình càng tốt, chúng càng khó đánh giá. Nhưng đó là một phần không thể thiếu của hành trình — hãy tiếp tục đi, các nhóm đánh giá!
Cái giá đắt của việc biết mọi thứ
Đối với các tác vụ suy luận phức tạp, đôi khi chúng ta có thể tìm thấy các chỉ số proxy ban đầu tương quan tốt với hiệu suất cuối cùng — nhưng không phải cho tất cả các tác vụ (ít nhất, chưa phải vậy). Khi các tác vụ trở nên khó khăn hơn, lượng tính toán thử nghiệm cần thiết chỉ để có được một tín hiệu có ý nghĩa thống kê trên chỉ số của bạn tăng lên theo cấp số nhân — điều này thật mỉa mai, vì chúng tôi nghiên cứu chú ý hiệu quả vì tính toán bị hạn chế.
Và ngoài các điểm chuẩn học thuật, các vấn đề tối ưu hóa thường chỉ xuất hiện ở quy mô lớn. Bạn không bao giờ thực sự biết điều gì sẽ xảy ra cho đến khi bạn mở rộng quy mô. Bất kỳ ai đọc bài báo M1 của chúng tôi sẽ nhớ lại các vấn đề về độ chính xác nghiêm trọng mà chúng tôi gặp phải trong quá trình huấn luyện RL — những vấn đề lẽ ra đã được phát hiện sớm hơn. Quay lại và phân tích sự hội tụ số học của Lightning Attention với kinh nghiệm đó trong tay là điều cực kỳ sáng tỏ.
Việc khám phá ra các vấn đề thực sự thường khó hơn nhiều so với việc giải quyết chúng.
Một bản giao hưởng của các biến số
Có quá nhiều biến số trong quá trình huấn luyện mô hình. Các kiến trúc khác nhau hoạt động rất khác nhau trên các phân phối dữ liệu khác nhau và với các trình tối ưu hóa khác nhau. Trong một thế giới mà dữ liệu của chúng ta liên tục được cập nhật, một thử nghiệm được chạy trên hỗn hợp dữ liệu của tháng trước có thể cho kết quả ngược lại ngày hôm nay.
Chúng ta không thể quan sát mọi thứ một cách hoàn hảo — nhưng chúng ta đang nỗ lực tìm kiếm các chiến lược thử nghiệm đáng tin cậy hơn.
Cơ sở hạ tầng: Nơi lý thuyết gặp kim loại
So với chú ý đầy đủ, cơ sở hạ tầng cho chú ý tuyến tính và thưa thớt còn non nớt hơn nhiều. Để thực sự đạt được kết quả đã hứa, vẫn còn rất nhiều công việc nền tảng cần hoàn thành.
Hãy lấy ví dụ về chú ý tuyến tính: Nếu bạn phân tích cường độ tính toán của các kiến trúc tuyến tính hiện có, nhiều kiến trúc trong số đó bị giới hạn bởi bộ nhớ — ngay cả trong quá trình huấn luyện. Nếu không có tối ưu hóa IO cực đoan, bạn về cơ bản sẽ bỏ lỡ một lượng lớn FLOPs của GPU. Và suy luận mang lại nhiều thách thức hơn cả huấn luyện: Làm thế nào để cung cấp một dịch vụ thực sự nhanh hơn và rẻ hơn? Chú ý tuyến tính có độ phức tạp tính toán tuyến tính và sử dụng bộ nhớ không đổi. Điều đó có nghĩa là có một điểm giao nhau, nơi nó trở nên hiệu quả hơn chú ý đầy đủ về tính toán và bộ nhớ. Về lý thuyết, điểm đó nằm ở vài nghìn token — không quá dài đối với các mô hình lớn ngày nay.
Nhưng đó chỉ là lý thuyết. Chúng ta cần giải quyết một vài vấn đề chính để thực sự đạt được điều đó:
- Lưu trữ trạng thái có độ chính xác thấp: Chú ý tuyến tính hiện tại nhạy cảm với độ chính xác số học hơn nhiều so với chú ý đầy đủ.
- Bộ nhớ đệm tiền tố: Trong các ứng dụng thực tế, tỷ lệ trúng bộ nhớ đệm cho các cuộc trò chuyện rất cao. Một kiến trúc mới phải xử lý điều này một cách duyên dáng.
- Giải mã suy đoán: Làm thế nào để tối ưu hóa giải mã suy đoán với xương sống chú ý tuyến tính? Chà, may mắn thay, tất cả những điều này dường như có thể giải quyết được.
IV. Bước tiếp theo
Mở rộng quy mô vẫn là tên của trò chơi, và mở rộng quy mô ngữ cảnh là một trong những vấn đề chính. Độ dài ngữ cảnh dài hơn và dài hơn là chìa khóa trong cả tiền huấn luyện và hậu huấn luyện. Khi sự tăng trưởng tính toán GPU chậm lại trong khi độ dài dữ liệu tiếp tục tăng, lợi ích của chú ý tuyến tính và thưa thớt sẽ dần xuất hiện. Chúng ta nên chuẩn bị ngay bây giờ:
- Dữ liệu tốt hơn: Dữ liệu ngữ cảnh dài đa phương thức, giàu thông tin hơn.
- Đánh giá tốt hơn: Hệ thống đánh giá và các mô hình thử nghiệm mang tính thông tin cao hơn để tăng tốc độ lặp lại.
- Cơ sở hạ tầng tốt hơn: Cơ sở hạ tầng huấn luyện và suy luận trưởng thành để khai thác tối đa tiềm năng của GPU.
V. Phụ lục: Mã SWA…
Chúng tôi vô tình để mã suy luận SWA trong bản phát hành mã nguồn mở và một số người đã hỏi tại sao nó không được sử dụng trong mô hình cuối cùng. Câu trả lời đơn giản: hiệu suất không đủ tốt.
Thí nghiệm đó là từ khá sớm, trước khi GPT-OSS được phát hành mã nguồn mở (nhân tiện, chúng tôi khá ngạc nhiên khi thấy cấu trúc của nó). Nhưng chúng tôi có thể chia sẻ một bản tóm tắt ngắn gọn về nỗ lực thất bại của mình. Chúng tôi đã cố gắng điều chỉnh CPT thành SWA kết hợp, kiểm tra cả trộn lớp trong và lớp ngoài. Động lực cho việc trộn lớp trong là để cân bằng cường độ tính toán trên tất cả các lớp, điều này thân thiện với cả PP trong huấn luyện và PP hoặc AFD trong suy luận. Thật không may, cả hai đều không hoạt động. Hiệu suất giảm đáng kể khi độ dài ngữ cảnh tăng — điều này không thể chấp nhận được trong các kịch bản tác nhân.
Phân tích của chúng tôi cho thấy rằng nhiều mẫu chú ý toàn cầu (như đầu truy xuất và đầu cảm ứng) đã được thiết lập sớm trong quá trình tiền huấn luyện. CPT khó có thể điều chỉnh các mẫu đó sau đó. Chắc chắn bạn có thể giảm thiểu vấn đề bằng cách sử dụng các thăm dò dữ liệu để xác định và giữ các đầu đó làm chú ý đầy đủ — nhưng thật không may, gần như không thể khám phá tất cả chúng từ các tiên nghiệm của con người. (Và không, vấn đề này không liên quan đến các điểm nghẽn chú ý.)
Nếu bạn quan tâm đến dòng nghiên cứu này, chúng tôi khuyên bạn nên xem xét kỹ hơn GPT-OSS, CWM và Gemma, đặc biệt là hiệu suất ngữ cảnh dài của chúng.
Cuối cùng, chúng tôi đang tuyển dụng! Nếu bạn muốn tham gia cùng chúng tôi, hãy gửi sơ yếu lý lịch của bạn đến guixianren@minimaxi.com.
Tài liệu tham khảo
- MiniMax-01: Scaling Foundation Models with Lightning Attention
- MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention
- CWM: An Open-Weights LLM for Research on Code Generation with World Models
- Qwen3-Next
- Gemma 3 Technical Report
- gpt-oss-120b & gpt-oss-20b Model Card
- Retrieval Head Mechanistically Explains Long-Context Factuality
- https://transformer-circuits.pub/2022/in-context-learning-and-induction-heads/index.html
Thảo luận về bài viết này
AWESOME INSIGHTS
Không có bữa trưa miễn phí trong Chú ý Tuyến tính, thực sự là một bài học thực tế. Mong chờ bước tiếp theo của bạn!!!!
Ontological Geometric Self-Evolving
Các thông số chi tiết cho nút 8 byte được sử dụng trong các phiên bản có thể mở rộng của Khung OGSE (cụ thể là v8.1 và v8.1 Scalable). Định dạng cực kỳ nhỏ gọn này là điều cần thiết để đạt được các mục tiêu khả năng mở rộng khổng lồ của hệ thống, cho phép khung quản lý hơn một nghìn tỷ (1T+) nút trong khi giảm thiểu việc sử dụng bộ nhớ.

Rất tiện lợi khi Winwin có mọi thứ. Tôi không cần phải có hai trang web khác nhau. Tôi có thể đặt cược vào bóng đá, sau đó vào sòng bạc trực tiếp hoặc chơi Aviator trong khi chờ đợi trận đấu. Tất cả từ một tài khoản tại PKR.
Link bài viết gốc
- Tags:
- Ai
- 11 Ngày Trước
- Huggingface.co