Điều gì tạo nên dữ liệu suy luận tốt

Điều gì tạo nên dữ liệu suy luận tốt

  • 5 min read
Điều gì tạo nên dữ liệu suy luận tốt
Điều gì tạo nên dữ liệu suy luận tốt

Điều gì tạo nên dữ liệu lý luận tốt?

Artificial Analysis là một bài kiểm tra toàn diện phản ánh sự đa dạng trong khả năng lý luận của các mô hình. Mô hình mới ra mắt của chúng tôi, MiniMax M2, đứng Top-1 trong các mô hình mã nguồn mở và Top-5 trong tất cả các mô hình.

Hình ảnh bảng xếp hạng MiniMax M2

Trước đây, các cuộc thảo luận cộng đồng về việc cải thiện khả năng lý luận thường tập trung vào việc tối ưu hóa các thuật toán RL hoặc xây dựng dữ liệu có thể xác minh trong các lĩnh vực như Toán học và Mã lệnh. Trong dự án M2, chúng tôi đã tiến hành nhiều khám phá “tổng quát” hơn. Với tư cách là thành viên của Nhóm Lý luận, tôi muốn chia sẻ một số phát hiện và suy nghĩ của chúng tôi về dữ liệu — điều gì tạo nên dữ liệu lý luận tốt.

Chất lượng của Lập luận theo Chuỗi (CoT) và Câu trả lời

Chất lượng của CoT được phản ánh ở sự hoàn chỉnh logic mà không có sự dư thừa quá mức. Ví dụ, trong các tác vụ tuân theo hướng dẫn, CoT quá ngắn thường dẫn đến việc mô hình bỏ qua các bước hoặc quá tự tin, gây tổn hại đáng kể đến hiệu suất cuối cùng và khả năng khái quát hóa của mô hình. Đối với câu trả lời, chúng tôi nhận thấy hầu hết các công việc mã nguồn mở đều quá khớp với các mẫu định dạng của một số bài kiểm tra để đạt điểm cao trên bảng xếp hạng. Mặc dù điều này có hiệu quả đối với các hướng dữ liệu đơn lẻ, nhưng nó cản trở nghiêm trọng khả năng khái quát hóa của mô hình cho một mô hình đa mục đích. Do đó, khi tổng hợp dữ liệu, chúng tôi đã giới thiệu sự đa dạng về định dạng và quan sát thấy những cải thiện đáng kể trong các thử nghiệm hợp nhất đa hướng. Trong khi đó, đối với các trường hợp xấu tiềm ẩn trong CoT và câu trả lời, chẳng hạn như ảo giác, lỗi tuân theo hướng dẫn và lỗi logic. Chúng tôi đã thực hiện làm sạch dữ liệu bằng các quy tắc + LLM-đóng-vai-trò-thẩm-định. Bằng cách liên tục lặp lại quy trình loại bỏ sự không nhất quán này, chúng tôi ngày càng tin rằng mỗi trường hợp xấu đều có dữ liệu đào tạo “bẩn” tương ứng của nó, và những cải tiến về chất lượng dữ liệu chắc chắn sẽ được phản ánh trong hiệu suất của mô hình.

Độ khó và Sự đa dạng của Phân phối Dữ liệu

Giống như nhiều cuộc thảo luận trong cộng đồng, các thử nghiệm của chúng tôi cũng phát hiện ra rằng dữ liệu toán học và mã lệnh là rất quan trọng để cải thiện khả năng lý luận. Khả năng lý luận mà hai loại dữ liệu này mang lại thường có lợi cho tất cả các tác vụ, chẳng hạn như STEM và IF. Tuy nhiên, chúng tôi cũng nhận thấy rằng chúng ta vẫn cần dữ liệu đủ đa dạng để bao quát nhiều lĩnh vực hơn, chẳng hạn như lý luận logic, khoa học, tuân theo hướng dẫn và các tác vụ sáng tạo mở. Các tác vụ từ các lĩnh vực khác nhau có các mô hình tư duy khác nhau, và sự đa dạng của lý luận là nền tảng cho khả năng khái quát hóa. Ngoài ra, chúng tôi nhận thấy trong các thử nghiệm của mình rằng các truy vấn khó hơn và phức tạp hơn có hiệu quả hơn cho việc đào tạo mô hình, vì vậy chúng tôi đã điều chỉnh phân phối dữ liệu dựa trên tỷ lệ vượt qua (đối với các tác vụ có thể xác minh) hoặc điểm độ phức tạp (đối với các tác vụ không thể xác minh).

Mở rộng Dữ liệu

Cuối cùng, một chủ đề cũ nhưng quan trọng: Mở rộng. Khi chất lượng và sự đa dạng của dữ liệu đáp ứng các tiêu chuẩn, việc tăng quy mô dữ liệu liên tục mang lại những cải thiện đáng kể. Cho dù đó là tăng số lượng truy vấn, thực hiện 1 câu hỏi - nhiều câu trả lời, đào tạo đa kỷ nguyên, hoặc thậm chí kết hợp dữ liệu từ các hướng khác nhau để mang lại nhiều bước đào tạo hơn, mô hình đều dần dần cải thiện. Trên thực tế, việc mở rộng dữ liệu là một vấn đề rất định hướng kỹ thuật, vì vậy chúng tôi đã cố gắng hợp nhất tất cả dữ liệu dựa trên đặc điểm của tác vụ, chia chúng thành hai quy trình dữ liệu: Có thể xác minh và Không thể xác minh, để tổng hợp và xử lý dữ liệu tự động. Trên thực tế, nhóm Lý luận gần như hoàn toàn bao gồm các thực tập sinh, và quy trình dữ liệu này đã đảm bảo hiệu quả cộng tác của nhóm và tính nhất quán trong kết quả dữ liệu.

Công việc Tương lai

Trong tương lai, chúng tôi sẽ tiếp tục đi sâu vào hai hướng. Một là các khả năng phức hợp, chẳng hạn như kiến thức + lý luận, và việc nâng cao các tác vụ lý luận bằng các công cụ trong các kịch bản Tác nhân (Agent). Hướng còn lại là cách tích hợp các tác vụ Có thể xác minh và Không thể xác minh, chẳng hạn như sự hợp nhất của CoT trên các lĩnh vực khác nhau và sự khái quát hóa khả năng lý luận, cũng như sự thống nhất của các phương pháp đào tạo. Nhóm của chúng tôi cũng đang liên tục phát triển và mở rộng. Chúng tôi hoan nghênh các đồng nghiệp quan tâm tham gia thảo luận. Rất sẵn lòng trò chuyện!

Recommended for You

Căn chỉnh với cái gì? Suy nghĩ lại về Tổng quát hóa Tác nhân trong MiniMax M2

Căn chỉnh với cái gì? Suy nghĩ lại về Tổng quát hóa Tác nhân trong MiniMax M2

Căn chỉnh với cái gì? Suy nghĩ lại về Tổng quát hóa Tác nhân trong MiniMax M2

Tại sao MiniMax M2 lại trở thành một Mô hình Chú ý Toàn phần?

Tại sao MiniMax M2 lại trở thành một Mô hình Chú ý Toàn phần?

Tại sao MiniMax M2 lại trở thành một Mô hình Chú ý Toàn phần?