Microsoft ra mắt Phi-4-Reasoning-Plus, một mô hình suy luận trọng lượng mở nhỏ, mạnh mẽ!

Microsoft ra mắt Phi-4-Reasoning-Plus, một mô hình suy luận trọng lượng mở nhỏ, mạnh mẽ.

  • 8 min read
Microsoft ra mắt Phi-4-Reasoning-Plus, một mô hình suy luận trọng lượng mở nhỏ, mạnh mẽ!
Microsoft ra mắt Phi-4-Reasoning-Plus, một mô hình suy luận trọng lượng mở nhỏ, mạnh mẽ.

Microsoft ra mắt Phi-4-Reasoning-Plus, một mô hình suy luận nhỏ, mạnh mẽ, trọng số mở!

Microsoft Research đã công bố ra mắt Phi-4-reasoning-plus, một mô hình ngôn ngữ trọng số mở được xây dựng cho các tác vụ đòi hỏi khả năng suy luận sâu sắc, có cấu trúc.

Tiếp nối kiến trúc của Phi-4 đã được phát hành trước đó, mô hình mới tích hợp tinh chỉnh có giám sát và học tăng cường để mang lại hiệu suất được cải thiện trên các tiêu chuẩn về toán học, khoa học, mã hóa và các tác vụ dựa trên logic.

Phi-4-reasoning-plus là một mô hình Transformer chỉ giải mã dày đặc với 14 tỷ tham số, nhấn mạnh chất lượng hơn quy mô. Quá trình đào tạo của nó bao gồm 16 tỷ mã thông báo — khoảng 8,3 tỷ trong số đó là duy nhất — được lấy từ các tập dữ liệu dựa trên web tổng hợp và được tuyển chọn.

Một giai đoạn học tăng cường (RL), chỉ sử dụng khoảng 6.400 vấn đề tập trung vào toán học, tiếp tục tinh chỉnh khả năng suy luận của mô hình.

Mô hình đã được phát hành theo giấy phép MIT cho phép — cho phép sử dụng rộng rãi cho các ứng dụng thương mại và doanh nghiệp, đồng thời tinh chỉnh hoặc chắt lọc, không hạn chế — và tương thích với các khung suy luận được sử dụng rộng rãi bao gồm Hugging Face Transformers, vLLM, llama.cpp và Ollama.

Microsoft cung cấp các đề xuất chi tiết về các tham số suy luận và định dạng lời nhắc hệ thống để giúp các nhà phát triển tận dụng tối đa mô hình.

Vượt trội hơn các mô hình lớn hơn

Sự phát triển của mô hình phản ánh sự nhấn mạnh ngày càng tăng của Microsoft vào việc đào tạo các mô hình nhỏ hơn có khả năng cạnh tranh với các hệ thống lớn hơn nhiều về hiệu suất.

Mặc dù có kích thước tương đối khiêm tốn, Phi-4-reasoning-plus vượt trội hơn các mô hình trọng số mở lớn hơn như DeepSeek-R1-Distill-70B trên một số tiêu chuẩn khắt khe.

Ví dụ: trong kỳ thi toán AIME 2025, nó mang lại độ chính xác trung bình cao hơn khi vượt qua cả 30 câu hỏi ngay lần thử đầu tiên (một kỳ tích được gọi là “pass@1”) so với mô hình chắt lọc tham số 70B và tiếp cận hiệu suất của chính DeepSeek-R1, lớn hơn nhiều ở mức 671B tham số.

Tư duy có cấu trúc thông qua tinh chỉnh

Để đạt được điều này, Microsoft đã sử dụng chiến lược đào tạo tập trung vào dữ liệu.

Trong giai đoạn tinh chỉnh có giám sát, mô hình đã được đào tạo bằng cách sử dụng sự kết hợp được tuyển chọn các dấu vết suy luận chuỗi tư duy tổng hợp và các lời nhắc chất lượng cao đã được lọc.

Một cải tiến quan trọng trong phương pháp đào tạo là việc sử dụng các đầu ra suy luận có cấu trúc được đánh dấu bằng các mã thông báo đặc biệt <think></think>.

Chúng hướng dẫn mô hình tách các bước suy luận trung gian khỏi câu trả lời cuối cùng, thúc đẩy tính minh bạch và mạch lạc trong giải quyết vấn đề dạng dài.

Học tăng cường để có độ chính xác và chiều sâu

Sau khi tinh chỉnh, Microsoft đã sử dụng học tăng cường dựa trên kết quả — cụ thể, thuật toán Tối ưu hóa Chính sách Tương đối Nhóm (GRPO) — để cải thiện độ chính xác và hiệu quả đầu ra của mô hình.

Hàm phần thưởng RL được tạo ra để cân bằng tính chính xác với tính ngắn gọn, phạt lặp lại và thực thi tính nhất quán về định dạng. Điều này dẫn đến các phản hồi dài hơn nhưng chu đáo hơn, đặc biệt là đối với những câu hỏi mà ban đầu mô hình thiếu tự tin.

Được tối ưu hóa cho các ràng buộc về nghiên cứu và kỹ thuật

Phi-4-reasoning-plus được dự định sử dụng trong các ứng dụng được hưởng lợi từ khả năng suy luận chất lượng cao trong các ràng buộc về bộ nhớ hoặc độ trễ. Nó hỗ trợ độ dài ngữ cảnh mặc định là 32.000 mã thông báo và đã chứng minh hiệu suất ổn định trong các thử nghiệm với đầu vào lên đến 64.000 mã thông báo.

Nó được sử dụng tốt nhất trong môi trường giống như trò chuyện và hoạt động tối ưu với lời nhắc hệ thống hướng dẫn rõ ràng nó suy luận từng bước qua các vấn đề trước khi đưa ra giải pháp.

Kiểm tra an toàn mở rộng và hướng dẫn sử dụng

Microsoft định vị mô hình này như một công cụ nghiên cứu và một thành phần cho các hệ thống AI tổng quát hơn là một giải pháp thay thế trực tiếp cho tất cả các tác vụ hạ nguồn.

Các nhà phát triển nên đánh giá cẩn thận hiệu suất, an toàn và tính công bằng trước khi triển khai mô hình trong các môi trường rủi ro cao hoặc được quản lý.

Phi-4-reasoning-plus đã trải qua quá trình đánh giá an toàn mở rộng, bao gồm cả việc red-teaming bởi Nhóm AI Red của Microsoft và đo điểm chuẩn bằng các công cụ như Toxigen để đánh giá các phản hồi của nó trên các danh mục nội dung nhạy cảm.

Theo Microsoft, bản phát hành này chứng minh rằng với dữ liệu và kỹ thuật đào tạo được tuyển chọn cẩn thận, các mô hình nhỏ có thể mang lại hiệu suất suy luận mạnh mẽ — và quyền truy cập mở, dân chủ để khởi động.

Dưới đây là phiên bản sửa đổi của phần ý nghĩa đối với doanh nghiệp theo giọng văn kỹ thuật hơn, theo phong cách tin tức, phù hợp với một ấn phẩm công nghệ kinh doanh:

Ý nghĩa đối với người ra quyết định kỹ thuật doanh nghiệp

Việc phát hành Phi-4-reasoning-plus của Microsoft có thể mang đến những cơ hội có ý nghĩa cho các bên liên quan kỹ thuật doanh nghiệp quản lý phát triển mô hình AI, điều phối hoặc cơ sở hạ tầng dữ liệu.

Đối với các kỹ sư AI và người quản lý vòng đời mô hình, kích thước tham số 14B của mô hình kết hợp với hiệu suất điểm chuẩn cạnh tranh giới thiệu một tùy chọn khả thi cho suy luận hiệu suất cao mà không cần nhu cầu cơ sở hạ tầng của các mô hình lớn hơn đáng kể. Khả năng tương thích của nó với các khung như Hugging Face Transformers, vLLM, llama.cpp và Ollama cung cấp tính linh hoạt triển khai trên các ngăn xếp doanh nghiệp khác nhau, bao gồm cả môi trường chứa và không máy chủ.

Các nhóm chịu trách nhiệm triển khai và mở rộng quy mô các mô hình học máy có thể thấy hỗ trợ của mô hình cho các ngữ cảnh 32k-token — có thể mở rộng lên 64k trong thử nghiệm — đặc biệt hữu ích trong các trường hợp sử dụng nhiều tài liệu như phân tích pháp lý, QA kỹ thuật hoặc mô hình tài chính. Cấu trúc tích hợp của việc tách suy luận chuỗi tư duy khỏi câu trả lời cuối cùng cũng có thể đơn giản hóa việc tích hợp vào các giao diện nơi yêu cầu khả năng giải thích hoặc kiểm toán.

Đối với các nhóm điều phối AI, Phi-4-reasoning-plus cung cấp kiến trúc mô hình có thể dễ dàng đưa vào các đường ống với các ràng buộc về tài nguyên. Điều này có liên quan trong các tình huống mà suy luận theo thời gian thực phải xảy ra trong giới hạn độ trễ hoặc chi phí. Khả năng tổng quát hóa đã được chứng minh của nó đối với các vấn đề ngoài miền, bao gồm các tác vụ NP-khó như 3SAT và TSP, cho thấy tiện ích trong các trường hợp sử dụng lập kế hoạch thuật toán và hỗ trợ quyết định ngoài những mục tiêu được nhắm mục tiêu rõ ràng trong quá trình đào tạo.

Các trưởng nhóm kỹ thuật dữ liệu cũng có thể xem xét định dạng suy luận của mô hình — được thiết kế để phản ánh các bước giải quyết vấn đề trung gian — như một cơ chế để theo dõi tính nhất quán logic trên các chuỗi dài dữ liệu có cấu trúc. Định dạng đầu ra có cấu trúc có thể được tích hợp vào các lớp xác thực hoặc hệ thống ghi nhật ký để hỗ trợ khả năng giải thích trong các ứng dụng giàu dữ liệu.

Từ quan điểm quản trị và an toàn, Phi-4-reasoning-plus kết hợp nhiều lớp điều chỉnh an toàn sau đào tạo và đã trải qua quá trình kiểm tra đối kháng bởi Nhóm AI Red nội bộ của Microsoft. Đối với các tổ chức tuân theo các yêu cầu tuân thủ hoặc kiểm toán, điều này có thể làm giảm chi phí phát triển quy trình làm việc điều chỉnh tùy chỉnh từ đầu.

Nhìn chung, Phi-4-reasoning-plus cho thấy sự cuồng nhiệt suy luận do những người như dòng mô hình “o” của OpenAIDeepSeek R1 đang tiếp tục tăng tốc và di chuyển xuống các mô hình nhỏ hơn, dễ tiếp cận hơn, giá cả phải chăng hơn và có thể tùy chỉnh.

Đối với những người ra quyết định kỹ thuật có nhiệm vụ quản lý hiệu suất, khả năng mở rộng, chi phí và rủi ro, nó cung cấp một giải pháp thay thế mô-đun, có thể diễn giải có thể được đánh giá và tích hợp trên cơ sở linh hoạt — cho dù trong các điểm cuối suy luận riêng biệt, công cụ nhúng hay hệ thống AI tổng quát toàn ngăn xếp.

Recommended for You

Chi phí ẩn khi triển khai AI- Tại sao các mô hình Claude có thể đắt hơn GPT từ 20-30% trong môi trường doanh nghiệp

Chi phí ẩn khi triển khai AI- Tại sao các mô hình Claude có thể đắt hơn GPT từ 20-30% trong môi trường doanh nghiệp

Một bài viết về chi phí ẩn khi triển khai AI, đặc biệt là so sánh chi phí của các mô hình Claude với GPT trong môi trường doanh nghiệp.

AI lỏng đang cách mạng hóa LLM để hoạt động trên các thiết bị biên như điện thoại thông minh với mô hình 'Hyena Edge' mới

AI lỏng đang cách mạng hóa LLM để hoạt động trên các thiết bị biên như điện thoại thông minh với mô hình 'Hyena Edge' mới

Liquid AI đang cách mạng hóa LLM để hoạt động trên các thiết bị biên như điện thoại thông minh với mô hình 'Hyena Edge' mới