Mistral vừa cập nhật mô hình Small mã nguồn mở của mình từ 3.1 lên 3.2- đây là lý do

  • 7 min read
Mistral vừa cập nhật mô hình Small mã nguồn mở của mình từ 3.1 lên 3.2- đây là lý do

Mistral vừa cập nhật mô hình Small mã nguồn mở của mình từ 3.1 lên 3.2: Đây là lý do

Công ty AI đầy triển vọng của Pháp, Mistral, vẫn tiếp tục tung ra các bản phát hành mới trong mùa hè này.

Chỉ vài ngày sau khi công bố dịch vụ đám mây AI được tối ưu hóa trong nước của riêng mình, Mistral Compute, công ty được tài trợ tốt này đã phát hành bản cập nhật cho mô hình mã nguồn mở 24B parameter Mistral Small, nhảy từ bản phát hành 3.1 lên 3.2-24B Instruct-2506.

[Video Player]

Phiên bản mới xây dựng trực tiếp trên Mistral Small 3.1, nhằm mục đích cải thiện các hành vi cụ thể như tuân theo hướng dẫn, ổn định đầu ra và tính mạnh mẽ của chức năng gọi. Mặc dù các chi tiết kiến trúc tổng thể vẫn không thay đổi, bản cập nhật giới thiệu các cải tiến có mục tiêu ảnh hưởng đến cả đánh giá nội bộ và điểm chuẩn công khai.

Theo Mistral AI, Small 3.2 giỏi tuân thủ các hướng dẫn chính xác hơn và giảm khả năng tạo vô hạn hoặc lặp đi lặp lại - một vấn đề đôi khi thấy trong các phiên bản trước khi xử lý các lời nhắc dài hoặc mơ hồ.

Tương tự, mẫu chức năng gọi đã được nâng cấp để hỗ trợ các kịch bản sử dụng công cụ đáng tin cậy hơn, đặc biệt là trong các khuôn khổ như vLLM.

Và đồng thời, nó có thể chạy trên thiết lập với một GPU Nvidia A100/H100 80GB duy nhất, mở ra đáng kể các tùy chọn cho các doanh nghiệp có nguồn lực tính toán và/hoặc ngân sách eo hẹp.

Một mô hình được cập nhật chỉ sau 3 tháng

Mistral Small 3.1 đã được công bố vào tháng 3 năm 2025 như một bản phát hành mở hàng đầu trong phạm vi tham số 24B. Nó cung cấp đầy đủ các khả năng đa phương thức, hiểu đa ngôn ngữ và xử lý ngữ cảnh dài lên đến 128K token.

Mô hình này được định vị rõ ràng so với các đối thủ độc quyền như GPT-4o Mini, Claude 3.5 Haiku và Gemma 3-it — và theo Mistral, vượt trội hơn chúng trong nhiều tác vụ.

Small 3.1 cũng nhấn mạnh việc triển khai hiệu quả, với tuyên bố chạy suy luận ở 150 token mỗi giây và hỗ trợ sử dụng trên thiết bị với RAM 32 GB.

Bản phát hành đó đi kèm với cả các điểm kiểm tra cơ bản và hướng dẫn, mang lại sự linh hoạt để tinh chỉnh trên các lĩnh vực như pháp lý, y tế và kỹ thuật.

Ngược lại, Small 3.2 tập trung vào các cải tiến phẫu thuật đối với hành vi và độ tin cậy. Nó không nhằm mục đích giới thiệu các khả năng hoặc thay đổi kiến trúc mới. Thay vào đó, nó hoạt động như một bản phát hành bảo trì: dọn dẹp các trường hợp đặc biệt trong tạo đầu ra, thắt chặt tuân thủ hướng dẫn và tinh chỉnh các tương tác lời nhắc hệ thống.

Small 3.2 so với Small 3.1: những gì đã thay đổi?

Điểm chuẩn tuân theo hướng dẫn cho thấy một cải tiến nhỏ nhưng có thể đo lường được. Độ chính xác nội bộ của Mistral đã tăng từ 82,75% trong Small 3.1 lên 84,78% trong Small 3.2.

[Hình ảnh]

Tương tự, hiệu suất trên các tập dữ liệu bên ngoài như Wildbench v2 và Arena Hard v2 đã được cải thiện đáng kể — Wildbench tăng gần 10 điểm phần trăm, trong khi Arena Hard tăng hơn gấp đôi, tăng từ 19,56% lên 43,10%.

Các số liệu nội bộ cũng cho thấy giảm lặp lại đầu ra. Tỷ lệ tạo vô hạn giảm từ 2,11% trong Small 3.1 xuống 1,29% trong Small 3.2 — gần giảm 2 lần. Điều này làm cho mô hình đáng tin cậy hơn cho các nhà phát triển xây dựng các ứng dụng yêu cầu phản hồi nhất quán, có giới hạn.

Hiệu suất trên các điểm chuẩn văn bản và mã hóa trình bày một bức tranh sắc thái hơn. Small 3.2 cho thấy sự tăng trưởng trên HumanEval Plus (88,99% lên 92,90%), MBPP Pass@5 (74,63% lên 78,33%) và SimpleQA. Nó cũng cải thiện khiêm tốn kết quả MMLU Pro và MATH.

[Hình ảnh]

Điểm chuẩn tầm nhìn vẫn chủ yếu nhất quán, với những biến động nhỏ. ChartQA và DocVQA ghi nhận những mức tăng nhỏ, trong khi AI2D và Mathvista giảm dưới hai điểm phần trăm. Hiệu suất tầm nhìn trung bình giảm nhẹ từ 81,39% trong Small 3.1 xuống 81,00% trong Small 3.2.

[Hình ảnh]

Điều này phù hợp với ý định đã nêu của Mistral: Small 3.2 không phải là một cuộc đại tu mô hình, mà là một sự tinh chỉnh. Như vậy, hầu hết các điểm chuẩn đều nằm trong phương sai dự kiến và một số hồi quy dường như là sự đánh đổi cho những cải tiến có mục tiêu ở những nơi khác.

Tuy nhiên, như người dùng năng lượng AI và người có ảnh hưởng @chatgpt21 đã đăng trên X: “Nó trở nên tồi tệ hơn trên MMLU”, có nghĩa là điểm chuẩn Hiểu ngôn ngữ đa nhiệm khổng lồ, một bài kiểm tra đa ngành với 57 câu hỏi được thiết kế để đánh giá hiệu suất LLM rộng rãi trên các lĩnh vực. Thật vậy, Small 3.2 đạt 80,50%, thấp hơn một chút so với 80,62% của Small 3.1.

Giấy phép mã nguồn mở sẽ làm cho nó hấp dẫn hơn đối với những người dùng có ý thức về chi phí và tập trung vào tùy chỉnh

Cả Small 3.1 và 3.2 đều có sẵn theo giấy phép Apache 2.0 và có thể được truy cập thông qua kho chia sẻ mã AI phổ biến Hugging Face.

Small 3.2 được hỗ trợ bởi các khuôn khổ như vLLM và Transformers và yêu cầu khoảng 55 GB RAM GPU để chạy với độ chính xác bf16 hoặc fp16.

Đối với các nhà phát triển muốn xây dựng hoặc phục vụ các ứng dụng, lời nhắc hệ thống và ví dụ suy luận được cung cấp trong kho lưu trữ mô hình.

Mặc dù Mistral Small 3.1 đã được tích hợp vào các nền tảng như Google Cloud Vertex AI và được lên kế hoạch triển khai trên NVIDIA NIM và Microsoft Azure, Small 3.2 hiện chỉ giới hạn ở quyền truy cập tự phục vụ thông qua Hugging Face và triển khai trực tiếp.

Những gì các doanh nghiệp nên biết khi xem xét Mistral Small 3.2 cho các trường hợp sử dụng của họ

Mistral Small 3.2 có thể không làm thay đổi vị thế cạnh tranh trong không gian mô hình trọng lượng mở, nhưng nó thể hiện cam kết của Mistral AI đối với việc tinh chỉnh mô hình lặp đi lặp lại.

Với những cải tiến đáng chú ý về độ tin cậy và xử lý tác vụ — đặc biệt là về độ chính xác của hướng dẫn và sử dụng công cụ — Small 3.2 mang lại trải nghiệm người dùng sạch hơn cho các nhà phát triển và doanh nghiệp xây dựng trên hệ sinh thái Mistral.

Việc nó được tạo ra bởi một công ty khởi nghiệp của Pháp và tuân thủ các quy tắc và quy định của EU như GDPR và Đạo luật AI của EU cũng làm cho nó trở nên hấp dẫn đối với các doanh nghiệp làm việc ở khu vực đó trên thế giới.

Tuy nhiên, đối với những người tìm kiếm những bước nhảy vọt lớn nhất về hiệu suất điểm chuẩn, Small 3.1 vẫn là một điểm tham chiếu — đặc biệt là trong một số trường hợp, chẳng hạn như MMLU, Small 3.2 không vượt trội hơn người tiền nhiệm của nó. Điều đó làm cho bản cập nhật trở thành một tùy chọn tập trung vào sự ổn định hơn là một bản nâng cấp thuần túy, tùy thuộc vào trường hợp sử dụng.

Recommended for You

Các cuộc tấn công mạng vào bệnh viện tốn 600 nghìn đô la mỗi giờ. Đây là cách AI đang thay đổi phép tính

Các cuộc tấn công mạng vào bệnh viện tốn 600 nghìn đô la mỗi giờ. Đây là cách AI đang thay đổi phép tính

Zencoder vừa ra mắt một AI có thể thay thế nhiều ngày làm việc QA chỉ trong hai giờ

Zencoder vừa ra mắt một AI có thể thay thế nhiều ngày làm việc QA chỉ trong hai giờ

Zencoder vừa ra mắt một AI có thể thay thế nhiều ngày làm việc QA chỉ trong hai giờ.