Granite 4.0 Nano- Bạn có thể đi nhỏ đến mức nào?
Granite 4.0 Nano- Bạn có thể đi nhỏ đến mức nào?
- 4 min read
Granite 4.0 Nano: Nhỏ đến mức nào có thể đi?
Hôm nay, chúng tôi vui mừng giới thiệu Granite 4.0 Nano, các mô hình nhỏ nhất của chúng tôi cho đến nay, được phát hành như một phần của dòng mô hình Granite 4.0 của IBM. Được thiết kế cho các ứng dụng biên và trên thiết bị, các mô hình này thể hiện hiệu suất vượt trội so với kích thước của chúng và đại diện cho cam kết liên tục của IBM trong việc phát triển các mô hình mạnh mẽ, hữu ích mà không cần hàng trăm tỷ tham số để hoàn thành công việc.
Giống như tất cả các mô hình Granite 4.0, các mô hình Nano được phát hành theo giấy phép Apache 2.0 với hỗ trợ kiến trúc gốc trên các runtime phổ biến như vLLM, llama.cpp và MLX. Các mô hình đã được huấn luyện với các phương pháp huấn luyện, quy trình và hơn 15 nghìn tỷ token dữ liệu huấn luyện được cải tiến tương tự đã được phát triển cho các mô hình Granite 4.0 ban đầu. Bản phát hành này bao gồm các biến thể hưởng lợi từ kiến trúc kết hợp dựa trên SSM hiệu quả mới của Granite 4.0, và giống như tất cả các mô hình ngôn ngữ Granite, các mô hình Granite 4.0 Nano cũng mang chứng nhận ISO 42001 của IBM về phát triển mô hình có trách nhiệm, mang lại cho người dùng sự tự tin hơn rằng các mô hình được xây dựng và quản trị theo tiêu chuẩn toàn cầu.
Cụ thể, Granite 4.0 Nano bao gồm 4 mô hình hướng dẫn và các phiên bản mô hình cơ sở tương ứng của chúng:
- Granite 4.0 H 1B – Một LLM dày đặc với khoảng 1,5 tỷ tham số, có kiến trúc dựa trên SSM kết hợp.
- Granite 4.0 H 350M – Một LLM dày đặc với khoảng 350 triệu tham số, có kiến trúc dựa trên SSM kết hợp.
- Granite 4.0 1B và Granite 4.0 350M – Các phiên bản transformer truyền thống thay thế cho các mô hình Nano 1B và 350M của chúng tôi, được thiết kế để hỗ trợ các khối lượng công việc mà kiến trúc kết hợp có thể chưa có hỗ trợ tối ưu (ví dụ: Llama.cpp).
Việc xây dựng các mô hình có tham số dưới 1 tỷ đến khoảng 1 tỷ là một không gian năng động và cạnh tranh, với những tiến bộ gần đây về hiệu suất và kiến trúc được thực hiện bởi nhiều nhà phát triển mô hình như Alibaba (Qwen), LiquidAI (LFM), Google (Gemma) và những người khác. Khi so sánh với các mô hình khác này, các mô hình Granite 4.0 Nano thể hiện sự gia tăng đáng kể về khả năng có thể đạt được với số lượng tham số tối thiểu, như được đo lường bởi một loạt các bài kiểm tra chung trên các lĩnh vực Kiến thức Chung, Toán học, Mã và An toàn.
Trong quá trình thực hiện các bài kiểm tra chung, các mô hình Granite Nano đã vượt trội hơn nhiều mô hình có kích thước tương tự trong các tác vụ quan trọng đối với quy trình làm việc của tác nhân, bao gồm tuân theo hướng dẫn và gọi hàm, được đo lường bởi các bài kiểm tra IFEval và Berkley’s Function Calling Leaderboard v3 (BFCLv3).
Chi tiết đầy đủ về Granite 4.0 Nano có thể được tìm thấy trên các thẻ mô hình Hugging Face. Trong tương lai, hãy mong đợi nhiều bản phát hành hơn từ IBM khi chúng tôi tiếp tục phát triển dòng Granite 4.0 và nỗ lực làm cho AI trở thành một công cụ hiệu quả và mạnh mẽ hơn cho các nhà phát triển.
Phụ lục I. Phân tích các Bài kiểm tra Hiệu suất Chung
Link bài viết gốc
- Tags:
- Ai
- 13 Ngày Trước
- Huggingface.co