AI21’s Jamba Reasoning 3B tái định nghĩa 'Nhỏ' có nghĩa là gì trong LLM — Bối cảnh 250K trên Máy tính xách tay

Sự bổ sung mới nhất cho làn sóng mô hình nhỏ dành cho các doanh nghiệp đến từ AI21 Labs, công ty đang đặt cược rằng việc đưa các mô hình vào thiết bị sẽ giải phóng lưu lượng truy cập trong các trung tâm dữ liệu.

  • 4 min read
Sự bổ sung mới nhất cho làn sóng mô hình nhỏ dành cho các doanh nghiệp đến từ AI21 Labs, công ty đang đặt cược rằng việc đưa các mô hình vào thiết bị sẽ giải phóng lưu lượng truy cập trong các trung tâm dữ liệu.

AI21’s Jamba reasoning 3B định nghĩa lại “nhỏ” có nghĩa là gì trong LLM — 250K ngữ cảnh trên máy tính xách tay

Thành viên mới nhất của làn sóng mô hình nhỏ dành cho doanh nghiệp đến từ AI21 Labs, công ty này đang đặt cược rằng việc đưa các mô hình vào thiết bị sẽ giải phóng lưu lượng truy cập trong các trung tâm dữ liệu.

AI21’s Jamba Reasoning 3B, một mô hình nguồn mở “nhỏ” có thể chạy suy luận mở rộng, tạo mã và phản hồi dựa trên sự thật cơ bản. Jamba Reasoning 3B xử lý hơn 250.000 token và có thể chạy suy luận trên các thiết bị biên.

Công ty cho biết Jamba Reasoning 3B hoạt động trên các thiết bị như máy tính xách tay và điện thoại di động.

Ori Goshen, đồng Giám đốc điều hành của AI21, nói với VentureBeat rằng công ty nhận thấy nhiều trường hợp sử dụng doanh nghiệp hơn cho các mô hình nhỏ, chủ yếu là vì việc di chuyển hầu hết suy luận sang thiết bị sẽ giải phóng các trung tâm dữ liệu.

Ông Goshen cho biết: “Những gì chúng ta đang thấy hiện nay trong ngành là một vấn đề kinh tế, nơi có sự xây dựng các trung tâm dữ liệu rất tốn kém, và doanh thu được tạo ra từ các trung tâm dữ liệu so với tỷ lệ khấu hao của tất cả các chip của họ cho thấy phép toán không cộng lại”.

Ông nói thêm rằng trong tương lai “ngành công nghiệp nói chung sẽ là hỗn hợp theo nghĩa là một số tính toán sẽ được thực hiện trên các thiết bị cục bộ và suy luận khác sẽ chuyển sang GPU”.

Đã thử nghiệm trên MacBook

Jamba Reasoning 3B kết hợp kiến trúc Mamba và Transformers để cho phép nó chạy một cửa sổ 250K token trên các thiết bị. AI21 cho biết nó có thể thực hiện tốc độ suy luận nhanh hơn 2-4 lần. Goshen cho biết kiến trúc Mamba đã đóng góp đáng kể vào tốc độ của mô hình.

Kiến trúc kết hợp của Jamba Reasoning 3B cũng cho phép nó giảm yêu cầu về bộ nhớ, do đó giảm nhu cầu tính toán.

AI21 đã thử nghiệm mô hình này trên một MacBook Pro tiêu chuẩn và thấy rằng nó có thể xử lý 35 token mỗi giây.

Goshen cho biết mô hình này hoạt động tốt nhất cho các tác vụ liên quan đến gọi hàm, tạo dựa trên chính sách và định tuyến công cụ. Ông nói rằng các yêu cầu đơn giản, chẳng hạn như yêu cầu thông tin về một cuộc họp sắp tới và yêu cầu mô hình tạo chương trình nghị sự cho nó, có thể được thực hiện trên các thiết bị. Các nhiệm vụ lý luận phức tạp hơn có thể được lưu cho các cụm GPU.

Các mô hình nhỏ trong doanh nghiệp

Các doanh nghiệp đã quan tâm đến việc sử dụng kết hợp các mô hình nhỏ, một số trong số đó được thiết kế đặc biệt cho ngành của họ và một số là các phiên bản cô đọng của LLM.

Vào tháng 9, Meta đã phát hành MobileLLM-R1, một họ các mô hình lý luận có phạm vi từ 140M đến 950M tham số. Các mô hình này được thiết kế cho toán học, mã hóa và lý luận khoa học hơn là các ứng dụng trò chuyện. MobileLLM-R1 có thể chạy trên các thiết bị bị hạn chế về tính toán.

Gemma của Google là một trong những mô hình nhỏ đầu tiên có mặt trên thị trường, được thiết kế để chạy trên các thiết bị di động như máy tính xách tay và điện thoại di động. Gemma kể từ đó đã được mở rộng.

Các công ty như FICO cũng đã bắt đầu xây dựng các mô hình của riêng họ. FICO đã ra mắt các mô hình nhỏ FICO Focused Language và FICO Focused Sequence của mình, mô hình này sẽ chỉ trả lời các câu hỏi cụ thể về tài chính.

Goshen cho biết sự khác biệt lớn mà mô hình của họ cung cấp là nó thậm chí còn nhỏ hơn hầu hết các mô hình và vẫn có thể chạy các tác vụ lý luận mà không làm giảm tốc độ.

Kiểm tra điểm chuẩn

Trong thử nghiệm điểm chuẩn, Jamba Reasoning 3B đã chứng minh hiệu suất mạnh mẽ so với các mô hình nhỏ khác, bao gồm Qwen 4B, Llama 3.2B-3B của Meta và Phi-4-Mini từ Microsoft.

Recommended for You

Meta's Gaia2 vượt xa độ chính xác của công cụ và sở thích người dùng để kiểm tra tính mạnh mẽ trong thế giới thực

Một vấn đề dai dẳng khi đánh giá các tác nhân là làm thế nào để đo lường hiệu suất của chúng trong các kịch bản thực tế.

Nhà nghiên cứu này đã biến mô hình trọng số mở gpt-oss-20b của OpenAI thành mô hình 'cơ sở' phi lý luận với ít điều chỉnh hơn, tự do hơn

Nhà nghiên cứu này đã biến mô hình trọng số mở gpt-oss-20b của OpenAI thành mô hình 'cơ sở' phi lý luận với ít điều chỉnh hơn, tự do hơn

Một nhà nghiên cứu đã biến mô hình mã nguồn mở GPT-OSS-20B của OpenAI thành một mô hình cơ sở không lý luận, ít liên kết và tự do hơn.