Gia đình Olmo 3 của Ai2 thách thức Qwen và Llama với khả năng tùy chỉnh và suy luận mở hiệu quả
Viện Allen về AI (Ai2) hy vọng sẽ tận dụng nhu cầu ngày càng tăng đối với các mô hình tùy chỉnh và các doanh nghiệp đang tìm kiếm sự minh bạch hơn từ các mô hình AI với bản phát hành mới nhất của mình.
- 7 min read
Gia đình Olmo 3 của Ai2 thách thức Qwen và Llama bằng khả năng suy luận, tùy chỉnh hiệu quả và mở
Ai2 đang tăng cường sự minh bạch và tùy chỉnh với việc ra mắt Olmo 3, mô hình mà họ tuyên bố vượt trội hơn các mô hình mở tương đương.
Allen Institute for AI (Ai2) hy vọng sẽ tận dụng nhu cầu ngày càng tăng về các mô hình tùy chỉnh và các doanh nghiệp tìm kiếm sự minh bạch hơn từ các mô hình AI với bản phát hành mới nhất của họ.
Ai2 đã phát hành phiên bản mới nhất thuộc dòng Olmo, có sẵn cho các tổ chức, tiếp tục tập trung vào tính mở và khả năng tùy chỉnh.
Olmo 3 có cửa sổ ngữ cảnh dài hơn, nhiều dấu vết suy luận hơn và khả năng lập trình tốt hơn so với phiên bản trước. Phiên bản mới nhất này, giống như các bản phát hành Olmo khác, là mã nguồn mở theo giấy phép Apache 2.0. Các doanh nghiệp sẽ có sự minh bạch hoàn toàn và kiểm soát dữ liệu đào tạo cũng như quá trình lưu trữ.
Ai2 sẽ phát hành ba phiên bản của Olmo 3:
- Olmo 3-Think (cả phiên bản 7B và 32B) được coi là mô hình suy luận hàng đầu cho nghiên cứu nâng cao.
- Olmo 3-Base (cũng có cả hai tham số) là lý tưởng cho lập trình, hiểu văn bản, toán học và suy luận ngữ cảnh dài. Ai2 cho biết phiên bản này “lý tưởng để tiếp tục đào tạo trước hoặc tinh chỉnh.”
- Olmo 3-Instruct (phiên bản 7B) được tối ưu hóa cho việc tuân thủ hướng dẫn, hội thoại đa lượt và sử dụng công cụ.
Công ty cho biết Olmo 3-Think là “mô hình suy luận 32B mở hoàn toàn đầu tiên tạo ra nội dung theo kiểu chuỗi suy luận rõ ràng.” Olmo-3 Think cũng có cửa sổ ngữ cảnh dài 65.000 token, rất phù hợp cho các dự án tác nhân chạy dài hơn hoặc suy luận trên các tài liệu dài hơn.
Noah Smith, Giám đốc cấp cao về Nghiên cứu NLP của Ai2, đã nói chuyện với VentureBeat trong một cuộc phỏng vấn, cho biết nhiều khách hàng của họ, từ các doanh nghiệp được quản lý chặt chẽ đến các viện nghiên cứu, muốn sử dụng các mô hình mà họ có thể đảm bảo về những gì đã được đưa vào quá trình đào tạo.
“Các bản phát hành từ những người bạn của chúng tôi trong thế giới công nghệ rất tuyệt vời và thú vị, nhưng có rất nhiều người quan tâm đến quyền riêng tư dữ liệu, kiểm soát những gì đi vào mô hình, cách mô hình được đào tạo và các ràng buộc khác về cách mô hình có thể được sử dụng,” ông Smith nói.
Các nhà phát triển có thể truy cập các mô hình trên Hugging Face và Ai2 Playground.
Minh bạch và tùy chỉnh
Ông Smith cho biết các mô hình như Olmo 3, mà công ty tin rằng bất kỳ tổ chức nào sử dụng mô hình của họ đều phải có quyền kiểm soát và định hình theo cách phù hợp nhất với họ.
“Chúng tôi không tin vào các giải pháp phù hợp với tất cả,” ông Smith nói. “Trong thế giới học máy, có một điều rõ ràng là nếu bạn cố gắng xây dựng một mô hình giải quyết mọi vấn đề, thì cuối cùng nó sẽ không phải là mô hình tốt nhất cho bất kỳ vấn đề cụ thể nào. Không có bằng chứng chính thức về điều đó, nhưng đó là điều mà những người kỳ cựu như tôi đã quan sát được.”
Ông ấy nói thêm rằng các mô hình có khả năng chuyên môn hóa “có lẽ không hào nhoáng như việc đạt điểm cao trong các kỳ thi toán” nhưng mang lại sự linh hoạt hơn cho các doanh nghiệp.
Olmo 3 cho phép các doanh nghiệp về cơ bản đào tạo lại mô hình bằng cách bổ sung vào tập dữ liệu mà nó học hỏi. Ý tưởng là các doanh nghiệp có thể đưa vào các nguồn dữ liệu độc quyền của họ để hướng dẫn mô hình trả lời các truy vấn cụ thể của công ty. Để giúp các doanh nghiệp trong quá trình này, Ai2 đã bổ sung các điểm kiểm tra từ mỗi giai đoạn đào tạo chính.
Nhu cầu về tùy chỉnh mô hình đã tăng lên khi các doanh nghiệp không thể tự xây dựng LLM muốn tạo ra các mô hình dành riêng cho công ty hoặc tập trung vào ngành. Các công ty khởi nghiệp như Arcee đã bắt đầu cung cấp các mô hình nhỏ tùy chỉnh dành cho doanh nghiệp.
Ông Smith cho biết các mô hình như Olmo 3 cũng mang lại sự tự tin hơn cho các doanh nghiệp về công nghệ. Vì Olmo 3 cung cấp dữ liệu đào tạo, ông Smith nói rằng các doanh nghiệp có thể tin tưởng rằng mô hình đã không tiếp thu bất cứ điều gì nó không nên.
Ai2 luôn cam kết về sự minh bạch lớn hơn, thậm chí còn ra mắt công cụ có tên OlmoTrace vào tháng 4 có thể truy ngược kết quả đầu ra của mô hình trực tiếp về dữ liệu đào tạo ban đầu. Công ty phát hành các mô hình mã nguồn mở và đăng mã của họ lên các kho lưu trữ như GitHub để bất kỳ ai cũng có thể sử dụng.
Các đối thủ cạnh tranh như Google và OpenAI đã vấp phải sự chỉ trích từ các nhà phát triển về các động thái ẩn các token suy luận thô và chọn tóm tắt suy luận, tuyên bố rằng họ giờ đây phải “gỡ lỗi trong bóng tối” mà không có sự minh bạch.
Ai2 đã đào tạo trước Olmo 3 trên bộ dữ liệu mã nguồn mở sáu nghìn tỷ token, Dolma 3. Bộ dữ liệu này bao gồm dữ liệu web, tài liệu khoa học và mã. Ông Smith cho biết họ đã tối ưu hóa Olmo 3 cho mã, so với việc tập trung vào toán học cho Olmo 2.
So sánh hiệu suất
Ai2 tuyên bố rằng dòng mô hình Olmo 3 đại diện cho một bước nhảy vọt đáng kể đối với các mô hình mã nguồn mở thực sự, ít nhất là đối với LLM mã nguồn mở được phát triển bên ngoài Trung Quốc. Mô hình Olmo 3 cơ bản được đào tạo “với hiệu quả tính toán cao hơn khoảng 2,5 lần, được đo bằng giờ GPU trên mỗi token”, nghĩa là nó tiêu thụ ít năng lượng hơn trong quá trình đào tạo trước và có chi phí thấp hơn.
Công ty cho biết các mô hình Olmo 3 đã vượt trội hơn các mô hình mở khác, chẳng hạn như Marin từ Stanford, K2 của LLM360 và Apertus, mặc dù Ai2 không cung cấp số liệu cho các bài kiểm tra đánh giá.
“Đáng chú ý, Olmo 3-Think (32B) là mô hình suy luận mở hoàn toàn mạnh nhất, thu hẹp khoảng cách với các mô hình trọng số mở tốt nhất có quy mô tương tự, chẳng hạn như dòng mô hình Qwen 3-32B-Thinking trên bộ công cụ đánh giá suy luận của chúng tôi, tất cả trong khi được đào tạo trên ít hơn 6 lần số token,” Ai2 cho biết trong một thông cáo báo chí.
Công ty nói thêm rằng Olmo 3-Instruct đã hoạt động tốt hơn Qwen 2.5, Gemma 3 và Llama 3.1.
Hình ảnh
Nguồn: VentureBeat, tạo bằng MidJourney