Mô hình AI mã nguồn mở 'giá rẻ' thực sự đang đốt cháy ngân sách tính toán của bạn
Mô hình AI mã nguồn mở giá rẻ thực sự đang đốt cháy ngân sách tính toán của bạn.
- 8 min read
Mô hình AI mã nguồn mở “giá rẻ” thực tế đang đốt cháy ngân sách điện toán của bạn
Một nghiên cứu toàn diện mới tiết lộ rằng các mô hình trí tuệ nhân tạo mã nguồn mở tiêu thụ tài nguyên máy tính nhiều hơn đáng kể so với các đối thủ nguồn đóng khi thực hiện các tác vụ giống hệt nhau, có khả năng làm suy yếu lợi thế chi phí của chúng và định hình lại cách các doanh nghiệp đánh giá chiến lược triển khai AI.
Nghiên cứu, được thực hiện bởi công ty AI Nous Research, phát hiện ra rằng các mô hình trọng số mở sử dụng số lượng token (đơn vị tính toán AI cơ bản) nhiều hơn từ 1,5 đến 4 lần so với các mô hình kín như của OpenAI và Anthropic. Đối với các câu hỏi kiến thức đơn giản, khoảng cách này mở rộng đáng kể, với một số mô hình mở sử dụng số lượng token nhiều hơn tới 10 lần.
<div id="497e6877-2b5a-4b8b-aeb8-de08bfe400f0" data-exs-config='{"customParams":{"post_type":"story","post_chan":"ai","tags":"ai-benchmarks,ai-costs,ai-deployment,ai-economics,ai-models,ai-research,ai-ml-deep-learning,artificial-intelligence,business-intelligence,business-process-automation,computational-overhead,computing-costs,conversational-ai,enterprise-ai,llm-efficiency,machine-learning,model-comparison,model-performance,nlp,nous-research,open-source,openai,predictive-analytics,reasoning-models,token-efficiency","categories":"ai,automation,enterprise-analytics,programming-development,"}}'></div>
“Các mô hình trọng số mở sử dụng số lượng token nhiều hơn 1,5–4 lần so với các mô hình kín (lên đến 10 lần đối với các câu hỏi kiến thức đơn giản), đôi khi khiến chúng trở nên đắt hơn cho mỗi truy vấn mặc dù chi phí trên mỗi token thấp hơn”, các nhà nghiên cứu viết trong báo cáo của họ được công bố hôm thứ Tư.
Những phát hiện này thách thức một giả định phổ biến trong ngành AI rằng các mô hình mã nguồn mở mang lại lợi thế kinh tế rõ ràng so với các lựa chọn thay thế độc quyền. Mặc dù các mô hình mã nguồn mở thường có chi phí chạy trên mỗi token thấp hơn, nhưng nghiên cứu cho thấy lợi thế này có thể “dễ dàng bị bù đắp nếu chúng yêu cầu nhiều token hơn để suy luận về một vấn đề nhất định.”
Chi phí thực sự của AI: Tại sao các mô hình “rẻ hơn” có thể phá vỡ ngân sách của bạn
Nghiên cứu đã xem xét 19 mô hình AI khác nhau trên ba loại nhiệm vụ: câu hỏi kiến thức cơ bản, bài toán toán học và câu đố logic. Nhóm nghiên cứu đã đo lường “hiệu quả token” — số lượng đơn vị tính toán mà các mô hình sử dụng so với độ phức tạp của giải pháp của chúng — một số liệu ít được nghiên cứu một cách có hệ thống mặc dù có ý nghĩa chi phí đáng kể.
“Hiệu quả token là một số liệu quan trọng vì một số lý do thực tế”, các nhà nghiên cứu lưu ý. “Mặc dù việc lưu trữ các mô hình trọng số mở có thể rẻ hơn, nhưng lợi thế chi phí này có thể dễ dàng bị bù đắp nếu chúng yêu cầu nhiều token hơn để suy luận về một vấn đề nhất định.”
Sự kém hiệu quả đặc biệt rõ rệt đối với các Mô hình Suy luận Lớn (LRM), sử dụng “chuỗi suy nghĩ” mở rộng để giải quyết các vấn đề phức tạp. Các mô hình này, được thiết kế để suy nghĩ từng bước về các vấn đề, có thể tiêu thụ hàng nghìn token để suy ngẫm về các câu hỏi đơn giản, đáng lẽ phải yêu cầu tính toán tối thiểu.
Đối với các câu hỏi kiến thức cơ bản như “Thủ đô của Úc là gì?”, nghiên cứu cho thấy rằng các mô hình suy luận dành “hàng trăm token để suy ngẫm về các câu hỏi kiến thức đơn giản” có thể được trả lời bằng một từ duy nhất.
Mô hình AI nào thực sự mang lại giá trị cho đồng tiền của bạn
Nghiên cứu tiết lộ sự khác biệt rõ rệt giữa các nhà cung cấp mô hình. Các mô hình của OpenAI, đặc biệt là các biến thể o4-mini và gpt-oss mã nguồn mở mới phát hành, đã chứng minh hiệu quả token đặc biệt, đặc biệt đối với các bài toán toán học. Nghiên cứu cho thấy các mô hình OpenAI “nổi bật vì hiệu quả token cực cao trong các bài toán toán học”, sử dụng số lượng token ít hơn tới ba lần so với các mô hình thương mại khác.
Trong số các tùy chọn mã nguồn mở, llama-3.3-nemotron-super-49b-v1 của Nvidia nổi lên là “mô hình trọng số mở hiệu quả token nhất trên tất cả các lĩnh vực”, trong khi các mô hình mới hơn từ các công ty như Magistral cho thấy “mức sử dụng token cực kỳ cao” như những giá trị ngoại lệ.
Khoảng cách hiệu quả khác nhau đáng kể theo loại nhiệm vụ. Trong khi các mô hình mở sử dụng số lượng token nhiều hơn khoảng hai lần cho các bài toán toán học và logic, thì sự khác biệt tăng vọt đối với các câu hỏi kiến thức đơn giản, nơi việc suy luận hiệu quả là không cần thiết.
Các nhà lãnh đạo doanh nghiệp cần biết gì về chi phí điện toán AI
Những phát hiện này có ý nghĩa ngay lập tức đối với việc áp dụng AI của doanh nghiệp, nơi chi phí điện toán có thể tăng nhanh chóng theo mức sử dụng. Các công ty đánh giá mô hình AI thường tập trung vào các điểm chuẩn về độ chính xác và giá trên mỗi token, nhưng có thể bỏ qua tổng yêu cầu tính toán cho các tác vụ trong thế giới thực.
“Hiệu quả token tốt hơn của các mô hình trọng số đóng thường bù đắp cho giá API cao hơn của các mô hình đó”, các nhà nghiên cứu phát hiện khi phân tích tổng chi phí suy luận.
Nghiên cứu cũng tiết lộ rằng các nhà cung cấp mô hình nguồn đóng dường như đang tích cực tối ưu hóa hiệu quả. “Các mô hình trọng số đóng đã được tối ưu hóa lặp đi lặp lại để sử dụng ít token hơn để giảm chi phí suy luận”, trong khi các mô hình mã nguồn mở đã “tăng mức sử dụng token của chúng cho các phiên bản mới hơn, có thể phản ánh ưu tiên hướng tới hiệu suất suy luận tốt hơn.”
Các nhà nghiên cứu đã bẻ khóa mã đo lường hiệu quả AI như thế nào
Nhóm nghiên cứu phải đối mặt với những thách thức riêng trong việc đo lường hiệu quả trên các kiến trúc mô hình khác nhau. Nhiều mô hình nguồn đóng không tiết lộ quy trình suy luận thô của chúng, thay vào đó cung cấp các bản tóm tắt nén về các tính toán nội bộ của chúng để ngăn các đối thủ sao chép kỹ thuật của chúng.
Để giải quyết vấn đề này, các nhà nghiên cứu đã sử dụng các token hoàn thành — tổng số đơn vị tính toán được tính cho mỗi truy vấn — làm đại diện cho nỗ lực suy luận. Họ phát hiện ra rằng “hầu hết các mô hình nguồn đóng gần đây sẽ không chia sẻ dấu vết suy luận thô của chúng” và thay vào đó “sử dụng các mô hình ngôn ngữ nhỏ hơn để phiên âm chuỗi suy nghĩ thành các bản tóm tắt hoặc biểu diễn nén.”
Phương pháp luận của nghiên cứu bao gồm thử nghiệm với các phiên bản sửa đổi của các vấn đề nổi tiếng để giảm thiểu ảnh hưởng của các giải pháp đã ghi nhớ, chẳng hạn như thay đổi các biến trong các bài toán thi toán học từ Kỳ thi Toán học Invitational Hoa Kỳ (AIME).
Tương lai của hiệu quả AI: Điều gì sẽ xảy ra tiếp theo
Các nhà nghiên cứu cho rằng hiệu quả token nên trở thành mục tiêu tối ưu hóa chính cùng với độ chính xác để phát triển mô hình trong tương lai. “Một CoT được cô đặc hơn cũng sẽ cho phép sử dụng ngữ cảnh hiệu quả hơn và có thể chống lại sự xuống cấp ngữ cảnh trong các tác vụ suy luận đầy thách thức”, họ viết.
Việc phát hành các mô hình gpt-oss mã nguồn mở của OpenAI, thể hiện hiệu quả hiện đại với “CoT có thể truy cập tự do”, có thể đóng vai trò là điểm tham chiếu để tối ưu hóa các mô hình mã nguồn mở khác.
Bộ dữ liệu nghiên cứu và mã đánh giá hoàn chỉnh có sẵn trên GitHub, cho phép các nhà nghiên cứu khác xác thực và mở rộng các phát hiện. Khi ngành công nghiệp AI chạy đua để đạt được khả năng suy luận mạnh mẽ hơn, nghiên cứu này cho thấy rằng sự cạnh tranh thực sự có thể không phải là về việc ai có thể xây dựng AI thông minh nhất — mà là ai có thể xây dựng AI hiệu quả nhất.
Sau tất cả, trong một thế giới mà mọi token đều có giá trị, các mô hình lãng phí nhất có thể thấy mình bị loại khỏi thị trường, bất kể chúng có thể suy nghĩ tốt đến đâu.