Kimi K2 của Moonshot AI vượt trội hơn GPT-4 trong các điểm chuẩn chính - và nó miễn phí

Kimi K2 của Moonshot AI hoạt động tốt hơn GPT-4 trong các tiêu chuẩn quan trọng và nó hoàn toàn miễn phí.

  • 12 min read
Kimi K2 của Moonshot AI vượt trội hơn GPT-4 trong các điểm chuẩn chính - và nó miễn phí
Kimi K2 của Moonshot AI hoạt động tốt hơn GPT-4 trong các tiêu chuẩn quan trọng và nó hoàn toàn miễn phí.

Kimi K2 của Moonshot AI vượt trội GPT-4 ở các tiêu chuẩn chính — và hoàn toàn miễn phí

Startup AI Trung Quốc Moonshot phát hành mô hình Kimi K2 mã nguồn mở, vượt trội hơn OpenAI và Anthropic trong các tác vụ viết code với khả năng agentic đột phá và giá cả cạnh tranh.

nuneybits_Vector_art_of_moonshot_rocket_launch_56741232-1790-42b9-a82d-854c8a8ee05f

Ảnh: VentureBeat tạo bằng Midjourney

Moonshot AI, startup trí tuệ nhân tạo Trung Quốc đứng sau chatbot Kimi nổi tiếng, đã phát hành một mô hình ngôn ngữ mã nguồn mở vào thứ Sáu, trực tiếp thách thức các hệ thống độc quyền từ OpenAIAnthropic với hiệu suất đặc biệt mạnh mẽ trong các tác vụ viết code và tác nhân tự động.

Mô hình mới, có tên Kimi K2, có tổng cộng 1 nghìn tỷ tham số với 32 tỷ tham số được kích hoạt trong kiến trúc mixture-of-experts. Công ty đang phát hành hai phiên bản: một mô hình nền tảng cho các nhà nghiên cứu và nhà phát triển, và một biến thể được tinh chỉnh theo hướng dẫn, được tối ưu hóa cho các ứng dụng chat và tác nhân tự động.

? Xin chào, Kimi K2! Mô hình Agentic mã nguồn mở! ? Mô hình MoE 1T tổng / 32B hoạt động ? SOTA trên SWE Bench đã được xác minh, Tau2 & AceBench trong số các mô hình mở ?Mạnh trong việc viết code và các tác vụ agentic ? Đa phương thức & chế độ tư duy hiện không được hỗ trợ

Với Kimi K2, trí thông minh agentic tiên tiến… pic.twitter.com/PlRQNrg9JL

— Kimi.ai (@Kimi_Moonshot) Ngày 11 tháng 7 năm 2025

“Kimi K2 không chỉ trả lời; nó còn hành động”, công ty tuyên bố trong blog thông báo của mình. “Với Kimi K2, trí thông minh agentic tiên tiến trở nên cởi mở và dễ tiếp cận hơn bao giờ hết. Chúng tôi rất nóng lòng muốn xem bạn xây dựng những gì.”

Tính năng nổi bật của mô hình là khả năng tối ưu hóa cho các khả năng “agentic” - khả năng tự chủ sử dụng các công cụ, viết và thực thi code, và hoàn thành các tác vụ đa bước phức tạp mà không cần sự can thiệp của con người. Trong các bài kiểm tra chuẩn, Kimi K2 đạt được độ chính xác 65,8% trên SWE-bench Verified, một tiêu chuẩn kỹ thuật phần mềm đầy thách thức, vượt trội so với hầu hết các giải pháp thay thế mã nguồn mở và phù hợp với một số mô hình độc quyền.

David đấu với Goliath: Làm thế nào Kimi K2 vượt trội hơn các mô hình trị giá hàng tỷ đô la của Thung lũng Silicon

Các số liệu hiệu suất kể một câu chuyện mà các giám đốc điều hành tại OpenAIAnthropic nên lưu ý. Kimi K2-Instruct không chỉ cạnh tranh với những người chơi lớn - nó còn vượt trội hơn họ một cách có hệ thống trong các tác vụ quan trọng nhất đối với khách hàng doanh nghiệp.

Trên LiveCodeBench, có lẽ là tiêu chuẩn viết code thực tế nhất hiện có, Kimi K2 đạt được độ chính xác 53,7%, đánh bại một cách dứt khoát 46,9% của DeepSeek-V3 và 44,7% của GPT-4.1. Đáng chú ý hơn nữa: nó đạt 97,4% trên MATH-500 so với 92,4% của GPT-4.1, cho thấy Moonshot đã giải mã được một điều gì đó cơ bản về lý luận toán học mà các đối thủ cạnh tranh lớn hơn, được tài trợ tốt hơn vẫn chưa làm được.

Nhưng đây là điều mà các tiêu chuẩn không nắm bắt được: Moonshot đang đạt được những kết quả này với một mô hình có chi phí chỉ bằng một phần nhỏ so với những gì những công ty đương nhiệm chi cho việc đào tạo và suy luận. Trong khi OpenAI đốt hàng trăm triệu vào việc tính toán để cải thiện dần, Moonshot dường như đã tìm ra một con đường hiệu quả hơn để đi đến cùng một đích. Đó là một tình thế khó xử kinh điển của nhà đổi mới đang diễn ra trong thời gian thực - người ngoài cuộc táo bạo không chỉ phù hợp với hiệu suất của công ty đương nhiệm, mà họ còn làm điều đó tốt hơn, nhanh hơn và rẻ hơn.

Những tác động vượt ra ngoài quyền khoe khoang đơn thuần. Khách hàng doanh nghiệp đã chờ đợi các hệ thống AI có thể thực sự hoàn thành các quy trình làm việc phức tạp một cách tự chủ, chứ không chỉ tạo ra các bản demo ấn tượng. Sức mạnh của Kimi K2 trên SWE-bench Verified cho thấy nó cuối cùng có thể thực hiện được lời hứa đó.

Đột phá MuonClip: Tại sao trình tối ưu hóa này có thể định hình lại nền kinh tế đào tạo AI

Ẩn trong tài liệu kỹ thuật của Moonshot là một chi tiết có thể chứng minh ý nghĩa hơn các điểm chuẩn của mô hình: sự phát triển của họ về trình tối ưu hóa MuonClip, cho phép đào tạo ổn định một mô hình nghìn tỷ tham số “mà không có sự bất ổn định đào tạo.”

Đây không chỉ là một thành tựu kỹ thuật - mà còn là một sự thay đổi mô hình tiềm năng. Sự bất ổn định trong đào tạo là khoản thuế ẩn đối với sự phát triển mô hình ngôn ngữ lớn, buộc các công ty phải khởi động lại các lần chạy đào tạo tốn kém, thực hiện các biện pháp an toàn tốn kém và chấp nhận hiệu suất không tối ưu để tránh sự cố. Giải pháp của Moonshot giải quyết trực tiếp các logits chú ý bùng nổ bằng cách chia tỷ lệ lại các ma trận trọng số trong các phép chiếu truy vấn và khóa, về cơ bản giải quyết vấn đề tại nguồn của nó thay vì áp dụng các biện pháp khắc phục tạm thời ở hạ lưu.

Những tác động kinh tế là rất lớn. Nếu MuonClip chứng tỏ tính tổng quát - và Moonshot cho thấy nó là như vậy - kỹ thuật này có thể giảm đáng kể chi phí tính toán của việc đào tạo các mô hình lớn. Trong một ngành công nghiệp mà chi phí đào tạo được đo bằng hàng chục triệu đô la, ngay cả những cải tiến hiệu quả khiêm tốn cũng chuyển thành lợi thế cạnh tranh được đo bằng quý chứ không phải năm.

Điều thú vị hơn, điều này thể hiện sự khác biệt cơ bản trong triết lý tối ưu hóa. Trong khi các phòng thí nghiệm AI phương Tây phần lớn hội tụ vào các biến thể của AdamW, thì cược của Moonshot vào các biến thể Muon cho thấy họ đang khám phá các phương pháp toán học thực sự khác nhau để tối ưu hóa. Đôi khi những đổi mới quan trọng nhất không đến từ việc mở rộng các kỹ thuật hiện có, mà từ việc đặt câu hỏi về các giả định nền tảng của chúng hoàn toàn.

Mã nguồn mở như một vũ khí cạnh tranh: Chiến lược định giá triệt để của Moonshot nhắm vào các trung tâm lợi nhuận của Big Tech

Quyết định mở mã nguồn Kimi K2 của Moonshot đồng thời cung cấp quyền truy cập API với giá cả cạnh tranh cho thấy sự hiểu biết tinh tế về động lực thị trường vượt xa các nguyên tắc mã nguồn mở vị tha.

Với giá 0,15 đô la cho mỗi triệu token đầu vào cho các lần truy cập bộ nhớ cache và 2,50 đô la cho mỗi triệu token đầu ra, Moonshot đang định giá tích cực dưới mức OpenAIAnthropic đồng thời cung cấp hiệu suất tương đương - và trong một số trường hợp vượt trội. Nhưng đòn bẩy chiến lược thực sự là tính khả dụng kép: các doanh nghiệp có thể bắt đầu với API để triển khai ngay lập tức, sau đó di chuyển sang các phiên bản tự lưu trữ để tối ưu hóa chi phí hoặc yêu cầu tuân thủ.

Điều này tạo ra một cái bẫy cho các nhà cung cấp đương nhiệm. Nếu họ phù hợp với giá của Moonshot, họ sẽ nén tỷ suất lợi nhuận của chính họ trên dòng sản phẩm sinh lợi nhất của họ. Nếu không, họ có nguy cơ khách hàng đào tẩu sang một mô hình hoạt động tốt với một phần nhỏ chi phí. Trong khi đó, Moonshot xây dựng thị phần và áp dụng hệ sinh thái thông qua cả hai kênh đồng thời.

Thành phần mã nguồn mở không phải là từ thiện - đó là thu hút khách hàng. Mỗi nhà phát triển tải xuống và thử nghiệm với Kimi K2 đều trở thành một khách hàng doanh nghiệp tiềm năng. Mỗi cải tiến do cộng đồng đóng góp làm giảm chi phí phát triển của Moonshot. Đó là một bánh đà tận dụng cộng đồng nhà phát triển toàn cầu để đẩy nhanh đổi mới đồng thời xây dựng hào cạnh tranh mà các đối thủ cạnh tranh nguồn đóng gần như không thể sao chép.

Từ bản demo đến thực tế: Tại sao khả năng agent của Kimi K2 báo hiệu sự kết thúc của sân khấu chatbot

Các bản trình diễn mà Moonshot chia sẻ trên mạng xã hội cho thấy một điều gì đó quan trọng hơn khả năng kỹ thuật ấn tượng - chúng cho thấy AI cuối cùng đã tốt nghiệp từ các thủ thuật trong phòng khách sang tiện ích thực tế.

Hãy xem xét ví dụ phân tích lương: Kimi K2 không chỉ trả lời các câu hỏi về dữ liệu, nó còn tự động thực hiện 16 thao tác Python để tạo phân tích thống kê và hình ảnh trực quan tương tác. Bản trình diễn lập kế hoạch hòa nhạc ở London liên quan đến 17 cuộc gọi công cụ trên nhiều nền tảng - tìm kiếm, lịch, email, chuyến bay, chỗ ở và đặt chỗ nhà hàng. Đây không phải là những bản demo được tuyển chọn được thiết kế để gây ấn tượng; chúng là những ví dụ về các hệ thống AI thực sự hoàn thành các loại quy trình làm việc phức tạp, đa bước mà nhân viên tri thức thực hiện hàng ngày.

Điều này thể hiện một sự thay đổi triết học so với thế hệ trợ lý AI hiện tại vượt trội trong cuộc trò chuyện nhưng lại gặp khó khăn trong việc thực hiện. Trong khi các đối thủ cạnh tranh tập trung vào việc làm cho mô hình của họ nghe giống con người hơn, Moonshot đã ưu tiên làm cho chúng hữu ích hơn. Sự khác biệt quan trọng vì các doanh nghiệp không cần AI có thể vượt qua bài kiểm tra Turing — họ cần AI có thể vượt qua bài kiểm tra năng suất.

Đột phá thực sự không nằm ở bất kỳ khả năng đơn lẻ nào, mà nằm ở sự phối hợp liền mạch của nhiều công cụ và dịch vụ. Các nỗ lực trước đây tại AI “tác nhân” yêu cầu kỹ thuật nhanh chóng rộng rãi, thiết kế quy trình làm việc cẩn thận và sự giám sát liên tục của con người. Kimi K2 dường như xử lý chi phí nhận thức của việc phân tách tác vụ, lựa chọn công cụ và phục hồi lỗi một cách tự chủ - sự khác biệt giữa một máy tính phức tạp và một trợ lý tư duy thực sự.

Hội tụ lớn: Khi các mô hình mã nguồn mở cuối cùng bắt kịp các nhà lãnh đạo

Việc phát hành Kimi K2 đánh dấu một điểm uốn mà các nhà quan sát ngành đã dự đoán nhưng hiếm khi chứng kiến: thời điểm mà các khả năng AI mã nguồn mở thực sự hội tụ với các giải pháp thay thế độc quyền.

Không giống như những “kẻ giết GPT” trước đây vượt trội trong các lĩnh vực hẹp trong khi thất bại trong các ứng dụng thực tế, Kimi K2 thể hiện năng lực rộng rãi trên toàn bộ các tác vụ xác định trí thông minh chung. Nó viết code, giải toán học, sử dụng công cụ và hoàn thành các quy trình làm việc phức tạp - tất cả trong khi được tự do sửa đổi và tự triển khai.

Sự hội tụ này đến vào một thời điểm đặc biệt dễ bị tổn thương đối với các công ty đương nhiệm AI. OpenAI phải đối mặt với áp lực ngày càng tăng để biện minh cho định giá 300 tỷ đô la của mình trong khi Anthropic изо всех сил изо всех сил phân biệt Claude trên một thị trường ngày càng đông đúc. Cả hai công ty đều xây dựng các mô hình kinh doanh dựa trên việc duy trì lợi thế công nghệ mà Kimi K2 cho thấy có thể là phù du.

Thời gian không phải là ngẫu nhiên. Khi các kiến trúc transformer trưởng thành và các kỹ thuật đào tạo được dân chủ hóa, lợi thế cạnh tranh ngày càng chuyển từ khả năng thô sang hiệu quả triển khai, tối ưu hóa chi phí và hiệu ứng hệ sinh thái. Moonshot dường như hiểu sự chuyển đổi này một cách trực quan, định vị Kimi K2 không phải là một chatbot tốt hơn, mà là một nền tảng thiết thực hơn cho thế hệ ứng dụng AI tiếp theo.

Câu hỏi bây giờ không phải là liệu các mô hình mã nguồn mở có thể phù hợp với các mô hình độc quyền hay không - Kimi K2 chứng minh rằng chúng đã có. Câu hỏi là liệu các công ty đương nhiệm có thể điều chỉnh các mô hình kinh doanh của họ đủ nhanh để cạnh tranh trong một thế giới mà lợi thế công nghệ cốt lõi của họ không còn có thể bảo vệ được nữa hay không. Dựa trên bản phát hành hôm thứ Sáu, giai đoạn điều chỉnh đó vừa trở nên ngắn hơn đáng kể.

Recommended for You

Một mô hình mới cho AI- Cách 'tư duy như tối ưu hóa' dẫn đến các mô hình đa năng tốt hơn

Một mô hình mới cho AI- Cách 'tư duy như tối ưu hóa' dẫn đến các mô hình đa năng tốt hơn

Một mô hình mới cho AI- Làm thế nào 'tư duy như tối ưu hóa' dẫn đến các mô hình đa năng tốt hơn.

Các nhà nghiên cứu Trung Quốc công bố MemOS, 'hệ điều hành bộ nhớ' đầu tiên cung cấp khả năng thu hồi giống như con người cho AI

Các nhà nghiên cứu Trung Quốc công bố MemOS, 'hệ điều hành bộ nhớ' đầu tiên cung cấp khả năng thu hồi giống như con người cho AI

Các nhà nghiên cứu Trung Quốc công bố MemOS, 'hệ điều hành bộ nhớ' đầu tiên cung cấp khả năng thu hồi giống như con người cho AI.