Google's Gemini 2.5 Flash giới thiệu 'ngân sách tư duy' giúp cắt giảm chi phí AI tới 600% khi giảm xuống

Gemini 2.5 Flash của Google giới thiệu 'ngân sách tư duy' giúp cắt giảm chi phí AI tới 600% khi giảm xuống.

April 19, 2025
9 min read

Google's Gemini 2.5 Flash giới thiệu 'ngân sách tư duy' giúp cắt giảm chi phí AI tới 600% khi giảm xuống — Gemini 2.5 Flash của Google giới thiệu 'ngân sách tư duy' giúp cắt giảm chi phí AI tới 600% khi giảm xuống.

Google’s Gemini 2.5 Flash giới thiệu ’ngân sách tư duy’ giúp cắt giảm chi phí AI tới 600% khi tắt

Google đã ra mắt Gemini 2.5 Flash, một bản nâng cấp lớn cho dòng sản phẩm AI của mình, cho phép các doanh nghiệp và nhà phát triển kiểm soát chưa từng có về mức độ “tư duy” mà AI của họ thực hiện. Mô hình mới, được phát hành hôm nay ở chế độ xem trước thông qua Google AI Studio và Vertex AI, thể hiện một nỗ lực chiến lược để cung cấp các khả năng lý luận được cải thiện đồng thời duy trì giá cả cạnh tranh trên thị trường AI ngày càng đông đúc.

Mô hình này giới thiệu cái mà Google gọi là “ngân sách tư duy” - một cơ chế cho phép các nhà phát triển chỉ định lượng sức mạnh tính toán nên được phân bổ để suy luận các vấn đề phức tạp trước khi tạo ra phản hồi. Cách tiếp cận này nhằm mục đích giải quyết một căng thẳng cơ bản trên thị trường AI ngày nay: lý luận phức tạp hơn thường phải trả giá bằng độ trễ và giá cả cao hơn.

“Chúng tôi biết chi phí và độ trễ rất quan trọng đối với một số trường hợp sử dụng của nhà phát triển, và vì vậy chúng tôi muốn cung cấp cho các nhà phát triển sự linh hoạt để điều chỉnh lượng tư duy mà mô hình thực hiện, tùy thuộc vào nhu cầu của họ”, Tulsee Doshi, Giám đốc sản phẩm của Gemini Models tại Google DeepMind, cho biết trong một cuộc phỏng vấn độc quyền với VentureBeat.

Sự linh hoạt này cho thấy cách tiếp cận thực dụng của Google đối với việc triển khai AI khi công nghệ này ngày càng được nhúng vào các ứng dụng kinh doanh, nơi khả năng dự đoán chi phí là rất cần thiết. Bằng cách cho phép bật hoặc tắt khả năng tư duy, Google đã tạo ra cái mà họ gọi là “mô hình lý luận kết hợp hoàn toàn đầu tiên”.

Chỉ trả tiền cho sức mạnh trí tuệ bạn cần: Bên trong mô hình định giá AI mới của Google

Cấu trúc định giá mới làm nổi bật chi phí lý luận trong các hệ thống AI ngày nay. Khi sử dụng Gemini 2.5 Flash, các nhà phát triển trả 0,15 đô la cho mỗi triệu token cho đầu vào. Chi phí đầu ra thay đổi đáng kể dựa trên cài đặt lý luận: 0,60 đô la cho mỗi triệu token khi tắt tư duy, tăng lên 3,50 đô la cho mỗi triệu token khi bật lý luận.

Sự khác biệt về giá gần gấp sáu lần đối với các đầu ra được lý luận này phản ánh cường độ tính toán của quá trình “tư duy”, trong đó mô hình đánh giá nhiều đường dẫn và cân nhắc tiềm năng trước khi tạo ra phản hồi.

“Khách hàng trả tiền cho bất kỳ token tư duy và đầu ra nào mà mô hình tạo ra”, Doshi nói với VentureBeat. “Trong AI Studio UX, bạn có thể thấy những suy nghĩ này trước khi phản hồi. Trong API, chúng tôi hiện không cung cấp quyền truy cập vào những suy nghĩ, nhưng nhà phát triển có thể thấy có bao nhiêu token đã được tạo.”

Ngân sách tư duy có thể được điều chỉnh từ 0 đến 24.576 token, hoạt động như một giới hạn tối đa thay vì phân bổ cố định. Theo Google, mô hình này xác định một cách thông minh lượng ngân sách này cần sử dụng dựa trên độ phức tạp của tác vụ, bảo tồn tài nguyên khi không cần thiết phải lý luận phức tạp.

Gemini 2.5 Flash so sánh như thế nào: Kết quả điểm chuẩn so với các mô hình AI hàng đầu

Google tuyên bố Gemini 2.5 Flash thể hiện hiệu suất cạnh tranh trên các điểm chuẩn chính trong khi duy trì kích thước mô hình nhỏ hơn so với các lựa chọn thay thế. Trên Humanity’s Last Exam, một bài kiểm tra nghiêm ngặt được thiết kế để đánh giá khả năng lý luận và kiến thức, 2.5 Flash đạt 12,1%, vượt trội so với Claude 3.7 Sonnet của Anthropic (8,9%) và DeepSeek R1 (8,6%), mặc dù không bằng o4-mini mới ra mắt của OpenAI (14,3%).

Mô hình này cũng đạt kết quả mạnh mẽ trên các điểm chuẩn kỹ thuật như GPQA diamond (78,3%) và các kỳ thi toán AIME (78,0% trên các bài kiểm tra năm 2025 và 88,0% trên các bài kiểm tra năm 2024).

Doshi cho biết: “Các công ty nên chọn 2.5 Flash vì nó mang lại giá trị tốt nhất cho chi phí và tốc độ của nó. “Nó đặc biệt mạnh so với các đối thủ cạnh tranh về toán học, lý luận đa phương thức, ngữ cảnh dài và một số chỉ số quan trọng khác.”

Các nhà phân tích trong ngành lưu ý rằng các điểm chuẩn này chỉ ra rằng Google đang thu hẹp khoảng cách hiệu suất với các đối thủ cạnh tranh trong khi vẫn duy trì lợi thế về giá - một chiến lược có thể gây được tiếng vang với các khách hàng doanh nghiệp đang theo dõi ngân sách AI của họ.

Thông minh so với nhanh chóng: Khi nào AI của bạn cần suy nghĩ sâu sắc?

Việc giới thiệu lý luận có thể điều chỉnh được đại diện cho một sự phát triển đáng kể trong cách các doanh nghiệp có thể triển khai AI. Với các mô hình truyền thống, người dùng có ít khả năng hiển thị hoặc kiểm soát đối với quá trình lý luận nội bộ của mô hình.

Cách tiếp cận của Google cho phép các nhà phát triển tối ưu hóa cho các tình huống khác nhau. Đối với các truy vấn đơn giản như dịch ngôn ngữ hoặc truy xuất thông tin cơ bản, có thể tắt tư duy để có hiệu quả chi phí tối đa. Đối với các tác vụ phức tạp đòi hỏi lý luận nhiều bước, chẳng hạn như giải quyết vấn đề toán học hoặc phân tích sắc thái, chức năng tư duy có thể được bật và tinh chỉnh.

Một cải tiến quan trọng là khả năng của mô hình để xác định lượng lý luận phù hợp dựa trên truy vấn. Google minh họa điều này bằng các ví dụ: một câu hỏi đơn giản như “Canada có bao nhiêu tỉnh?” đòi hỏi lý luận tối thiểu, trong khi một câu hỏi kỹ thuật phức tạp về tính toán ứng suất chùm sẽ tự động kích hoạt các quy trình tư duy sâu hơn.

Doshi cho biết: “Việc tích hợp các khả năng tư duy vào các mô hình Gemini chính của chúng tôi, kết hợp với những cải tiến trên toàn diện, đã dẫn đến câu trả lời chất lượng cao hơn. “Những cải tiến này là đúng trên các điểm chuẩn học thuật - bao gồm SimpleQA, đo lường tính xác thực.”

Tuần lễ AI của Google: Quyền truy cập miễn phí cho sinh viên và tạo video tham gia sự ra mắt của 2.5 Flash

Việc phát hành Gemini 2.5 Flash diễn ra trong một tuần Google có những động thái tích cực trong không gian AI. Vào thứ Hai, công ty đã triển khai các khả năng tạo video Veo 2 cho người đăng ký Gemini Advanced, cho phép người dùng tạo các đoạn video dài tám giây từ lời nhắc văn bản. Hôm nay, cùng với thông báo 2.5 Flash, Google tiết lộ rằng tất cả sinh viên đại học ở Hoa Kỳ sẽ nhận được quyền truy cập miễn phí vào Gemini Advanced cho đến mùa xuân năm 2026 - một động thái được các nhà phân tích giải thích là một nỗ lực để xây dựng lòng trung thành giữa các nhân viên tri thức trong tương lai.

Những thông báo này phản ánh chiến lược đa hướng của Google để cạnh tranh trên một thị trường do ChatGPT của OpenAI thống trị, nơi được báo cáo là có hơn 800 triệu người dùng hàng tuần so với ước tính 250-275 triệu người dùng hàng tháng của Gemini, theo phân tích của bên thứ ba.

Mô hình 2.5 Flash, với trọng tâm rõ ràng vào hiệu quả chi phí và tùy chỉnh hiệu suất, dường như được thiết kế để đặc biệt hấp dẫn các khách hàng doanh nghiệp cần quản lý cẩn thận chi phí triển khai AI trong khi vẫn truy cập các khả năng nâng cao.

“Chúng tôi vô cùng hào hứng để bắt đầu nhận được phản hồi từ các nhà phát triển về những gì họ đang xây dựng với Gemini Flash 2.5 và cách họ đang sử dụng ngân sách tư duy”, Doshi nói.

Ngoài bản xem trước: Những gì các doanh nghiệp có thể mong đợi khi Gemini 2.5 Flash trưởng thành

Mặc dù bản phát hành này ở chế độ xem trước, nhưng mô hình này đã có sẵn để các nhà phát triển bắt đầu xây dựng, mặc dù Google chưa chỉ định thời gian biểu cho tính khả dụng chung. Công ty chỉ ra rằng họ sẽ tiếp tục tinh chỉnh các khả năng tư duy động dựa trên phản hồi của nhà phát triển trong giai đoạn xem trước này.

Đối với những người áp dụng AI doanh nghiệp, bản phát hành này thể hiện một cơ hội để thử nghiệm với các phương pháp tiếp cận sắc thái hơn đối với việc triển khai AI, có khả năng phân bổ nhiều tài nguyên tính toán hơn cho các tác vụ có rủi ro cao trong khi tiết kiệm chi phí cho các ứng dụng thông thường.

Mô hình này cũng có sẵn cho người tiêu dùng thông qua ứng dụng Gemini, nơi nó xuất hiện dưới dạng “2.5 Flash (Thử nghiệm)” trong menu thả xuống của mô hình, thay thế tùy chọn 2.0 Thinking (Thử nghiệm) trước đó. Việc triển khai hướng đến người tiêu dùng này cho thấy Google đang sử dụng hệ sinh thái ứng dụng để thu thập phản hồi rộng rãi hơn về kiến trúc lý luận của mình.

Khi AI ngày càng được nhúng vào quy trình làm việc của doanh nghiệp, cách tiếp cận của Google với lý luận có thể tùy chỉnh phản ánh một thị trường trưởng thành, nơi tối ưu hóa chi phí và điều chỉnh hiệu suất đang trở nên quan trọng như các khả năng thô - báo hiệu một giai đoạn mới trong thương mại hóa các công nghệ AI tạo sinh.

AI Today - SkyAI