Các mô hình. Gemini 2.5- Các mô hình thông minh nhất của chúng tôi đang ngày càng trở nên tốt hơn

Gemini 2.5 Pro tiếp tục được các nhà phát triển yêu thích với tư cách là mô hình tốt nhất để viết mã và 2.5 Flash thậm chí còn tốt hơn với bản cập nhật mới. Chúng tôi đang mang đến những khả năng mới cho các mô hình của mình, bao gồm...

  • 9 min read
Các mô hình. Gemini 2.5- Các mô hình thông minh nhất của chúng tôi đang ngày càng trở nên tốt hơn
Gemini 2.5 Pro tiếp tục được các nhà phát triển yêu thích với tư cách là mô hình tốt nhất để viết mã và 2.5 Flash thậm chí còn tốt hơn với bản cập nhật mới. Chúng tôi đang mang đến những khả năng mới cho các mô hình của mình, bao gồm...

Google I/O 2025: Cập nhật Gemini 2.5 từ Google DeepMind

Tại I/O 2025, chúng tôi đã chia sẻ các bản cập nhật cho dòng mô hình Gemini 2.5 của chúng tôi và Deep Think, một chế độ suy luận nâng cao thử nghiệm cho 2.5 Pro.

Hình ảnh minh họa trừu tượng về hai đường lượn sóng màu xanh lam sáng trên nền đen

Gemini 2.5 Pro tiếp tục được các nhà phát triển yêu thích với tư cách là mô hình tốt nhất để viết mã và 2.5 Flash thậm chí còn trở nên tốt hơn với bản cập nhật mới. Chúng tôi cũng mang đến những khả năng mới cho các mô hình của mình, bao gồm Deep Think, một chế độ suy luận nâng cao thử nghiệm cho 2.5 Pro.

2.5 Pro hoạt động tốt hơn bao giờ hết

Gần đây, chúng tôi đã cập nhật 2.5 Pro để giúp các nhà phát triển xây dựng các ứng dụng web tương tác, phong phú hơn. Thật tuyệt vời khi thấy phản ứng tích cực từ người dùng và nhà phát triển, và chúng tôi tiếp tục cải tiến dựa trên phản hồi của người dùng.

Ngoài hiệu suất mạnh mẽ trên các điểm chuẩn học thuật, 2.5 Pro mới hiện đang dẫn đầu bảng xếp hạng mã hóa phổ biến, WebDev Arena, với số điểm ELO là 1415. Nó cũng dẫn đầu trên tất cả các bảng xếp hạng của LMArena, nơi đánh giá sở thích của con người về nhiều khía cạnh. Và, với cửa sổ ngữ cảnh 1 triệu mã thông báo, 2.5 Pro có hiệu suất hiểu video và ngữ cảnh dài hiện đại.

Kể từ khi kết hợp LearnLM, dòng mô hình của chúng tôi được xây dựng với các chuyên gia giáo dục, 2.5 Pro hiện cũng là mô hình hàng đầu để học tập. Trong các so sánh trực tiếp đánh giá phương pháp sư phạm và hiệu quả của nó, các nhà giáo dục và chuyên gia thích Gemini 2.5 Pro hơn các mô hình khác trong nhiều tình huống khác nhau. Và, nó đã vượt trội so với các mô hình hàng đầu trên mọi năm nguyên tắc khoa học học tập được sử dụng để xây dựng hệ thống AI để học tập.

Đọc thêm trong thẻ mô hình Gemini 2.5 Pro được cập nhật của chúng tôi và trên trang công nghệ Gemini.

Deep Think

Thông qua việc khám phá các giới hạn về khả năng tư duy của Gemini, chúng tôi đang bắt đầu thử nghiệm một chế độ lý luận nâng cao có tên là Deep Think sử dụng các kỹ thuật nghiên cứu mới cho phép mô hình xem xét nhiều giả thuyết trước khi phản hồi.

2.5 Pro Deep Think đạt điểm ấn tượng trên USAMO 2025, hiện là một trong những điểm chuẩn toán học khó nhất. Nó cũng dẫn đầu trên LiveCodeBench, một tiêu chuẩn khó khăn cho việc viết mã cấp cạnh tranh và đạt điểm 84,0% trên MMMU, kiểm tra khả năng suy luận đa phương thức.

Biểu đồ chứng minh khả năng nâng cao của Gemini 2.5 Pro Deep think

Bởi vì chúng tôi đang xác định giới hạn với 2.5 Pro DeepThink, chúng tôi dành thêm thời gian để thực hiện các đánh giá an toàn ở biên giới và nhận thêm thông tin đầu vào từ các chuyên gia an toàn. Như một phần của việc đó, chúng tôi sẽ cung cấp nó cho những người thử nghiệm đáng tin cậy thông qua Gemini API để nhận phản hồi của họ trước khi cung cấp rộng rãi.

Bản cải tiến 2.5 Flash

2.5 Flash là mô hình làm việc hiệu quả nhất của chúng tôi được thiết kế để có tốc độ và chi phí thấp — và giờ đây nó còn tốt hơn trên nhiều khía cạnh. Nó đã được cải thiện trên các điểm chuẩn chính về lý luận, đa phương thức, mã và ngữ cảnh dài trong khi trở nên hiệu quả hơn, sử dụng ít hơn 20-30% mã thông báo trong các đánh giá của chúng tôi.

Biểu đồ so sánh Gemini 2.5 Flash với các mô hình khác

2.5 Flash mới hiện đã có bản xem trước trong Google AI Studio dành cho nhà phát triển, trong Vertex AI dành cho doanh nghiệp và trong ứng dụng Gemini dành cho mọi người. Và vào đầu tháng 6, nó sẽ có sẵn rộng rãi để sản xuất.

Đọc thêm trong thẻ mô hình Gemini 2.5 Flash được cập nhật của chúng tôi và trên trang công nghệ Gemini.

Khả năng mới của Gemini 2.5

Đầu ra âm thanh gốc và cải tiến API trực tiếp

Hôm nay, API trực tiếp đang giới thiệu phiên bản xem trước của đầu vào nghe nhìn và đầu ra âm thanh gốc, để bạn có thể trực tiếp xây dựng trải nghiệm đàm thoại, với Gemini tự nhiên và biểu cảm hơn.

Nó cũng cho phép người dùng điều khiển tông giọng, ngữ điệu và phong cách nói. Ví dụ: bạn có thể yêu cầu mô hình sử dụng giọng nói kịch tính khi kể chuyện. Và nó hỗ trợ sử dụng công cụ, để có thể tìm kiếm thay bạn.

Bạn có thể thử nghiệm với một bộ tính năng ban đầu, bao gồm:

  • Đối thoại tình cảm, trong đó mô hình phát hiện cảm xúc trong giọng nói của người dùng và phản hồi phù hợp.
  • Âm thanh chủ động, trong đó mô hình sẽ bỏ qua các cuộc trò chuyện nền và biết khi nào nên phản hồi.
  • Tư duy trong API trực tiếp, trong đó mô hình tận dụng khả năng tư duy của Gemini để hỗ trợ các tác vụ phức tạp hơn.

Chúng tôi cũng đang phát hành các bản xem trước mới cho chuyển văn bản thành giọng nói trong 2.5 Pro và 2.5 Flash. Chúng có hỗ trợ đầu tiên thuộc loại này cho nhiều người nói, cho phép chuyển văn bản thành giọng nói với hai giọng nói thông qua đầu ra âm thanh gốc.

Giống như đối thoại Âm thanh gốc, chuyển văn bản thành giọng nói có tính biểu cảm và có thể nắm bắt những sắc thái thực sự tinh tế, chẳng hạn như tiếng thì thầm. Nó hoạt động trên hơn 24 ngôn ngữ và chuyển đổi liền mạch giữa chúng.

Video về đầu ra âm thanh gốc

Khả năng chuyển văn bản thành giọng nói này sẽ có sẵn sau hôm nay trong Gemini API.

Sử dụng máy tính

Chúng tôi đang mang khả năng sử dụng máy tính của Dự án Mariner vào Gemini APIVertex AI. Các công ty như Automation Anywhere, UiPath, Browserbase, Autotab, The Interaction Company và Cartwheel đang khám phá tiềm năng của nó và chúng tôi rất vui mừng được triển khai nó rộng rãi hơn để các nhà phát triển thử nghiệm vào mùa hè này.

Bảo mật tốt hơn

Chúng tôi cũng đã tăng cường đáng kể các biện pháp bảo vệ chống lại các mối đe dọa bảo mật, chẳng hạn như các cuộc tấn công bằng tiêm prompt gián tiếp. Đây là khi các hướng dẫn độc hại được nhúng vào dữ liệu mà mô hình AI truy xuất. Phương pháp bảo mật mới của chúng tôi đã giúp tăng đáng kể tỷ lệ bảo vệ của Gemini chống lại các cuộc tấn công tiêm prompt gián tiếp trong quá trình sử dụng công cụ, khiến Gemini 2.5 trở thành dòng mô hình an toàn nhất của chúng tôi cho đến nay.

Đọc thêm về công việc của chúng tôi về an toàn, trách nhiệm và bảo mậtcách chúng tôi đang thúc đẩy các biện pháp bảo vệ an ninh của Gemini trên blog Google DeepMind.

Trải nghiệm nhà phát triển nâng cao

Tóm tắt suy nghĩ

2.5 Pro và Flash hiện sẽ bao gồm các bản tóm tắt suy nghĩ trong Gemini API và trong Vertex AI. Bản tóm tắt suy nghĩ lấy những suy nghĩ thô sơ của mô hình và sắp xếp chúng thành một định dạng rõ ràng với các tiêu đề, chi tiết quan trọng và thông tin về các hành động của mô hình, chẳng hạn như khi chúng sử dụng các công cụ.

Chúng tôi hy vọng rằng với định dạng được sắp xếp hợp lý, có cấu trúc hơn về quy trình tư duy của mô hình, các nhà phát triển và người dùng sẽ thấy các tương tác với mô hình Gemini dễ hiểu và gỡ lỗi hơn.

Ngân sách tư duy

Chúng tôi đã ra mắt 2.5 Flash với ngân sách tư duy để cung cấp cho các nhà phát triển nhiều quyền kiểm soát hơn đối với chi phí bằng cách cân bằng độ trễ và chất lượng. Và chúng tôi sẽ mở rộng khả năng này sang 2.5 Pro. Điều này cho phép bạn kiểm soát số lượng mã thông báo mà một mô hình sử dụng để suy nghĩ trước khi nó phản hồi hoặc thậm chí tắt khả năng tư duy của nó.

Gemini 2.5 Pro với ngân sách sẽ có sẵn rộng rãi để sử dụng trong sản xuất ổn định trong những tuần tới, cùng với mô hình có sẵn rộng rãi của chúng tôi.

Hỗ trợ MCP

Chúng tôi đã thêm hỗ trợ SDK gốc cho các định nghĩa Giao thức ngữ cảnh mô hình (MCP) trong Gemini API để dễ dàng tích hợp hơn với các công cụ nguồn mở. Chúng tôi cũng đang khám phá các cách triển khai máy chủ MCP và các công cụ được lưu trữ khác, giúp bạn dễ dàng xây dựng các ứng dụng đại lý hơn.

Chúng tôi luôn đổi mới các phương pháp mới để cải thiện mô hình và trải nghiệm nhà phát triển, bao gồm làm cho chúng hiệu quả và hiệu suất hơn, đồng thời tiếp tục đáp ứng phản hồi của nhà phát triển, vì vậy vui lòng tiếp tục gửi đến! Chúng tôi cũng tiếp tục tăng gấp đôi về bề rộng và chiều sâu của nghiên cứu cơ bản của mình — đẩy lùi các giới hạn về khả năng của Gemini. Nhiều điều nữa sẽ đến sớm.

Tìm hiểu thêm về Gemini và các khả năng của nó trên trang web của chúng tôi.

Liên kết đến bài viết liên quan về I/O 2025

Recommended for You

Các mô hình. Thúc đẩy sự sáng tạo của bạn với các mô hình và công cụ truyền thông sáng tạo mới

Các mô hình. Thúc đẩy sự sáng tạo của bạn với các mô hình và công cụ truyền thông sáng tạo mới

Giới thiệu Veo 3 và Imagen 4, và một công cụ mới để làm phim có tên là Flow.

Các mô hình. Tầm nhìn của chúng tôi về việc xây dựng một trợ lý AI phổ quát

Các mô hình. Tầm nhìn của chúng tôi về việc xây dựng một trợ lý AI phổ quát

Chúng tôi đang mở rộng Gemini để trở thành một mô hình thế giới có thể lập kế hoạch và hình dung những trải nghiệm mới bằng cách mô phỏng các khía cạnh của thế giới.