Phiên bản nâng cao của Gemini với Deep Think chính thức đạt tiêu chuẩn huy chương vàng tại Olympic Toán học Quốc tế
Mô hình tiên tiến của chúng tôi chính thức đạt được thành tích ở mức huy chương vàng trong các bài toán từ Olympic Toán học Quốc tế (IMO), cuộc thi uy tín nhất thế giới dành cho giới trẻ...
- 8 min read
Phiên bản nâng cao của Gemini với Deep Think chính thức đạt tiêu chuẩn huy chương vàng tại Olympic Toán học Quốc tế
Olympic Toán học Quốc tế (“IMO”) là cuộc thi uy tín nhất thế giới dành cho các nhà toán học trẻ tuổi, được tổ chức hàng năm kể từ năm 1959. Mỗi quốc gia tham gia được đại diện bởi sáu nhà toán học ưu tú ở bậc dự bị đại học, những người cạnh tranh để giải sáu bài toán đặc biệt khó về đại số, tổ hợp, hình học và lý thuyết số. Huy chương được trao cho nửa trên của các thí sinh, với khoảng 8% nhận được huy chương vàng danh giá.
Gần đây, IMO cũng đã trở thành một thách thức đầy khát vọng đối với các hệ thống AI như một bài kiểm tra về khả năng giải quyết vấn đề và lý luận toán học nâng cao của chúng. Năm ngoái, hệ thống kết hợp AlphaProof và AlphaGeometry 2 của Google DeepMind đã đạt tiêu chuẩn huy chương bạc, giải được bốn trong số sáu bài toán và đạt 28 điểm. Việc sử dụng các ngôn ngữ hình thức chuyên biệt, đột phá này đã chứng minh rằng AI đang bắt đầu tiếp cận khả năng lý luận toán học ưu tú của con người.
Năm nay, chúng tôi nằm trong số một nhóm khai mạc để kết quả mô hình của mình được các điều phối viên IMO chấm điểm và chứng nhận chính thức bằng cách sử dụng các tiêu chí tương tự như đối với các giải pháp của học sinh. Ghi nhận những thành tích quan trọng của những người tham gia là sinh viên năm nay, giờ đây chúng tôi rất vui mừng được chia sẻ tin tức về hiệu suất đột phá của Gemini.
Hiệu suất đột phá tại IMO 2025 với Gemini Deep Think
Một phiên bản nâng cao của Gemini Deep Think đã giải hoàn hảo năm trong số sáu bài toán IMO, kiếm được tổng cộng 35 điểm và đạt được hiệu suất ở cấp độ huy chương vàng. Các giải pháp có thể được tìm thấy trực tuyến tại đây.
Chúng tôi có thể xác nhận rằng Google DeepMind đã đạt được cột mốc được mong muốn từ lâu, kiếm được 35 trên tổng số 42 điểm có thể - một điểm số huy chương vàng. Các giải pháp của họ đáng kinh ngạc về nhiều mặt. Các giám khảo IMO nhận thấy chúng rõ ràng, chính xác và hầu hết dễ theo dõi.
Giáo sư Tiến sĩ Gregor Dolinar, Chủ tịch IMO
Thành tích này là một bước tiến đáng kể so với kết quả đột phá của năm ngoái. Tại IMO 2024, AlphaGeometry và AlphaProof yêu cầu các chuyên gia trước tiên dịch các bài toán từ ngôn ngữ tự nhiên sang các ngôn ngữ dành riêng cho miền, chẳng hạn như Lean và ngược lại đối với các bằng chứng. Nó cũng mất hai đến ba ngày tính toán. Năm nay, mô hình Gemini tiên tiến của chúng tôi hoạt động từ đầu đến cuối bằng ngôn ngữ tự nhiên, tạo ra các bằng chứng toán học chặt chẽ trực tiếp từ các mô tả bài toán chính thức - tất cả trong giới hạn thời gian thi 4,5 giờ.
Tận dụng tối đa chế độ Deep Think
Chúng tôi đã đạt được kết quả năm nay bằng cách sử dụng một phiên bản nâng cao của Gemini Deep Think - một chế độ lý luận nâng cao cho các bài toán phức tạp, kết hợp một số kỹ thuật nghiên cứu mới nhất của chúng tôi, bao gồm tư duy song song. Thiết lập này cho phép mô hình đồng thời khám phá và kết hợp nhiều giải pháp khả thi trước khi đưa ra câu trả lời cuối cùng, thay vì theo đuổi một chuỗi suy nghĩ tuyến tính duy nhất.
Để tận dụng tối đa khả năng lý luận của Deep Think, chúng tôi đã đào tạo thêm phiên bản Gemini này về các kỹ thuật học tăng cường mới có thể tận dụng nhiều dữ liệu lý luận đa bước, giải quyết vấn đề và chứng minh định lý hơn. Chúng tôi cũng cung cấp cho Gemini quyền truy cập vào một kho giải pháp chất lượng cao được tuyển chọn cho các bài toán toán học và thêm một số gợi ý và mẹo chung về cách tiếp cận các bài toán IMO vào hướng dẫn của nó.
Chúng tôi sẽ cung cấp một phiên bản của mô hình Deep Think này cho một nhóm người kiểm tra đáng tin cậy, bao gồm cả các nhà toán học, trước khi triển khai cho những người đăng ký Google AI Ultra.
Tương lai của AI và Toán học
Google DeepMind có các cộng tác đang diễn ra với cộng đồng toán học, nhưng chúng tôi vẫn chỉ ở giai đoạn đầu về tiềm năng đóng góp của AI cho toán học. Bằng cách dạy các hệ thống của chúng tôi suy luận linh hoạt và trực quan hơn, chúng tôi đang tiến gần hơn đến việc xây dựng AI có thể giải quyết các bài toán toán học phức tạp và nâng cao hơn.
Mặc dù cách tiếp cận của chúng tôi năm nay hoàn toàn dựa trên ngôn ngữ tự nhiên với Gemini, nhưng chúng tôi cũng tiếp tục đạt được tiến bộ trên các hệ thống hình thức của mình, AlphaGeometry và AlphaProof. Chúng tôi tin rằng các tác nhân kết hợp sự trôi chảy của ngôn ngữ tự nhiên với lý luận chặt chẽ - bao gồm cả lý luận đã được xác minh bằng các ngôn ngữ hình thức - sẽ trở thành những công cụ vô giá cho các nhà toán học, nhà khoa học, kỹ sư và nhà nghiên cứu, giúp chúng ta nâng cao kiến thức của nhân loại trên con đường dẫn đến AGI.
Lời cảm ơn
Chúng tôi cảm ơn tổ chức Olympic Toán học Quốc tế vì sự hỗ trợ của họ.
Thang Luong dẫn dắt định hướng kỹ thuật tổng thể của mô hình Gemini tiên tiến với Deep Think cho IMO và đồng lãnh đạo với Edward Lockhart về sự phối hợp chung của nỗ lực IMO 2025.
Hệ thống IMO 2025 sẽ không thể thực hiện được nếu không có các trưởng nhóm kỹ thuật sau đây. Dawsen Hwang, Junehyuk Jung đồng lãnh đạo dữ liệu đào tạo và đánh giá của chuyên gia. Jonathan Lee, Nate Kushman, Pol Moreno, Yi Tay đồng lãnh đạo việc đào tạo mô hình Gemini Deep Think tiên tiến trong khi Lei Yu dẫn dắt việc đánh giá mô hình. Golnaz Ghiazi, Garrett Bingham, Lalit Jain đồng lãnh đạo suy luận Deep Think trong khi Dawsen Hwang, Vincent Cohen-Addad đồng lãnh đạo một phương pháp suy luận nâng cao.
Hệ thống IMO 2025 cũng được phát triển với những đóng góp quan trọng từ Theophane Weber, Ankesh Anand cho việc mô hình hóa; Vinay Ramasesh, Andreas Kirsch, Jieming Mao, Zicheng Xu, Wilfried Bounsi, Vahab Mirrokni cho việc suy luận; Hoang Nguyen, Fred Zhang, Mahan Malihi, Yangsibo Huang cho dữ liệu đào tạo.
Chúng tôi cảm ơn những đóng góp từ các đội và nỗ lực liên quan. Nhóm AlphaGeometry với Yuri Chervonyi (trưởng nhóm), Trieu Trinh, Hoang Nguyen, Junsu Kim, Mirek Olšák, Marcelo Menegali, Xiaomeng Yang. Miklós Z. Horváth, Aja Huang, Goran Žužić cho toán học hình thức. Chúng tôi cảm ơn Fabian Pedregosa, Richard Song, Alex Zhai, Sara Javanmardi, YaGuang Li, Filipe Miguel de Almeida, Silvio Lattanzi, Ashkan Norouzi Fard, Tal Schuster, Honglu Fan, Xuezhi Wang, Aditi Mavalankar, Tom Schaul, Rosemary Ke vì sự hỗ trợ và hợp tác.
Chúng tôi đặc biệt cảm ơn các thành viên cốt lõi khác của nhóm Deep Think (Archit Sharma, Tong He, Shubha Raghvendra), nỗ lực hậu đào tạo (Tianhe Kevin Yu, Siamak Shakeri, Hanzhao Lin, Cosmo Du, Sid Lall) và nghiên cứu Khu vực Tư duy mà hệ thống IMO 2025 được xây dựng.
Nỗ lực này được tư vấn bởi Quoc Le và Pushmeet Kohli, với sự hỗ trợ chương trình từ Kristen Chiafullo và Alex Goldin.
Chúng tôi cũng xin cảm ơn các chuyên gia của chúng tôi đã cung cấp dữ liệu và đánh giá: Insuk Seo (trưởng nhóm), Jiwon Kang, Donghyun Kim, Junsu Kim, Jimin Kim, Seongbin Jeon, Yoonho Na, Seunghwan Lee, Jihoo Lee, Younghun Jo, Yongsuk Hur, Seongjae Park, Kyuhyeon Choi, Minkyu Choi, Su-Hyeok Moon, Seojin Kim, Yueun Lee, Taehun Kim, Jeeho Ryu, Seungwoo Lee, Dain Kim, Sanha Lee, Hyunwoo Choi, Aiden Jung, Youngbeom Jin, Jeonghyun Ahn, Junhwi Bae, Gyumin Kim, Nam Dung Tran, Cheng-Chiang Tsai, Kari Ragnarsson, Kiat Chuan Tan, Yahya Tabesh, Hamed Mahdavi, Azin Nazari, Xiangzhuo Ding, Chu-Lan Kao, Steven Creech, Tony Feng, Ciprian Manolescu.
Và cảm ơn các chuyên gia phục vụ và triển khai của chúng tôi: Emanuel Taropa, Charlie Chen, Joe Stanton, Cip Baetu, Alvin Abdagic, Federico Lebron, Ioana Mihailescu, Soheil Hassas Yeganeh và Minh Gang.
Xin cảm ơn Jessica Lo và Sajjad Zafar vì sự hỗ trợ của họ cho việc cung cấp và quản lý tính toán; Jane Labanowski, Andy Forbes, Sean Nakamoto về pháp lý và hậu cần; và Omer Levy, Timothy Lillicrap, Jack Rae, Yifeng Lu, Heng-tze Cheng, Ed Chi, Vahab Mirrokni, Tulsee Doshi, Madhavi Sewak, Melvin Johnson, Koray Kavukcuoglu, Oriol Vinyals, Jeff Dean, Demis Hassabis và Sergey Brin vì sự hỗ trợ và lời khuyên của họ.
Cuối cùng, chúng tôi xin cảm ơn Giáo sư Gregor Dolinar từ Hội đồng IMO vì sự hỗ trợ và chứng thực của ông.
IMO đã xác nhận rằng các câu trả lời đã gửi của chúng tôi là các giải pháp đầy đủ và chính xác. Điều quan trọng cần lưu ý là việc xem xét của họ không mở rộng đến việc xác nhận hệ thống, quy trình hoặc mô hình cơ bản của chúng tôi (xem thêm).
Link bài viết gốc
- Tags:
- Ai
- 21 July 2025
- Deepmind.google