Phiên bản nâng cao của Gemini với Deep Think chính thức đạt tiêu chuẩn huy chương vàng tại Kỳ thi Olympic Toán học Quốc tế
Nghiên cứu
- 8 min read
Phiên bản nâng cao của Gemini với Deep Think chính thức đạt tiêu chuẩn Huy chương Vàng tại Olympic Toán học Quốc tế
Ngày 21 tháng 7 năm 2025 | Nghiên cứu
Bởi Thang Luong và Edward Lockhart
Olympic Toán học Quốc tế (IMO) là cuộc thi danh giá nhất thế giới dành cho các nhà toán học trẻ, được tổ chức thường niên từ năm 1959. Mỗi quốc gia tham gia cử ra sáu nhà toán học xuất sắc ở lứa tuổi tiền đại học để tranh tài giải sáu bài toán cực kỳ khó về đại số, tổ hợp, hình học và lý thuyết số. Các huy chương được trao cho một nửa số người tham gia đạt thành tích cao nhất, trong đó khoảng 8% nhận được Huy chương Vàng danh giá.
Gần đây, IMO cũng trở thành một thử thách đáng mơ ước đối với các hệ thống AI như một bài kiểm tra về khả năng giải toán và lý luận toán học nâng cao của chúng. Năm ngoái, hệ thống kết hợp AlphaProof và AlphaGeometry 2 của Google DeepMind đã đạt tiêu chuẩn Huy chương Bạc, giải được bốn trong sáu bài toán và đạt 28 điểm. Bằng cách sử dụng các ngôn ngữ hình thức chuyên dụng, bước đột phá này đã chứng tỏ rằng AI đang bắt đầu tiếp cận khả năng lý luận toán học của con người ở cấp độ cao.
Năm nay, chúng tôi là một trong những đơn vị đầu tiên có kết quả mô hình được các điều phối viên IMO chính thức chấm điểm và chứng nhận, sử dụng cùng tiêu chí như đối với các bài giải của học sinh. Ghi nhận những thành tựu đáng kể của các thí sinh sinh viên năm nay, chúng tôi nay rất vui mừng chia sẻ tin tức về thành tích đột phá của Gemini.
Thành tích đột phá tại IMO 2025 với Gemini Deep Think
Một phiên bản nâng cao của Gemini Deep Think đã giải hoàn hảo năm trong sáu bài toán IMO, đạt tổng cộng 35 điểm, qua đó đạt tiêu chuẩn Huy chương Vàng. Các lời giải có thể được tìm thấy trực tuyến tại đây.
“Chúng tôi có thể xác nhận rằng Google DeepMind đã đạt được cột mốc được mong đợi từ lâu, giành được 35 trên tổng số 42 điểm – một số điểm Huy chương Vàng. Các lời giải của họ đáng kinh ngạc ở nhiều khía cạnh. Ban chấm thi IMO thấy chúng rõ ràng, chính xác và hầu hết đều dễ theo dõi.”
Chủ tịch IMO, Giáo sư Tiến sĩ Gregor Dolinar
Thành tích này là một bước tiến đáng kể so với kết quả đột phá của năm ngoái. Tại IMO 2024, AlphaGeometry và AlphaProof yêu cầu các chuyên gia trước tiên phải dịch các bài toán từ ngôn ngữ tự nhiên sang các ngôn ngữ chuyên dụng, như Lean, và ngược lại đối với các chứng minh. Quá trình này cũng mất hai đến ba ngày tính toán. Năm nay, mô hình Gemini nâng cao của chúng tôi đã hoạt động hoàn toàn bằng ngôn ngữ tự nhiên, đưa ra các chứng minh toán học chặt chẽ trực tiếp từ mô tả bài toán chính thức – tất cả đều trong giới hạn thời gian thi đấu 4,5 giờ.
Tận dụng tối đa chế độ Deep Think
Chúng tôi đã đạt được kết quả năm nay dựa trên phiên bản nâng cao của Gemini Deep Think – một chế độ suy luận nâng cao cho các bài toán phức tạp, kết hợp một số kỹ thuật nghiên cứu mới nhất của chúng tôi, bao gồm cả tư duy song song. Thiết lập này cho phép mô hình đồng thời khám phá và kết hợp nhiều giải pháp khả thi trước khi đưa ra câu trả lời cuối cùng, thay vì đi theo một chuỗi suy nghĩ tuyến tính duy nhất.
Để tận dụng tối đa khả năng lý luận của Deep Think, chúng tôi đã huấn luyện thêm phiên bản Gemini này bằng các kỹ thuật học tăng cường mới, có thể tận dụng nhiều dữ liệu suy luận đa bước, giải quyết vấn đề và chứng minh định lý hơn. Chúng tôi cũng đã cung cấp cho Gemini quyền truy cập vào một kho dữ liệu được tuyển chọn gồm các lời giải toán học chất lượng cao, đồng thời bổ sung một số gợi ý và mẹo chung về cách tiếp cận các bài toán IMO vào hướng dẫn của nó.
Chúng tôi sẽ cung cấp một phiên bản của mô hình Deep Think này cho một nhóm người thử nghiệm đáng tin cậy, bao gồm cả các nhà toán học, trước khi triển khai cho người đăng ký Google AI Ultra.
Tương lai của AI và Toán học
Google DeepMind có các chương trình hợp tác liên tục với cộng đồng toán học, nhưng chúng tôi vẫn chỉ ở giai đoạn đầu của tiềm năng AI đóng góp cho toán học. Bằng cách dạy các hệ thống của chúng tôi suy luận linh hoạt và trực quan hơn, chúng tôi đang tiến gần hơn đến việc xây dựng AI có thể giải quyết các bài toán toán học phức tạp và nâng cao hơn.
Mặc dù cách tiếp cận của chúng tôi năm nay hoàn toàn dựa trên ngôn ngữ tự nhiên với Gemini, chúng tôi cũng tiếp tục đạt được tiến bộ với các hệ thống hình thức của mình, AlphaGeometry và AlphaProof. Chúng tôi tin rằng các tác nhân kết hợp sự lưu loát ngôn ngữ tự nhiên với khả năng suy luận chặt chẽ – bao gồm cả suy luận đã được xác minh bằng ngôn ngữ hình thức – sẽ trở thành những công cụ vô giá cho các nhà toán học, nhà khoa học, kỹ sư và nhà nghiên cứu, giúp chúng tôi thúc đẩy kiến thức của nhân loại trên con đường hướng tới AGI.
Tài nguyên bổ sung
- Khám phá các điểm nổi bật của IMO-Bench
- Đọc thêm về bài báo IMO-Bench
- Truy cập các bộ dữ liệu IMO-Bench
Lời cảm ơn
Chúng tôi xin cảm ơn ban tổ chức Olympic Toán học Quốc tế đã hỗ trợ.
Dự án này là một sự hợp tác quy mô lớn, và thành công của nó là nhờ nỗ lực kết hợp của nhiều cá nhân và nhóm. Thang Luong đã dẫn dắt định hướng kỹ thuật tổng thể cho nỗ lực IMO 2025 và đồng dẫn dắt cùng Edward Lockhart về điều phối chung.
Các trưởng nhóm và những người đóng góp chính của đội IMO 2025 bao gồm: Dawsen Hwang, Junehyuk Jung, Jonathan Lee, Nate Kushman, Pol Moreno, Yi Tay, Lei Yu, Golnaz Ghiasi, Garrett Bingham, Lalit Jain, Vincent Cohen-Addad và Theophane Weber, Ankesh Anand, Steven Zheng, Vinh Tran, Vinay Ramasesh, Andreas Kirsch, Jieming Mao, Zicheng Xu, Wilfried Bounsi, Vahab Mirrokni, Hoang Nguyen, Fred Zhang, Mahan Malihi, Yangsibo Huang, Yuri Chervonyi, Trieu Trinh, Junsu Kim, Mirek Olšák, Marcelo Menegali, Xiaomeng Yang, Richard Song, Miklós Z. Horváth, Aja Huang, Goran Žužić.
Nỗ lực này được tài trợ bởi nhóm Deep Think và nhóm GDM Thinking, với những đóng góp quan trọng từ các bộ phận sau trong quá trình đào tạo sau này: Archit Sharma, Shubha Raghvendra, Tong He, Pei Sun, Tianhe (Kevin) Yu, Eric Ni, Siamak Shakeri, Hanzhao (Maggie) Lin, Cosmo Du, Sid Lall, Le Hou, Yuan Zhang, Yujing Zhang, Yong Cheng, Luheng He và Chenxi Liu.
Dự án này nhận được sự cố vấn của Quoc Le và Pushmeet Kohli, với sự quản lý chương trình từ Kristen Chiafullo và Alex Goldin.
Chúng tôi cũng xin cảm ơn các chuyên gia đã cung cấp dữ liệu và đánh giá: Insuk Seo (trưởng nhóm), Jiwon Kang, Donghyun Kim, Junsu Kim, Jimin Kim, Seongbin Jeon, Yoonho Na, Seunghwan Lee, Jihoo Lee, Younghun Jo, Yongsuk Hur, Seongjae Park, Kyuhyeon Choi, Minkyu Choi, Su-Hyeok Moon, Seojin Kim, Yueun Lee, Taehun Kim, Jeeho Ryu, Seungwoo Lee, Dain Kim, Sanha Lee, Hyunwoo Choi, Aiden Jung, Youngbeom Jin, Jeonghyun Ahn, Junhwi Bae, Gyumin Kim, Nam Dung Tran, Quoc Ba Can Vo, Van Huyen Nguyen, Tuan Anh Nguyen, Thanh Dat Vo, Nguyen Nam Hung Tran, Van Khai Luong, Son Vu, Son Tra Dao, Dai Dinh Phong Tran, Thanh Dat Le, Cheng-Chiang Tsai, Kari Ragnarsson, Kiat Chuan Tan, Yahya Tabesh, Hamed Mahdavi, Azin Nazari, Chu-Lan Kao, Steven Creech, Tony Feng, Daogao Liu và Ciprian Manolescu.
Cuối cùng, chúng tôi xin cảm ơn Giáo sư Gregor Dolinar từ Ban Giám đốc IMO đã hỗ trợ và ủng hộ.
IMO đã xác nhận rằng các câu trả lời đã nộp của chúng tôi là những lời giải hoàn chỉnh và chính xác. Điều quan trọng cần lưu ý là quá trình xem xét của họ không bao gồm việc xác thực hệ thống, quy trình hoặc mô hình cơ bản của chúng tôi (xem thêm).
Link bài viết gốc
- Tags:
- Ai
- July 2025
- Deepmind.google