Các mô hình. Tầm nhìn của chúng tôi về việc xây dựng một trợ lý AI phổ quát

Chúng tôi đang mở rộng Gemini để trở thành một mô hình thế giới có thể lập kế hoạch và hình dung những trải nghiệm mới bằng cách mô phỏng các khía cạnh của thế giới.

May 21, 2025
6 min read

Các mô hình. Tầm nhìn của chúng tôi về việc xây dựng một trợ lý AI phổ quát — Chúng tôi đang mở rộng Gemini để trở thành một mô hình thế giới có thể lập kế hoạch và hình dung những trải nghiệm mới bằng cách mô phỏng các khía cạnh của thế giới.

Google I/O 2025: Gemini như một trợ lý AI đa năng

Tại Google I/O, chúng tôi đã thảo luận về cách chúng tôi mở rộng Gemini để trở thành một mô hình thế giới, có thể lập kế hoạch và hình dung những trải nghiệm mới bằng cách mô phỏng các khía cạnh của thế giới.

Trong thập kỷ qua, chúng tôi đã đặt nền móng cho kỷ nguyên AI hiện đại, từ việc tiên phong trong kiến trúc Transformer trên đó tất cả các mô hình ngôn ngữ lớn đều dựa trên, đến việc phát triển các hệ thống đại diện có thể học hỏi và lập kế hoạch như AlphaGo và AlphaZero.

Chúng tôi đã áp dụng các kỹ thuật này để tạo ra những đột phá trong điện toán lượng tử, toán học, khoa học đời sống và khám phá thuật toán. Và chúng tôi tiếp tục tăng gấp đôi về chiều rộng và chiều sâu của nghiên cứu cơ bản của mình, làm việc để phát minh ra những đột phá lớn tiếp theo cần thiết cho trí tuệ nhân tạo tổng quát (AGI).

Đây là lý do tại sao chúng tôi đang nỗ lực mở rộng mô hình nền tảng đa phương thức tốt nhất của mình, Gemini 2.5 Pro, để trở thành “mô hình thế giới” có thể lập kế hoạch và hình dung những trải nghiệm mới bằng cách hiểu và mô phỏng các khía cạnh của thế giới, giống như não bộ.

Chúng tôi đã thực hiện những bước tiến theo hướng này một thời gian, từ công trình tiên phong của chúng tôi trong việc đào tạo các tác nhân để làm chủ các trò chơi phức tạp như Go và StarCraft, đến việc xây dựng Genie 2, có khả năng tạo ra các môi trường mô phỏng 3D mà bạn có thể tương tác, từ một lời nhắc hình ảnh duy nhất.

Chúng ta đã có thể thấy bằng chứng về những khả năng này nổi lên trong khả năng của Gemini sử dụng kiến thức và lý luận về thế giới để biểu diễn và mô phỏng môi trường tự nhiên, sự hiểu biết sâu sắc của Veo về vật lý trực quan và cách Gemini Robotics dạy robot nắm bắt, tuân theo hướng dẫn và điều chỉnh một cách nhanh chóng.

Việc biến Gemini thành một mô hình thế giới là một bước quan trọng trong việc phát triển một loại AI mới, tổng quát hơn và hữu ích hơn - một trợ lý AI đa năng. Đây là một AI thông minh, hiểu ngữ cảnh bạn đang ở và có thể lập kế hoạch và hành động thay mặt bạn trên mọi thiết bị.

Đưa các khả năng trực tiếp của Project Astra vào các sản phẩm của chúng tôi

Tầm nhìn cuối cùng của chúng tôi là chuyển đổi ứng dụng Gemini thành một trợ lý AI đa năng, sẽ thực hiện các nhiệm vụ hàng ngày cho chúng ta, chăm sóc công việc quản trị trần tục của chúng ta và đưa ra những đề xuất mới thú vị — làm cho chúng ta năng suất hơn và làm phong phú thêm cuộc sống của chúng ta.

Điều này bắt đầu với những khả năng mà chúng tôi lần đầu tiên khám phá vào năm ngoái trong nguyên mẫu nghiên cứu Project Astra của mình, chẳng hạn như hiểu video, chia sẻ màn hình và bộ nhớ.

Trong năm qua, chúng tôi đã tích hợp các khả năng như thế này vào Gemini Live để nhiều người trải nghiệm hơn ngay hôm nay. Chúng tôi tiếp tục không ngừng cải thiện và khám phá những đổi mới mới ở tiền tuyến. Ví dụ: chúng tôi đã nâng cấp đầu ra giọng nói để tự nhiên hơn với âm thanh gốc, chúng tôi đã cải thiện bộ nhớ và thêm điều khiển máy tính.

Chúng tôi hiện đang thu thập phản hồi về những khả năng này từ những người thử nghiệm đáng tin cậy và đang nỗ lực để đưa chúng vào Gemini Live, để có những trải nghiệm mới trong Tìm kiếm, API Trực tiếp cho các nhà phát triển và các yếu tố hình thức mới, như kính.

Thông qua mọi bước của quy trình này, sự an toàn và trách nhiệm là trung tâm trong công việc của chúng tôi. Gần đây, chúng tôi đã thực hiện một dự án nghiên cứu lớn, khám phá các vấn đề đạo đức xung quanh các trợ lý AI tiên tiến và công việc này tiếp tục thông báo cho nghiên cứu, phát triển và triển khai của chúng tôi.

Xây dựng AI có thể đa nhiệm cho bạn

Chúng tôi cũng đã khám phá cách các khả năng đại diện có thể giúp mọi người đa nhiệm, với Project Mariner. Đây là một nguyên mẫu nghiên cứu khám phá tương lai của tương tác giữa người và tác nhân, bắt đầu với trình duyệt.

Kể từ khi ra mắt Project Mariner vào tháng 12 năm ngoái, chúng tôi đã làm việc chặt chẽ với một nhóm người thử nghiệm đáng tin cậy để thu thập phản hồi và cải thiện các khả năng thử nghiệm của nó.

Project Mariner hiện bao gồm một hệ thống các tác nhân có thể hoàn thành tối đa mười tác vụ khác nhau cùng một lúc. Những tác nhân này có thể giúp bạn tra cứu thông tin, đặt chỗ, mua đồ, nghiên cứu và hơn thế nữa - tất cả cùng một lúc.

Project Mariner được cập nhật hiện có sẵn cho người đăng ký Google AI Ultra ở Hoa Kỳ. Chúng tôi đang đưa các khả năng sử dụng máy tính của nó vào Gemini API và chúng tôi dự định mang nhiều khả năng hơn vào các sản phẩm của Google trong suốt cả năm. Đọc thêm về các khả năng đại diện của chúng tôi trong Tìm kiếm và ứng dụng Gemini.

Với điều này và tất cả công việc đột phá của mình, chúng tôi đang xây dựng AI cá nhân, chủ động và mạnh mẽ hơn, làm phong phú thêm cuộc sống của chúng ta, thúc đẩy tốc độ tiến bộ khoa học và mở ra một kỷ nguyên vàng mới của khám phá và kỳ diệu.

AI Today - SkyAI

Các mô hình. Tầm nhìn của chúng tôi về việc xây dựng một trợ lý AI phổ quát

Google I/O 2025: Gemini như một trợ lý AI đa năng

Đưa các khả năng trực tiếp của Project Astra vào các sản phẩm của chúng tôi

Xây dựng AI có thể đa nhiệm cho bạn

Link bài viết gốc