Genie 3- Một biên giới mới cho các mô hình thế giới
Tin tức về Genie 3, một bước đột phá mới trong lĩnh vực mô hình thế giới
- 18 min read
Genie 3: Một biên giới mới cho các mô hình thế giới
Ngày đăng: 5 tháng 8 năm 2025
Tác giả: Jack Parker-Holder và Shlomi Fruchter
Danh mục: Mô hình
Hôm nay, chúng tôi công bố Genie 3, một mô hình thế giới đa năng có khả năng tạo ra sự đa dạng đáng kinh ngạc về môi trường tương tác. Dựa trên một đoạn văn bản mô tả, Genie 3 có thể tạo ra các thế giới động mà bạn có thể điều hướng trong thời gian thực với tốc độ 24 khung hình/giây, duy trì tính nhất quán trong vài phút với độ phân giải 720p.
Hướng tới mô phỏng thế giới
Tại Google DeepMind, chúng tôi đã tiên phong nghiên cứu về môi trường mô phỏng trong hơn một thập kỷ, từ việc đào tạo các tác nhân để thành thạo các trò chơi chiến lược thời gian thực như StarCraft II, cho đến việc phát triển môi trường mô phỏng cho học tập mở không giới hạn và robot. Công việc này đã thúc đẩy chúng tôi phát triển các mô hình thế giới, là các hệ thống AI có thể sử dụng sự hiểu biết của chúng về thế giới để mô phỏng các khía cạnh của nó, cho phép các tác nhân dự đoán cả cách môi trường sẽ phát triển và cách hành động của chúng sẽ ảnh hưởng đến nó.
Các mô hình thế giới cũng là một bước tiến quan trọng trên con đường hướng tới AGI, vì chúng cho phép đào tạo các tác nhân AI trong một chương trình giảng dạy không giới hạn gồm các môi trường mô phỏng phong phú. Năm ngoái, chúng tôi đã giới thiệu các mô hình thế giới nền tảng đầu tiên với Genie 1 và Genie 2, có khả năng tạo ra các môi trường mới cho tác nhân. Chúng tôi cũng tiếp tục thúc đẩy công nghệ tiên tiến trong tạo video với các mô hình Veo 2 và Veo 3 của chúng tôi, thể hiện sự hiểu biết sâu sắc về vật lý trực quan.
Mỗi mô hình này đánh dấu sự tiến bộ trên các khả năng khác nhau của mô phỏng thế giới. Genie 3 là mô hình thế giới đầu tiên của chúng tôi cho phép tương tác trong thời gian thực, đồng thời cải thiện tính nhất quán và tính chân thực so với Genie 2.
Bảng so sánh chi tiết các cải tiến của mô hình Genie 3 so với GameNGen, Genie 2 và Veo trong các lĩnh vực chính như điều khiển, độ phân giải và độ trễ tương tác.
Khả năng của Genie 3:
Genie 3 cho phép:
Mô phỏng các đặc tính vật lý của thế giới
Trải nghiệm các hiện tượng tự nhiên như nước và ánh sáng, cùng các tương tác môi trường phức tạp.
Lời nhắc: Video hiển thị góc nhìn thứ nhất của một người đang di chuyển trên địa hình khó khăn ở giữa khu vực núi lửa. Đây là một video thế giới thực được quay từ góc nhìn của một robot bánh xích cần di chuyển qua địa hình. Xe có lốp địa hình lớn, kêu lạo xạo dưới đá đen. Camera là camera nhìn từ phía trước gắn trên xe, bạn có thể thấy lốp trước ở ngay dưới máy ảnh cùng với thân xe robot. Từ xa, bạn có thể thấy khói và dung nham chảy ra từ núi lửa. Không có dấu hiệu sự sống nào khác. Có các hồ dung nham mà tác nhân đang cố gắng tránh và các cấu trúc đá ngẫu nhiên. Bầu trời màu xanh rực rỡ.
Lời nhắc: Tàu phản lực trong lễ hội ánh sáng.
Lời nhắc: Đi bộ trên vỉa hè ở Florida bên cạnh con đường hai làn xe và biển ở phía bên kia, trong cơn bão đang đến gần, với gió mạnh và sóng biển bắn tung tóe lên đường. Có một hàng rào ở bên trái người đi bộ, ngăn cách họ với biển. Con đường chạy dọc theo bờ biển, với một cây cầu nhỏ có thể nhìn thấy phía trước người đi bộ. Sóng biển bắn tung tóe lên hàng rào và lên đường liên tục. Cây cọ lắc lư trong gió. Trời mưa nặng hạt, và người đi bộ đang mặc áo mưa. Thế giới thực, góc nhìn thứ nhất.
Lời nhắc: Theo dõi nhanh cảnh quay thế giới thực bơi qua vùng biển sâu tối tăm giữa các hẻm núi sâu, một đàn sứa khổng lồ dày đặc bơi lội, ánh sáng phát quang sinh học.
Lời nhắc: Một phi công trực thăng cẩn thận điều khiển máy bay trên một vách đá ven biển với một thác nước nhỏ.
Mô phỏng thế giới tự nhiên
Tạo ra các hệ sinh thái sống động, từ hành vi động vật đến đời sống thực vật phức tạp.
Lời nhắc: Chạy dọc theo bờ hồ băng, khám phá các con đường phân nhánh xuyên rừng, băng qua các con suối trên núi đang chảy. Nằm giữa những ngọn núi tuyết phủ tuyệt đẹp và rừng thông. Sinh vật phong phú làm cho chuyến đi trở nên thú vị.
Lời nhắc: Theo dõi cảnh quay thế giới thực bơi qua các hẻm núi biển sâu tối tăm, mờ ảo, một đàn sứa khổng lồ dày đặc bơi lội, ánh sáng phát quang sinh học.
Lời nhắc: Đây là một môi trường rừng huyền ảo, tự nhiên. Ánh sáng tươi sáng và vui vẻ, gợi ý một ngày nắng với ánh sáng lốm đốm xuyên qua tán lá tươi tốt, quá khổ. Không khí trong lành và tĩnh lặng. Mặt đất là một tấm thảm xanh mướt mịn màng của rêu và những cây nấm có màu sắc rực rỡ bất thường với màu đỏ và xanh lam, chóp nấm có chấm trắng. Những con đường mòn quanh co, có dấu chân rõ ràng và hẹp, uốn lượn giữa những cây cổ thụ cao chót vót với vỏ cây màu xám mịn. Xen kẽ trong rừng là những ngôi nhà hình nấm quyến rũ, với cửa gỗ tinh xảo và cửa sổ tròn nhỏ, mỗi ngôi nhà có thiết kế và bảng màu độc đáo, từ đỏ rực rỡ đến xanh lam và xanh lục dịu nhẹ. Các sinh vật rừng nhỏ bé, thân thiện, như bướm đầy màu sắc và chim hót líu lo nhỏ bé, bay lượn giữa tán lá, làm tăng thêm bầu không khí sôi động. Có rất nhiều loài hoa kỳ lạ, quá khổ nở rộ với nhiều màu pastel và màu sáng, tỏa ra ánh sáng dịu nhẹ.
Lời nhắc: Một khung cảnh rộng lớn, kỳ ảo, kỳ ảo ghi lại một khu rừng tươi tốt, huyền ảo được tắm trong ánh sáng dịu nhẹ của hoàng hôn. Người chơi điều khiển một con đom đóm lớn bay qua những cây cao chót vót với tán lá tươi tốt tạo thành một tán cây dày đặc phía trên, lọc ánh sáng mặt trời và tạo ra bóng râm lốm đốm trên nền rừng. Nằm nép mình giữa các cành cây là một vài ngôi nhà trên cây quyến rũ, mỗi ngôi nhà phát sáng với ánh sáng ấm áp, hấp dẫn. Các ngôi nhà trên cây có kích thước và thiết kế khác nhau, một số giống như lâu đài kỳ lạ, những ngôi nhà khác giống như cabin ấm cúc. Các chi tiết nhỏ, như cửa sổ phát sáng và ban công nhỏ, làm tăng thêm vẻ quyến rũ của chúng. Một con đường quanh co, gần như không thể nhìn thấy dưới lớp cây bụi, dẫn ánh mắt người xem sâu hơn vào khu rừng huyền ảo. Toàn cảnh gợi lên cảm giác kỳ diệu, thanh bình và phép màu của những giấc mơ tuổi thơ.
Mô phỏng hoạt ảnh và hư cấu
Khai thác trí tưởng tượng, tạo ra các kịch bản kỳ ảo và các nhân vật hoạt hình biểu cảm.
Lời nhắc: Phong cách 3D sống động, một sinh vật dễ thương, lông xù đang lao qua một cây cầu vồng rực rỡ trong một cảnh quan kỳ ảo. Sinh vật nhỏ bé và gọn gàng, với bộ lông bắt chước các tông màu ấm áp của cảnh bình minh – cam, vàng và hồng hòa quyện liền mạch với nhau. Đặc điểm nổi bật nhất của nó là một đôi tai lớn, dựng đứng, có hình dạng giống như tai của chó chăn cừu Đức, tạo thêm một chút tương phản vui tươi cho hình dạng tròn trịa vốn có của nó. Khi nó chạy bằng bốn chân ngắn trên cầu vồng, bộ lông của nó dường như gợn sóng và chảy, làm tăng thêm cảm giác động lực và năng lượng của nó. Cây cầu vồng uốn lượn duyên dáng qua một cảnh quan kỳ ảo, có thể chứa đầy những hòn đảo nổi, thực vật phát sáng và những đám mây xoáy. Ánh sáng tươi sáng và vui vẻ, chiếu một ánh sáng ấm áp lên sinh vật và môi trường xung quanh nó. Ấn tượng tổng thể là niềm vui, sự kỳ diệu và năng lượng vô biên, nắm bắt tinh thần vui tươi của sinh vật và bản chất kỳ diệu của thế giới mà nó sinh sống. Hình ảnh này gợi lên cảm giác kỳ lạ như trẻ con và mời người xem tưởng tượng về những cuộc phiêu lưu đang chờ đợi sinh vật quyến rũ này trong vương quốc kỳ ảo của nó.
Lời nhắc: Là một con thằn lằn, theo phong cách origami.
Lời nhắc: Một cảnh quay góc rộng, kỳ ảo ghi lại một khu rừng tươi tốt, huyền ảo được tắm trong ánh sáng dịu nhẹ của hoàng hôn. Người chơi điều khiển một con đom đóm lớn bay qua những cây cao chót vót với tán lá tươi tốt tạo thành một tán cây dày đặc phía trên, lọc ánh sáng mặt trời và tạo ra bóng râm lốm đốm trên nền rừng. Nằm nép mình giữa các cành cây là một vài ngôi nhà trên cây quyến rũ, mỗi ngôi nhà phát sáng với ánh sáng ấm áp, hấp dẫn. Các ngôi nhà trên cây có kích thước và thiết kế khác nhau, một số giống như lâu đài kỳ lạ, những ngôi nhà khác giống như cabin ấm cúc. Các chi tiết nhỏ, như cửa sổ phát sáng và ban công nhỏ, làm tăng thêm vẻ quyến rũ của chúng. Một con đường quanh co, gần như không thể nhìn thấy dưới lớp cây bụi, dẫn ánh mắt người xem sâu hơn vào khu rừng huyền ảo. Toàn cảnh gợi lên cảm giác kỳ diệu, thanh bình và phép màu của những giấc mơ tuổi thơ.
Lời nhắc: Một cảnh quan Ireland thanh bình, với những ngọn đồi xanh mướt, những hồ nước có sương mù và những ngọn núi hiểm trở, đột nhiên rung chuyển dữ dội – như thể chính trái đất đang bị xé toạc. Trong khoảnh khắc hỗn loạn siêu thực, các phần đất đai bị xé toạc, bay lên bầu trời theo những hình dạng sắc nhọn, kiểu kiến trúc tàn bạo, mặt dưới đá của chúng lộ ra như đất đá thô, nứt nẻ. Các hồ nước bị kéo lên, giờ lơ lửng trên bầu trời, nước của chúng đổ xuống thành những thác nước khổng lồ, tạo ra một cơn bão khải huyền với sương mù và mưa trên vùng đất bên dưới. Máy ảnh lùi lại, tiết lộ một địa lý mới không thể tưởng tượng được – những ngọn núi nổi, những vách đá đảo ngược, những con sông xoắn lại giữa không trung – khi chính trọng lực uốn cong, biến vùng nông thôn từng yên bình thành một tượng đài tàn khốc, siêu thực về sự biến đổi bạo lực của thiên nhiên.
Khám phá các địa điểm và bối cảnh lịch sử
Vượt qua các ranh giới địa lý và thời gian để khám phá các địa điểm và thời đại trong quá khứ.
Lời nhắc: Một môi trường miền núi thế giới thực ở dãy Alps. Cảnh quan có những vách đá dốc, đá và những hẻm núi hẹp chứa đầy đá vụn và mảnh vụn lỏng lẻo. Đá chủ yếu có màu xám và trắng, với các mảng thực vật xanh bám trên mặt vách đá. Đỉnh của hẻm núi mở ra tầm nhìn ra rừng cây xanh tươi và đồng cỏ. Chủ đề tổng thể là vẻ đẹp tự nhiên gồ ghề và địa hình khắc nghiệt.
Lời nhắc: Venice bằng Vaporetto. Các kênh đào của Venice được tái tạo với độ chi tiết công phu. Nước có phản chiếu và sóng thực tế. Các tòa nhà thể hiện lớp vữa bong tróc và dấu hiệu phong hóa qua nhiều thế kỷ. Cảnh quan có nhiều thuyền gondola, taxi nước và thuyền buôn khác.
Lời nhắc: Khám phá cung điện Knossos ở Crete như nó đã từng tồn tại trong thời kỳ huy hoàng nhất.
Lời nhắc: Đi bộ xung quanh trong một ngày đẹp trời ở Hinsdale, Illinois. Thế giới thực. Có những chiếc xe đang đậu. Người quay phim đang đứng trên vỉa hè, có những đàn chim bay trên đầu.
Lời nhắc: Một người đam mê xe đạp lái xe trên một con đường hẹp bên rìa vách đá ở Ấn Độ, Đường Killar-Kishtwar. Thế giới thực, góc nhìn thứ nhất, chỉ nhìn thấy tay trên tay lái.
Đẩy biên giới của khả năng thời gian thực
Việc đạt được mức độ kiểm soát cao và khả năng tương tác theo thời gian thực trong Genie 3 đòi hỏi những đột phá kỹ thuật đáng kể. Trong quá trình tạo khung hình tự hồi quy, mô hình phải tính đến quỹ đạo đã tạo trước đó ngày càng dài theo thời gian. Ví dụ, nếu người dùng quay lại một địa điểm sau một phút, mô hình phải tham chiếu lại thông tin liên quan từ một phút trước. Để đạt được tương tác thời gian thực, quá trình tính toán này phải diễn ra nhiều lần mỗi giây để phản hồi các đầu vào mới của người dùng khi chúng đến.
Cây cối bên trái tòa nhà vẫn nhất quán trong suốt quá trình tương tác, ngay cả khi chúng đi vào và ra khỏi tầm nhìn.
Tính nhất quán môi trường trong khoảng thời gian dài
Để các thế giới do AI tạo ra trở nên nhập vai, chúng phải duy trì tính nhất quán về mặt vật lý trong thời gian dài. Tuy nhiên, việc tạo ra một môi trường tự hồi quy thường là một vấn đề kỹ thuật khó khăn hơn so với việc tạo ra toàn bộ video, vì các sai sót có xu hướng tích lũy theo thời gian. Mặc dù gặp thách thức, môi trường Genie 3 phần lớn vẫn nhất quán trong vài phút, với bộ nhớ hình ảnh kéo dài đến một phút trước đó.
Lời nhắc: Góc nhìn thứ nhất của video drone. Chuyến bay tốc độ cao vào và dọc theo một hẻm núi hẹp ở Iceland với một con sông ở dưới đáy và rêu trên đá, giờ vàng, thế giới thực.
Sự kiện thế giới có thể điều khiển bằng lời nhắc
Ngoài các đầu vào điều hướng, Genie 3 còn cho phép một hình thức tương tác dựa trên văn bản biểu cảm hơn, mà chúng tôi gọi là sự kiện thế giới có thể điều khiển bằng lời nhắc.
Sự kiện thế giới có thể điều khiển bằng lời nhắc cho phép thay đổi thế giới được tạo ra, như thay đổi điều kiện thời tiết hoặc giới thiệu các đối tượng và nhân vật mới, nâng cao trải nghiệm từ các điều khiển điều hướng.
Khả năng này cũng làm tăng phạm vi các kịch bản phản thực tế, hay “điều gì sẽ xảy ra nếu”, có thể được sử dụng bởi các tác nhân học hỏi từ kinh nghiệm để xử lý các tình huống bất ngờ.
Chọn một bối cảnh thế giới. Sau đó, chọn một sự kiện và xem Genie 3 tạo ra nó.
Nuôi dưỡng nghiên cứu về tác nhân nhập vai
Để kiểm tra khả năng tương thích của các thế giới do Genie 3 tạo ra cho việc đào tạo tác nhân trong tương lai, chúng tôi đã tạo ra các thế giới cho phiên bản gần đây của tác nhân SIMA của chúng tôi, tác nhân tổng quát cho môi trường ảo 3D. Trong mỗi thế giới, chúng tôi chỉ dẫn tác nhân theo đuổi một tập hợp các mục tiêu riêng biệt, mà nó nhằm đạt được bằng cách gửi các hành động điều hướng tới Genie 3. Giống như bất kỳ môi trường nào khác, Genie 3 không biết mục tiêu của tác nhân, thay vào đó nó mô phỏng tương lai dựa trên các hành động của tác nhân.
Chọn một bối cảnh thế giới. Sau đó, chọn một mục tiêu bạn muốn tác nhân đạt được và xem cách nó thực hiện.
Chúng tôi tin rằng Genie 3 là một cột mốc quan trọng đối với các mô hình thế giới, nơi chúng sẽ bắt đầu có tác động đến nhiều lĩnh vực của cả nghiên cứu AI và truyền thông tạo sinh. Vì vậy, chúng tôi đang khám phá cách chúng tôi có thể làm cho Genie 3 có sẵn cho nhiều người thử nghiệm hơn trong tương lai.
Genie 3 có thể tạo ra các cơ hội mới cho giáo dục và đào tạo, giúp sinh viên học hỏi và chuyên gia tích lũy kinh nghiệm. Không chỉ có thể cung cấp một không gian rộng lớn để đào tạo các tác nhân như robot và hệ thống tự động, Genie 3 còn có thể cho phép đánh giá hiệu suất của các tác nhân và khám phá điểm yếu của chúng.
Trong mọi bước đi, chúng tôi đang khám phá những tác động của công việc của mình và phát triển nó vì lợi ích của nhân loại, một cách an toàn và có trách nhiệm.
Vui lòng trích dẫn bằng BibTex sau:
Hạn chế
Mặc dù Genie 3 vượt qua các giới hạn về những gì các mô hình thế giới có thể đạt được, nhưng điều quan trọng là phải thừa nhận những hạn chế hiện tại của nó:
- Không gian hành động hạn chế. Mặc dù các sự kiện thế giới có thể điều khiển bằng lời nhắc cho phép nhiều biện pháp can thiệp môi trường khác nhau, nhưng chúng không nhất thiết phải do chính tác nhân thực hiện. Phạm vi hành động mà tác nhân có thể thực hiện trực tiếp hiện đang bị hạn chế.
- Tương tác và mô phỏng các tác nhân khác. Mô hình hóa chính xác các tương tác phức tạp giữa nhiều tác nhân độc lập trong môi trường chia sẻ vẫn là một thách thức nghiên cứu đang diễn ra.
- Biểu diễn chính xác các địa điểm thế giới thực. Genie 3 hiện không thể mô phỏng các địa điểm thế giới thực với độ chính xác địa lý hoàn hảo.
- Hiển thị văn bản. Văn bản rõ ràng và dễ đọc thường chỉ được tạo khi được cung cấp trong mô tả thế giới đầu vào.
- Thời lượng tương tác hạn chế. Mô hình hiện có thể hỗ trợ tương tác liên tục trong vài phút, thay vì vài giờ.
Trách nhiệm
Chúng tôi tin rằng các công nghệ nền tảng đòi hỏi cam kết sâu sắc về trách nhiệm ngay từ đầu. Các đổi mới kỹ thuật trong Genie 3, đặc biệt là khả năng mở và thời gian thực của nó, mang đến những thách thức mới về an toàn và trách nhiệm. Để giải quyết những rủi ro độc đáo này đồng thời hướng tới việc tối đa hóa lợi ích, chúng tôi đã làm việc chặt chẽ với Nhóm Phát triển & Đổi mới Có trách nhiệm của chúng tôi.
Tại Google DeepMind, chúng tôi cam kết phát triển các mô hình tốt nhất của mình theo cách khuếch đại sự sáng tạo của con người, đồng thời hạn chế các tác động không mong muốn. Khi chúng tôi tiếp tục khám phá tiềm năng ứng dụng cho Genie, chúng tôi đang công bố Genie 3 dưới dạng bản xem trước nghiên cứu giới hạn, cung cấp quyền truy cập sớm cho một nhóm nhỏ các học giả và người sáng tạo. Cách tiếp cận này cho phép chúng tôi thu thập phản hồi quan trọng và các góc nhìn liên ngành khi chúng tôi khám phá biên giới mới này và tiếp tục xây dựng sự hiểu biết của chúng tôi về rủi ro và các biện pháp giảm thiểu phù hợp. Chúng tôi mong muốn được hợp tác sâu hơn với cộng đồng để phát triển công nghệ này một cách có trách nhiệm.
Bước tiếp theo
Chúng tôi tin rằng Genie 3 là một khoảnh khắc quan trọng đối với các mô hình thế giới, nơi chúng sẽ bắt đầu có tác động đến nhiều lĩnh vực của cả nghiên cứu AI và truyền thông tạo sinh. Do đó, chúng tôi đang khám phá cách chúng tôi có thể làm cho Genie 3 có sẵn cho nhiều người thử nghiệm hơn trong tương lai.
Genie 3 có thể tạo ra các cơ hội mới cho giáo dục và đào tạo, giúp sinh viên học hỏi và chuyên gia tích lũy kinh nghiệm. Không chỉ có thể cung cấp một không gian rộng lớn để đào tạo các tác nhân như robot và hệ thống tự động, Genie 3 còn có thể cho phép đánh giá hiệu suất của các tác nhân và khám phá điểm yếu của chúng.
Trong mọi bước đi, chúng tôi đang khám phá những tác động của công việc của mình và phát triển nó vì lợi ích của nhân loại, một cách an toàn và có trách nhiệm.
Link bài viết gốc
- Tags:
- Ai
- August 2025
- Deepmind.google