Các mô hình đằng sau "ANCESTRA"- kết hợp Veo với làm phim hành động trực tiếp

Chúng tôi hợp tác với Darren Aronofsky, Eliza McNitt và một nhóm hơn 200 người để làm một bộ phim bằng cách sử dụng Veo và làm phim hành động trực tiếp.

  • 10 min read
Các mô hình đằng sau "ANCESTRA"- kết hợp Veo với làm phim hành động trực tiếp
Chúng tôi hợp tác với Darren Aronofsky, Eliza McNitt và một nhóm hơn 200 người để làm một bộ phim bằng cách sử dụng Veo và làm phim hành động trực tiếp.

Hậu trường ANCESTRA: kết hợp AI tạo sinh với làm phim hành động trực tiếp

Chúng tôi hợp tác với Darren Aronofsky, Eliza McNitt và một đội ngũ hơn 200 người để thực hiện bộ phim ANCESTRA.

[Hình ảnh: Ảnh thu nhỏ trên YouTube của Ancestra]

Hôm nay, bộ phim ngắn “ANCESTRA” của Eliza McNitt sẽ ra mắt tại Liên hoan phim Tribeca. Đó là câu chuyện về một người mẹ, và điều gì xảy ra khi đứa con của cô chào đời với một lỗ hổng trong tim. Lấy cảm hứng từ những sự kiện đầy kịch tính trong chính lần sinh nở của McNitt, bộ phim khắc họa tình mẫu tử như một thế lực vũ trụ, cứu sống.

Đây là bộ phim đầu tiên trong số ba phim ngắn được sản xuất dưới sự hợp tác giữa nhóm của chúng tôi tại Google DeepMind và Primordial Soup, một liên doanh mới chuyên về đổi mới kể chuyện do đạo diễn Darren Aronofsky sáng lập. Cùng nhau, chúng tôi đã thành lập quan hệ đối tác này để đưa AI tạo sinh tốt nhất thế giới vào tay các nhà làm phim hàng đầu, để thúc đẩy các ranh giới của kể chuyện và công nghệ.

“ANCESTRA” kết hợp các cảnh hành động trực tiếp với các chuỗi được tạo bởi Veo, mô hình tạo video hiện đại của chúng tôi. McNitt mô tả trải nghiệm của cô khi làm việc với công nghệ của chúng tôi: “Veo là một lăng kính khác mà qua đó tôi có thể hình dung vũ trụ xung quanh mình.”

Để tạo ra “ANCESTRA”, Google DeepMind đã tập hợp một đội ngũ sáng tạo đa ngành gồm các nhà làm phim hoạt hình, giám đốc nghệ thuật, nhà thiết kế, nhà văn, nhà công nghệ và nhà nghiên cứu, những người đã làm việc chặt chẽ với hơn 200 chuyên gia trong lĩnh vực sản xuất và làm phim truyền thống, một đoàn làm phim và diễn viên hành động trực tiếp, cùng với một đội ngũ biên tập, nghệ sĩ hiệu ứng hình ảnh (VFX), nhà thiết kế âm thanh và nhà soạn nhạc.

[Video: Making of Ancestra]

Đưa các mô hình tạo sinh tiên tiến nhất của chúng tôi lên màn ảnh

Trong khi McNitt viết kịch bản cho “ANCESTRA,” cô đã làm việc với một nghệ sĩ vẽ truyện tranh phân cảnh để hình dung các cảnh hành động trực tiếp và hợp tác với nhóm của chúng tôi để tạo ra hình ảnh cho các chuỗi có thể hưởng lợi từ quá trình tạo AI.

Chúng tôi đã sử dụng Gemini để phát triển các lời nhắc của mình và sử dụng Veo và mô hình tạo hình ảnh của chúng tôi, Imagen, để tạo ra một loạt các cảnh quay tiềm năng, được sắp xếp theo tâm trạng, màu sắc và cảm xúc. Dưới đây là phân tích về cách chúng tôi lên kế hoạch và tạo ra các yếu tố AI của bộ phim:

  • Gemini: Nhóm của chúng tôi đã tải lên những bức ảnh do cha của McNitt chụp vào ngày cô sinh ra và yêu cầu Gemini mô tả những bức ảnh này một cách chi tiết thẩm mỹ chính xác. Những mô tả này trở thành lời nhắc để tạo ra những hình ảnh và video mới.
  • Imagen: Chúng tôi đã tạo ra bản vẽ ý tưởng chính của bộ phim, xác định giao diện, phong cách và tâm trạng tổng thể. Những hình ảnh này trở thành điểm khởi đầu cho các video của chúng tôi.
  • Veo: Chúng tôi đã làm hoạt hình cho những hình ảnh được tạo ra và viết thêm các lời nhắc văn bản để hướng dẫn hành động và chuyển động để tạo ra các cảnh quay cuối cùng.

Cùng nhau phát triển các khả năng Veo mới

Trong khi Veo giúp có thể tạo ra các cảnh kết hợp diễn xuất hành động trực tiếp và cảnh quay do AI tạo ra về một em bé sơ sinh chân thực, nó cũng đặt ra những thách thức mới. Ví dụ: McNitt muốn video được tạo ra phù hợp với chất lượng và màu sắc của các cảnh hành động trực tiếp của cô. Cô ấy cũng cần kiểm soát chuyển động của máy quay và chủ đề của video được tạo. Để đáp ứng những thách thức này, chúng tôi đã phát triển một số khả năng Veo mới để cho phép cá nhân hóa tốt hơn, khớp chuyển động chính xác và khả năng kết hợp cảnh quay hành động trực tiếp và cảnh quay do AI tạo ra.

Tạo video được cá nhân hóa

Chúng tôi hướng đến việc tạo ra những video mang lại cảm giác thân mật và cá nhân như chính câu chuyện. Ví dụ: McNitt muốn tạo cảnh quay về một em bé trông chân thực trong bụng mẹ, đồng thời kiểm soát hướng nghệ thuật, bố cục và chuyển động. Vì vậy, chúng tôi đã tinh chỉnh một mô hình Imagen để phù hợp với phong cách của hình ảnh tham khảo. Sau đó, chúng tôi làm việc với Gemini để tạo ra và tinh chỉnh lời nhắc để tạo ra những hình ảnh thực tế về một em bé trong bụng mẹ. Cuối cùng, chúng tôi đã biến những hình ảnh đó thành các cảnh hoạt hình bằng khả năng hình ảnh thành video của Veo.

[Hình ảnh: Một lưới gồm bốn hình ảnh được tạo riêng biệt về một em bé trôi trong một môi trường tối tăm, lờ mờ—khuôn mặt em bé nhắm nghiền mắt, chi tiết bàn chân, sau đầu và ngực.]

Bằng cách tinh chỉnh mô hình Imagen, chúng tôi duy trì được hướng nghệ thuật cụ thể và nhất quán giữa các cảnh khác nhau của em bé do AI tạo ra.

Tạo video khớp chuyển động

Trong một cảnh, McNitt muốn đưa người xem vào một cuộc hành trình xuyên qua cơ thể con người, cuối cùng hạ cánh xuống bụng mẹ để cho thấy một em bé được sinh ra bằng phương pháp mổ lấy thai. Để theo dõi chuyển động chính xác của máy quay này, chúng tôi đã tạo một mô hình 3D ảo về cơ thể người và quay một cảnh nháp bằng cách di chuyển một máy quay ảo qua mô hình này. Sau đó, chúng tôi đã sử dụng Veo để theo dõi chuyển động của cảnh quay nháp và tạo ra các video mới bằng cùng một chuyển động đó. Chúng tôi đã hướng dẫn video được tạo bằng các lời nhắc bằng văn bản, cho đến khi chúng tôi đạt được cảnh quay mà McNitt đã hình dung.

[Video: Watermarked Ancestra motion match]

McNitt đã vạch ra chuyển động máy quay mong muốn của mình bằng một mô hình ảo về cơ thể con người. Sau đó, chúng tôi đã sử dụng tính năng khớp chuyển động của Veo để tạo một video có cùng chuyển động đó.

Trong một cảnh khác, McNitt muốn chiếu một loạt các lỗ hữu cơ đóng lại, ám chỉ lỗ hổng trong tim em bé. Vì vậy, chúng tôi đã cung cấp cho Veo các video tham khảo về chuyển động này và yêu cầu nó khớp chuyển động trên các cảnh quay khác nhau. Việc chỉ sản xuất các chuỗi này bằng hình ảnh do máy tính tạo ra (CGI) sẽ rất phức tạp và tốn thời gian, và sẽ rất khó để kiểm soát chuyển động chỉ bằng lời nhắc bằng văn bản. Với sự giúp đỡ của Veo, chúng tôi có thể sản xuất các cảnh chất lượng cao chỉ trong vài phút.

[Video: watermarked ancestra combined output]

Chúng tôi đã cung cấp cho Veo một video đầu vào với chuyển động mong muốn. Sau đó, Veo kết hợp chuyển động tham khảo với lời nhắc văn bản để tạo một cảnh khớp chuyển động mới.

Kết hợp làm phim truyền thống và video tạo sinh

Hình ảnh về em bé được sản xuất bằng VFX truyền thống có nguy cơ trông kỳ lạ và các đạo diễn sẽ gặp khó khăn và tốn thời gian để có được hiệu suất chính xác mà họ mong muốn. Vì vậy, đối với cảnh sinh nở, chúng tôi đã tạo bố cục diễn xuất của diễn viên và tạo ra một em bé sơ sinh trông chân thực để phù hợp với cảnh quay. Đầu tiên, chúng tôi cung cấp cho Veo cảnh quay hành động trực tiếp, một lời nhắc bằng văn bản mô tả cảnh và một khu vực xác định để thêm em bé. Sau đó, sử dụng khả năng “thêm đối tượng” của Veo, chúng tôi đã tạo hình ảnh AI về một em bé vào cảnh quay hành động trực tiếp—giữ cho mọi thứ khác nhất quán—và chúng tôi đã tinh chỉnh cảnh quay bằng VFX truyền thống và phân loại màu sắc.

[Video: watermarked baby montage]

Chúng tôi đã thêm một em bé sơ sinh do AI tạo ra vào cảnh quay hành động trực tiếp và tinh chỉnh cảnh quay cuối cùng bằng VFX và phân loại màu sắc.

Thêm video tạo sinh vào quy trình làm việc truyền thống

Nhiều cảnh trong phim sử dụng nhiều hình ảnh và video do AI tạo ra được kết hợp liền mạch bằng quy trình làm phim truyền thống. Ví dụ: chúng tôi đã tạo một cảnh hiển thị các họa tiết phức tạp ở bên trong một quả trứng cá sấu vừa nở vào lúc hoàng hôn. Để dựng cảnh quay này, chúng tôi đã kết hợp nhiều video và hình ảnh được tạo ra bằng các kỹ thuật tổng hợp VFX truyền thống.

[Video: watermarked ancestra crocodile egg]

Cảnh quay này ghi lại góc nhìn từ bên trong một quả trứng cá sấu đang nứt, lúc hoàng hôn với cá sấu mẹ bảo vệ ở gần đó. Chúng tôi đã sử dụng Veo và Imagen để tạo ra các yếu tố hình ảnh chính, sau đó được tổng hợp liền mạch trong quy trình VFX truyền thống để mang tầm nhìn sáng tạo cụ thể này vào cuộc sống.

Hợp tác với ngành công nghiệp điện ảnh để kể những câu chuyện mới

“ANCESTRA” là bộ phim đầu tiên trong số ba bộ phim chúng tôi đang thực hiện với Primordial Soup. Mỗi bộ phim trong quan hệ đối tác này đều do một nhà làm phim mới nổi làm đạo diễn, người được Darren Aronofsky hướng dẫn và đội ngũ của chúng tôi hỗ trợ.

Nhiều bộ phim tuyệt vời đã được tạo ra bằng cách sử dụng các bộ công cụ làm phim, CGI và VFX hành động trực tiếp. AI tạo sinh có thể bổ sung cho quy trình làm việc sáng tạo và sản xuất hiện có, trao quyền cho các nhà làm phim vượt qua những hạn chế thực tế với những cảnh khó quay hoặc đắt đỏ.

Bằng cách làm việc với các nghệ sĩ, chúng tôi đảm bảo rằng các công cụ chúng tôi đang xây dựng hữu ích và bắt nguồn từ nhu cầu của các nhà làm phim chuyên nghiệp. Hợp tác với những người có tầm nhìn xa như McNitt và Aronofsky giúp chúng ta khám phá tiềm năng sáng tạo của các công nghệ ngày nay và hình dung những gì chúng ta có thể tạo ra tiếp theo.

Recommended for You

Các mô hình âm thanh và đối thoại nâng cao với Gemini 2.5

Các mô hình âm thanh và đối thoại nâng cao với Gemini 2.5

Gemini 2.5 có các khả năng mới trong đối thoại và tạo âm thanh được hỗ trợ bởi AI.

Các mô hình. Gemini 2.5- Các mô hình thông minh nhất của chúng tôi đang ngày càng trở nên tốt hơn

Các mô hình. Gemini 2.5- Các mô hình thông minh nhất của chúng tôi đang ngày càng trở nên tốt hơn

Gemini 2.5 Pro tiếp tục được các nhà phát triển yêu thích với tư cách là mô hình tốt nhất để viết mã và 2.5 Flash thậm chí còn tốt hơn với bản cập nhật mới. Chúng tôi đang mang đến những khả năng mới cho các mô hình của mình, bao gồm...