Stable Video 4D 2.0- Nâng Cấp Mới cho Chế Độ Xem Mới Độ Trung Thực Cao và Tạo 4D từ Một Video Duy Nhất

Chúng tôi đã nâng cấp Stable Video Diffusion 4D (SV4D) lên Stable Video 4D 2.0 (SV4D 2.0), mang lại đầu ra chất lượng cao hơn trên video thế giới thực. Mô hình khuếch tán video đa chế độ xem này lý tưởng cho việc tạo tài sản 4D động từ một video tập trung vào đối tượng duy nhất.

  • 4 min read
Stable Video 4D 2.0- Nâng Cấp Mới cho Chế Độ Xem Mới Độ Trung Thực Cao và Tạo 4D từ Một Video Duy Nhất
Chúng tôi đã nâng cấp Stable Video Diffusion 4D (SV4D) lên Stable Video 4D 2.0 (SV4D 2.0), mang lại đầu ra chất lượng cao hơn trên video thế giới thực. Mô hình khuếch tán video đa chế độ xem này lý tưởng cho việc tạo tài sản 4D động từ một video tập trung vào đối tượng duy nhất.

Stable Video 4D 2.0: Nâng Cấp Mới Cho Chế Độ Xem Mới Độ Trung Thực Cao Và Tạo 4D Từ Một Video Duy Nhất — Stability AI

Điểm chính:

  • Chúng tôi đã nâng cấp Stable Video Diffusion 4D (SV4D) lên Stable Video 4D 2.0 (SV4D 2.0), mang lại kết quả chất lượng cao hơn trên video thực tế.
  • Phân tích của chúng tôi cho thấy SV4D 2.0 đạt được kết quả hiện đại trong cả tạo 4D và tổng hợp chế độ xem mới.
  • Stable Video 4D 2.0 hiện có sẵn cho cả mục đích sử dụng thương mại và phi thương mại theo Giấy phép Cộng đồng Stability AI cho phép.
  • Bạn có thể tải xuống các mô hình tạo nhiều chế độ xem trên Hugging Face, tìm mã trên GitHub và đọc về quy trình tái tạo nội dung 4D trên arXiv.

Tải xuống model

Stable Video 4D 2.0

Chúng tôi đã nâng cấp Stable Video Diffusion 4D (SV4D) lên Stable Video 4D 2.0 (SV4D 2.0), mang lại kết quả chất lượng cao hơn trên video thực tế. Mô hình khuếch tán video đa chế độ xem này rất lý tưởng để tạo nội dung 4D động từ một video lấy đối tượng làm trung tâm duy nhất. Các nâng cấp này giúp bạn dễ dàng tạo nội dung 4D động cho quy trình sản xuất chuyên nghiệp hơn, từ việc tạo các trang sprite cho các nhân vật trong trò chơi đến hỗ trợ nội dung cho phim và thế giới ảo.

Việc tạo nhiều chế độ xem vẫn phức tạp do tính mơ hồ vốn có của việc hình dung các đối tượng 3D từ các chế độ xem chưa từng thấy. Điều này đặc biệt khó khăn khi đối tượng đang chuyển động. SV4D 2.0 tạo ra tiến bộ gia tăng hướng tới giải quyết thách thức này bằng cách tạo ra các kết quả đầu ra đa góc nhất quán mà không cần dựa vào các tập dữ liệu lớn, thiết lập đa camera hoặc tiền xử lý. Mặc dù điều này thể hiện một bước tiến, nhưng các hiện tượng lạ thỉnh thoảng vẫn có thể xuất hiện với chuyển động động.

Có gì mới

Chúng tôi đã thực hiện nhiều nâng cấp cho SV4D 2.0, bao gồm:

  • Đầu ra 4D sắc nét và mạch lạc hơn: Mô hình được đào tạo theo từng giai đoạn, bắt đầu bằng nội dung 3D tĩnh, sau đó thêm chuyển động, dẫn đến kết quả 4D rõ ràng và nhất quán hơn.

  • Không yêu cầu chế độ xem tham chiếu: Hoạt động trực tiếp từ một video duy nhất, loại bỏ nhu cầu về hình ảnh tham chiếu đa chế độ xem.

  • Kiến trúc mạng được thiết kế lại: Sử dụng sự chú ý 3D, một cơ chế kết hợp các đặc điểm không gian và thời gian 3D, cải thiện tính nhất quán về không gian-thời gian mà không cần dựa vào các chế độ xem tham chiếu.

  • Cải thiện khả năng khái quát hóa trong thế giới thực: Hoạt động nhất quán hơn trên các video thực tế. Mặc dù được đào tạo trên dữ liệu tổng hợp, nhưng mô hình vẫn giữ lại kiến thức về thế giới từ các mô hình video được đào tạo trước.

Nghiên cứu và đo điểm chuẩn

Phân tích của chúng tôi cho thấy SV4D 2.0 đạt được kết quả hiện đại trong tạo 4D. Nó xếp hạng đầu tiên trên tất cả các điểm chuẩn chính: LPIPS (Độ trung thực của hình ảnh), FVD-V (Tính nhất quán của nhiều chế độ xem), FVD-F (Tính mạch lạc tạm thời) và FV4D (Tính nhất quán 4D). So với DreamGaussian4D, L4GM và SV4D, phiên bản này tạo ra đầu ra 4D sắc nét và nhất quán hơn.

Phân tích của chúng tôi cũng cho thấy SV4D 2.0 vượt trội hơn Diffusion^2, SV3D và SV4D về tổng hợp chế độ xem mới. Mô hình này cải thiện đáng kể tính nhất quán của nhiều chế độ xem (FVD-V) và tính mạch lạc tạm thời (FVD-F), duy trì đầu ra chất lượng cao trên cả các điểm nhìn và thời gian thay đổi. Bạn có thể đọc thêm về những tiến bộ kỹ thuật của mô hình trong bài nghiên cứu.

Bắt đầu

Stable Video 4D 2.0 hiện có sẵn cho cả mục đích sử dụng thương mại và phi thương mại theo Giấy phép Cộng đồng Stability AI cho phép.

Bạn có thể tải xuống các mô hình tạo nhiều chế độ xem trên Hugging Face, tìm mã trên GitHub và đọc về quy trình tái tạo nội dung 4D trên arXiv.

Để cập nhật về tiến trình của chúng tôi, hãy theo dõi chúng tôi trên X, LinkedIn, Instagram và tham gia Cộng đồng Discord của chúng tôi.

Recommended for You

Stability AI và Arm hợp tác phát hành Stable Audio Open Small, cho phép triển khai thực tế để điều khiển âm thanh trên thiết bị

Stability AI và Arm hợp tác phát hành Stable Audio Open Small, cho phép triển khai thực tế để điều khiển âm thanh trên thiết bị

Không có mô tả ngắn gọn

Chuyển ngữ whisper cực nhanh với Inference Endpoints

Chuyển ngữ whisper cực nhanh với Inference Endpoints

Bài viết này thảo luận về cách sử dụng Inference Endpoints để có được bản ghi whisper cực nhanh.