Giới thiệu Camera Ảo Ổn định- Tạo Video Đa Góc Nhìn với Điều Khiển Camera 3D
Giới thiệu Camera Ảo Ổn định, hiện đang ở bản xem trước nghiên cứu. Mô hình khuếch tán đa góc nhìn này chuyển đổi hình ảnh 2D thành video 3D sống động với độ sâu và phối cảnh chân thực—mà không cần tái cấu trúc phức tạp hoặc tối ưu hóa cụ thể cho cảnh.
- 5 min read
Giới thiệu Camera Ảo Ổn định: Tạo Video Đa Góc Nhìn với Điều Khiển Camera 3D — Stability AI
Tóm tắt chính
- Giới thiệu Camera Ảo Ổn định, hiện đang ở bản xem trước nghiên cứu. Mô hình khuếch tán đa góc nhìn này biến đổi hình ảnh 2D thành video 3D sống động với độ sâu và phối cảnh chân thực—mà không cần tái tạo phức tạp hoặc tối ưu hóa theo cảnh cụ thể.
- Mô hình tạo video 3D từ một hình ảnh đầu vào duy nhất hoặc tối đa 32 hình ảnh, theo quỹ đạo camera do người dùng xác định cũng như 14 đường dẫn camera động khác, bao gồm 360°, Lemniscate, Xoắn ốc, Dolly Zoom, Di chuyển, Quét và Lăn.
- Camera Ảo Ổn định có sẵn để sử dụng cho mục đích nghiên cứu theo Giấy phép phi thương mại. Bạn có thể đọc bài báo tại đây, tải xuống trọng số trên Hugging Face và truy cập mã trên GitHub.
Hôm nay, chúng tôi phát hành Camera Ảo Ổn định, hiện đang ở bản xem trước nghiên cứu. Mô hình khuếch tán đa góc nhìn này biến đổi hình ảnh 2D thành video 3D sống động với độ sâu và phối cảnh chân thực—mà không cần tái tạo phức tạp hoặc tối ưu hóa theo cảnh cụ thể. Chúng tôi mời cộng đồng nghiên cứu khám phá các khả năng của nó và đóng góp vào sự phát triển của nó.
Camera ảo là một công cụ kỹ thuật số được sử dụng trong làm phim và hoạt hình 3D để chụp và điều hướng các cảnh kỹ thuật số trong thời gian thực. Camera Ảo Ổn định xây dựng dựa trên khái niệm này, kết hợp khả năng điều khiển quen thuộc của các camera ảo truyền thống với sức mạnh của AI tạo sinh để cung cấp khả năng điều khiển chính xác, trực quan đối với đầu ra video 3D.
Không giống như các mô hình video 3D truyền thống dựa trên bộ hình ảnh đầu vào lớn hoặc tiền xử lý phức tạp, Camera Ảo Ổn định tạo ra các chế độ xem mới của một cảnh từ một hoặc nhiều hình ảnh đầu vào ở các góc camera do người dùng chỉ định. Mô hình tạo ra đầu ra video 3D nhất quán và mượt mà, mang lại video quỹ đạo liền mạch trên các đường dẫn camera động.
Mô hình này có sẵn để sử dụng cho mục đích nghiên cứu theo Giấy phép phi thương mại. Bạn có thể đọc bài báo tại đây, tải xuống trọng số trên Hugging Face và truy cập mã trên GitHub.
Các khả năng
Camera Ảo Ổn định cung cấp các khả năng nâng cao để tạo video 3D, bao gồm:
- Điều khiển camera động: Hỗ trợ quỹ đạo camera do người dùng xác định cũng như nhiều đường dẫn camera động, bao gồm: 360°, Lemniscate (đường dẫn hình ∞), Xoắn ốc, Dolly Zoom In, Dolly Zoom Out, Zoom In, Zoom Out, Di chuyển về phía trước, Di chuyển về phía sau, Quét lên, Quét xuống, Quét trái, Quét phải và Lăn.
- Đầu vào linh hoạt: Tạo video 3D chỉ từ một hình ảnh đầu vào hoặc tối đa 32 hình ảnh.
- Nhiều tỷ lệ khung hình: Có khả năng tạo video ở tỷ lệ khung hình vuông (1:1), dọc (9:16), ngang (16:9) và các tỷ lệ khung hình tùy chỉnh khác mà không cần đào tạo thêm.
- Tạo video dài: Đảm bảo tính nhất quán 3D trong video lên đến 1.000 khung hình, cho phép tạo vòng lặp liền mạch và chuyển tiếp mượt mà, ngay cả khi xem lại cùng một điểm xem.
Nghiên cứu & kiến trúc mô hình
Camera Ảo Ổn định đạt được kết quả hiện đại trong các tiêu chuẩn tổng hợp chế độ xem mới (NVS), vượt trội so với các mô hình như ViewCrafter và CAT3D. Nó vượt trội trong cả NVS góc nhìn lớn, nhấn mạnh khả năng tạo và NVS góc nhìn nhỏ, ưu tiên độ mượt mà theo thời gian.
Camera Ảo Ổn định được đào tạo với độ dài chuỗi cố định như một mô hình khuếch tán đa góc nhìn, lấy một số lượng chế độ xem đầu vào và mục tiêu nhất định (M-in, N-out).
Camera Ảo Ổn định được đào tạo như một mô hình khuếch tán đa góc nhìn với độ dài chuỗi cố định, sử dụng một số lượng chế độ xem đầu vào và mục tiêu nhất định (M-in, N-out). Trong quá trình lấy mẫu, nó hoạt động như một trình kết xuất tạo sinh linh hoạt, đáp ứng độ dài đầu vào và đầu ra thay đổi (P-in, Q-out). Điều này đạt được thông qua quy trình lấy mẫu thủ tục hai lần—trước tiên tạo các chế độ xem neo, sau đó kết xuất các chế độ xem mục tiêu theo các khối để đảm bảo kết quả mượt mà và nhất quán.
Để tìm hiểu sâu hơn về kiến trúc và hiệu suất của mô hình, bạn có thể đọc toàn bộ bài báo nghiên cứu tại đây.
Hạn chế của mô hình
Trong phiên bản ban đầu của nó, Camera Ảo Ổn định có thể tạo ra kết quả chất lượng thấp hơn trong một số trường hợp nhất định. Hình ảnh đầu vào có người, động vật hoặc kết cấu động như nước thường dẫn đến đầu ra bị suy giảm. Ngoài ra, các cảnh có tính mơ hồ cao, đường dẫn camera phức tạp giao nhau với các đối tượng hoặc bề mặt và các đối tượng có hình dạng không đều có thể gây ra các tạo tác nhấp nháy, đặc biệt khi các điểm xem mục tiêu khác biệt đáng kể so với hình ảnh đầu vào.
Bắt đầu
Camera Ảo Ổn định được sử dụng miễn phí cho mục đích nghiên cứu theo Giấy phép phi thương mại. Bạn có thể đọc bài báo và tải xuống trọng số trên Hugging Face và mã trên GitHub.
Để cập nhật tiến trình của chúng tôi, hãy theo dõi chúng tôi trên X, LinkedIn , Instagram và tham gia Cộng đồng Discord của chúng tôi.
Link bài viết gốc
- Tags:
- Ai
- 18/03/2025
- Stability.ai