Các nhà sáng lập OpenCV ra mắt startup video AI để cạnh tranh với OpenAI và Google

Một startup trí tuệ nhân tạo mới do những người tạo ra thư viện thị giác máy tính được sử dụng rộng rãi nhất thế giới thành lập đã nổi lên khỏi trạng thái ẩn với công nghệ tạo ra các video lấy con người làm trung tâm, chân thực dài tới năm phút — một bước nhảy vọt so với khả năng của các đối thủ cạnh tranh bao gồm cả Sora của OpenAI và Veo của Google.

  • 11 min read
Các nhà sáng lập OpenCV ra mắt startup video AI để cạnh tranh với OpenAI và Google
Một startup trí tuệ nhân tạo mới do những người tạo ra thư viện thị giác máy tính được sử dụng rộng rãi nhất thế giới thành lập đã nổi lên khỏi trạng thái ẩn với công nghệ tạo ra các video lấy con người làm trung tâm, chân thực dài tới năm phút — một bước nhảy vọt so với khả năng của các đối thủ cạnh tranh bao gồm cả Sora của OpenAI và Veo của Google.

Sáng lập OpenCV ra mắt startup AI video, thách thức OpenAI và Google

CraftStory, công ty được thành lập bởi những người tiên phong của OpenCV, vừa giới thiệu mô hình AI video đột phá, có khả năng tạo ra các video có thời lượng lên đến 5 phút, tập trung vào con người, vượt trội hơn cả Sora của OpenAI và Veo của Google.

Một startup trí tuệ nhân tạo mới được thành lập bởi những người tạo ra OpenCV - thư viện thị giác máy tính được sử dụng rộng rãi nhất thế giới - vừa chính thức ra mắt với công nghệ có khả năng tạo ra các video chân thực, tập trung vào con người với thời lượng lên đến 5 phút. Đây là một bước tiến vượt bậc so với các đối thủ cạnh tranh như Sora của OpenAI và Veo của Google.

CraftStory, ra mắt hôm thứ Ba với nguồn vốn 2 triệu đô la, giới thiệu Model 2.0, một hệ thống tạo video giải quyết một trong những hạn chế lớn nhất trong ngành công nghiệp video AI non trẻ: thời lượng. Trong khi Sora 2 của OpenAI chỉ có thể tạo ra các đoạn phim dài tối đa 25 giây và hầu hết các mô hình cạnh tranh khác tạo ra các clip chỉ dưới 10 giây, thì hệ thống của CraftStory có thể tạo ra các đoạn phim liên tục, mạch lạc kéo dài tới 5 phút – tương đương với thời lượng của một video hướng dẫn hoặc giới thiệu sản phẩm điển hình trên YouTube.

Thành tựu này có thể mở ra giá trị thương mại đáng kể cho các doanh nghiệp đang gặp khó khăn trong việc mở rộng quy mô sản xuất video cho đào tạo, marketing và giáo dục khách hàng – những thị trường mà các đoạn phim ngắn do AI tạo ra, dù có độ bóng bẩy về mặt hình ảnh, vẫn chưa đủ đáp ứng.

“Nếu bạn thực sự cố gắng tạo một video bằng một trong những hệ thống tạo video này, bạn sẽ nhận thấy rằng nhiều lần bạn muốn thực hiện một tầm nhìn sáng tạo cụ thể, và bất kể hướng dẫn chi tiết đến đâu, các hệ thống về cơ bản sẽ bỏ qua một phần hướng dẫn của bạn,” Victor Erukhimov, người sáng lập và CEO của CraftStory, cho biết trong một cuộc phỏng vấn độc quyền với VentureBeat. “Chúng tôi đã phát triển một hệ thống có thể tạo ra các video có độ dài tùy ý mà bạn cần.”

Cách xử lý song song giải quyết vấn đề video dài

Tiến bộ của CraftStory dựa trên cái mà công ty mô tả là kiến trúc khuếch tán song song – một cách tiếp cận cơ bản khác biệt so với cách các mô hình AI tạo video so với các phương pháp tuần tự mà hầu hết các đối thủ cạnh tranh sử dụng.

Các mô hình tạo video truyền thống hoạt động bằng cách chạy các thuật toán khuếch tán trên các khối lượng ba chiều ngày càng lớn, trong đó thời gian đại diện cho trục thứ ba. Để tạo ra một video dài hơn, các mô hình này yêu cầu mạng lưới lớn hơn tương ứng, nhiều dữ liệu huấn luyện hơn và tài nguyên tính toán nhiều hơn đáng kể.

Thay vào đó, CraftStory chạy nhiều thuật toán khuếch tán nhỏ hơn đồng thời trên toàn bộ thời lượng của video, với các ràng buộc hai chiều kết nối chúng. “Phần cuối của video cũng có thể ảnh hưởng đến phần đầu của video,” Erukhimov giải thích. “Và điều này rất quan trọng, bởi vì nếu bạn làm từng cái một, thì một lỗi xuất hiện ở phần đầu sẽ lan sang phần thứ hai, và sau đó nó sẽ tích lũy.”

Thay vì tạo ra 8 giây rồi ghép nối các phân đoạn bổ sung, hệ thống của CraftStory xử lý tất cả 5 phút cùng lúc thông qua các quy trình khuếch tán được kết nối.

Quan trọng nhất, CraftStory đã huấn luyện mô hình của mình trên các cảnh quay độc quyền thay vì chỉ dựa vào các video được lấy từ internet. Công ty đã thuê các studio để quay các diễn viên bằng hệ thống máy ảnh tốc độ khung hình cao, ghi lại chi tiết sắc nét ngay cả trong các yếu tố chuyển động nhanh như ngón tay – tránh được hiện tượng mờ chuyển động vốn có trong các clip YouTube tiêu chuẩn có tốc độ 30 khung hình/giây.

“Những gì chúng tôi đã chứng minh là bạn không cần nhiều dữ liệu và bạn không cần nhiều ngân sách huấn luyện để tạo ra các video chất lượng cao,” Erukhimov nói. “Bạn chỉ cần dữ liệu chất lượng cao.”

Model 2.0 hiện hoạt động như một hệ thống video-to-video: người dùng tải lên một ảnh tĩnh để hoạt ảnh hóa và một “video điều khiển” chứa một người mà AI sẽ sao chép chuyển động. CraftStory cung cấp các video điều khiển được thiết lập sẵn, được quay với các diễn viên chuyên nghiệp, những người nhận được chia sẻ doanh thu khi dữ liệu chuyển động của họ được sử dụng, hoặc người dùng có thể tải lên cảnh quay của riêng họ.

Hệ thống tạo ra các clip 30 giây ở độ phân giải thấp trong khoảng 15 phút. Một hệ thống đồng bộ hóa môi tiên tiến đồng bộ hóa chuyển động miệng với các tập lệnh hoặc theo dõi âm thanh, trong khi các thuật toán căn chỉnh cử chỉ đảm bảo ngôn ngữ cơ thể khớp với nhịp điệu lời nói và tông giọng cảm xúc.

Chiến đấu với ngân sách 2 triệu đô la chống lại hàng tỷ đô la

Nguồn vốn của CraftStory gần như hoàn toàn đến từ Andrew Filev, người đã bán công ty phần mềm quản lý dự án Wrike của mình cho Citrix với giá 2,25 tỷ đô la vào năm 2021 và hiện đang điều hành Zencoder, một công ty mã hóa AI. Khoản huy động vốn khiêm tốn này hoàn toàn trái ngược với hàng tỷ đô la đổ vào các nỗ lực cạnh tranh – riêng OpenAI đã huy động được hơn 6 tỷ đô la trong vòng gọi vốn mới nhất của mình.

Erukhimov phản bác quan điểm cho rằng nguồn vốn khổng lồ là điều kiện tiên quyết để thành công. “Tôi không nhất thiết tin vào luận điểm rằng sức mạnh tính toán là con đường dẫn đến thành công,” ông nói. “Chắc chắn sẽ hữu ích nếu bạn có sức mạnh tính toán. Nhưng nếu bạn huy động một tỷ đô la chỉ với một bài thuyết trình PowerPoint, cuối cùng, không ai hài lòng, cả người sáng lập lẫn nhà đầu tư.”

Filev bảo vệ cách tiếp cận David đấu với Goliath. “Khi bạn đầu tư vào các startup, về cơ bản bạn đang đặt cược vào con người,” ông nói trong một cuộc phỏng vấn với VentureBeat. “Nói theo cách diễn đạt của Margaret Mead: đừng bao giờ đánh giá thấp những gì một nhóm nhỏ các kỹ sư và nhà khoa học có tư duy, tận tâm có thể xây dựng.”

Ông cho rằng CraftStory được hưởng lợi từ một chiến lược tập trung. “Các phòng thí nghiệm lớn đang trong cuộc chạy đua vũ trang để xây dựng các mô hình nền tảng video đa năng,” Filev nói. “CraftStory đang tận dụng làn sóng đó và đi sâu vào một định dạng cụ thể: video dài, hấp dẫn, lấy con người làm trung tâm.”

Tại sao chuyên môn về thị giác máy tính lại quan trọng trong AI tạo sinh video

Uy tín của Erukhimov bắt nguồn từ nền tảng sâu sắc của ông về thị giác máy tính thay vì kiến trúc transformer đã chiếm ưu thế trong các tiến bộ AI gần đây. Ông là một trong những người đóng góp sớm nhất cho OpenCV — Thư viện Thị giác Máy tính Mã nguồn Mở đã trở thành tiêu chuẩn thực tế cho các ứng dụng thị giác máy tính, với hơn 84.000 sao trên GitHub.

Khi Intel giảm hỗ trợ cho OpenCV vào giữa những năm 2000, Erukhimov đồng sáng lập Itseez với mục tiêu rõ ràng là duy trì và phát triển thư viện. Công ty đã mở rộng OpenCV đáng kể và chuyển sang các hệ thống an toàn ô tô trước khi Intel mua lại vào năm 2016.

Filev cho biết nền tảng này chính là lý do tại sao Erukhimov có vị thế tốt cho việc tạo video. “Điều mọi người đôi khi bỏ lỡ là AI tạo sinh video không chỉ là về phần tạo sinh. Nó còn là về việc hiểu chuyển động, động lực học khuôn mặt, sự mạch lạc về thời gian và cách con người thực sự di chuyển,” Filev nói. “Victor đã dành cả sự nghiệp để làm chủ chính xác những vấn đề đó.”

Tập trung vào doanh nghiệp nhắm mục tiêu các video đào tạo và bản demo sản phẩm

Trong khi phần lớn sự hứng thú của công chúng đối với tạo video AI tập trung vào các công cụ sáng tạo cho người tiêu dùng, CraftStory lại theo đuổi một chiến lược tập trung rõ ràng vào doanh nghiệp.

“Chúng tôi chắc chắn đang nghĩ về B2B nhiều hơn là người tiêu dùng,” Erukhimov nói. “Chúng tôi đang nghĩ đến các công ty, đặc biệt là các công ty phần mềm, có thể tạo ra các video đào tạo, video sản phẩm và video ra mắt hấp dẫn.”

Logic rất đơn giản: đào tạo doanh nghiệp, hướng dẫn sản phẩm và video giáo dục khách hàng thường có thời lượng vài phút và yêu cầu chất lượng nhất quán trong suốt. Một clip AI 10 giây không thể hiển thị hiệu quả cách sử dụng phần mềm doanh nghiệp hoặc giải thích một tính năng sản phẩm phức tạp.

“Nếu bạn cần một video dài hơn, bạn nên chọn chúng tôi,” Erukhimov nói. “Chúng tôi có thể tạo ra video nhất quán, chất lượng cao với thời lượng lên đến 5 phút.”

Filev đồng tình với đánh giá này. “Một khoảng trống lớn trên thị trường này là sự thiếu hụt các mô hình có thể tạo ra các video nhất quán trong các chuỗi dài hơn – và điều đó cực kỳ quan trọng đối với việc sử dụng trong thế giới thực,” ông nói. “Nếu bạn đang tạo một quảng cáo cho công ty của mình, một video 10 giây, dù trông có hay đến đâu, cũng không đủ. Bạn cần 30 giây, bạn cần hai phút – bạn cần nhiều hơn.”

Công ty dự đoán sẽ tiết kiệm chi phí cho khách hàng. Filev gợi ý rằng “một chủ doanh nghiệp nhỏ có thể tạo ra nội dung trong vài phút mà trước đây sẽ tốn 20.000 đô la và mất hai tháng để sản xuất.”

CraftStory cũng đang thu hút các công ty sáng tạo chuyên sản xuất nội dung video cho khách hàng doanh nghiệp, với giá trị đề xuất tập trung vào chi phí và tốc độ: các công ty có thể quay diễn viên trên máy quay và biến cảnh quay đó thành video AI hoàn chỉnh, thay vì quản lý các buổi quay phim đắt đỏ kéo dài nhiều ngày.

Phát triển lớn tiếp theo trong lộ trình của CraftStory là một mô hình text-to-video, cho phép người dùng tạo nội dung dài trực tiếp từ kịch bản. Nhóm cũng đang phát triển hỗ trợ cho các kịch bản camera chuyển động, bao gồm cả định dạng “walk-and-talk” phổ biến trong quảng cáo cao cấp.

Vị trí của CraftStory trong bối cảnh cạnh tranh phân mảnh

CraftStory gia nhập một thị trường đông đúc và phát triển nhanh chóng. Sora 2 của OpenAI, mặc dù chưa được công khai, đã tạo ra tiếng vang đáng kể. Các mô hình Veo của Google đang tiến triển nhanh chóng. Runway, Pika và Stability AI đều cung cấp các công cụ tạo video với các khả năng khác nhau.

Erukhimov thừa nhận áp lực cạnh tranh nhưng nhấn mạnh rằng CraftStory phục vụ một phân khúc riêng biệt tập trung vào các video lấy con người làm trung tâm. Ông định vị sự đổi mới nhanh chóng và chiếm lĩnh thị trường là chiến lược chính của công ty thay vì dựa vào các lợi thế kỹ thuật.

Filev nhìn thấy thị trường phân mảnh thành các lớp riêng biệt, với các công ty lớn đóng vai trò là “nhà cung cấp API các mô hình tạo sinh đa năng, mạnh mẽ” trong khi các công ty chuyên biệt như CraftStory tập trung vào các trường hợp sử dụng cụ thể. “Nếu những người chơi lớn đang xây dựng động cơ, thì CraftStory đang xây dựng studio sản xuất và dây chuyền lắp ráp phía trên,” ông nói.

Model 2.0 hiện có sẵn tại app.craftstory.com/model-2.0, với công ty cung cấp quyền truy cập sớm cho người dùng và doanh nghiệp quan tâm đến việc thử nghiệm công nghệ. Liệu một startup có nguồn vốn hạn chế có thể chiếm lĩnh thị phần có ý nghĩa trước các đối thủ kỳ cựu có tiềm lực tài chính lớn hay không vẫn còn chưa chắc chắn, nhưng Erukhimov tự tin một cách đặc trưng về cơ hội phía trước.

“Video do AI tạo ra sẽ sớm trở thành phương thức chính mà các công ty truyền tải câu chuyện của họ,” ông nói.

Recommended for You

VentureBeat ra mắt 'Beyond the Pilot' — một loạt podcast mới khám phá cách AI doanh nghiệp trở nên thực tế

VentureBeat ra mắt 'Beyond the Pilot' — một loạt podcast mới khám phá cách AI doanh nghiệp trở nên thực tế

Ra mắt ngày 19 tháng 11

Công ty khởi nghiệp thuế AI Blue J đã hủy bỏ toàn bộ mô hình kinh doanh của mình để lấy ChatGPT — và trở thành một công ty trị giá 300 triệu đô la

Công ty khởi nghiệp thuế AI Blue J đã hủy bỏ toàn bộ mô hình kinh doanh của mình để lấy ChatGPT — và trở thành một công ty trị giá 300 triệu đô la

Vào mùa đông năm 2022, khi thế giới công nghệ bị cuốn hút bởi sự xuất hiện đột ngột và bùng nổ của ChatGPT của OpenAI, Benjamin Alarie đã đối mặt với một lựa chọn bước ngoặt. Công ty khởi nghiệp công nghệ pháp lý của ông, Blue J, đã có một hoạt động kinh doanh đáng nể được xây dựng dựa trên AI của thời đại đã qua, phục vụ hàng trăm công ty kế toán với các mô hình dự đoán. Nhưng nó đã chạm trần.