Giới thiệu Waypoint-1- Video khuếch tán tương tác thời gian thực từ Overworld

February 2, 2026
5 min read

Giới thiệu Waypoint-1: Khuếch tán video tương tác thời gian thực từ Overworld

Chúng tôi đang trên hành trình thúc đẩy và dân chủ hóa trí tuệ nhân tạo thông qua mã nguồn mở và khoa học mở.

Waypoint-1 Weights trên Hub

Waypoint-1-Small
Waypoint-1-Medium (Sắp ra mắt!)

Trải nghiệm Mô hình

Overworld Stream: https://overworld.stream

Waypoint-1 là gì?

Waypoint-1 là mô hình khuếch tán video tương tác thời gian thực của Overworld, có thể điều khiển và tạo lời nhắc qua văn bản, chuột và bàn phím. Bạn có thể cung cấp cho mô hình một vài khung hình, chạy mô hình và để nó tạo ra một thế giới mà bạn có thể bước vào và tương tác.

Nền tảng của mô hình là một bộ biến đổi luồng đã được điều chỉnh nhân quả, được huấn luyện trên 10.000 giờ cảnh quay trò chơi điện tử đa dạng cùng với các đầu vào điều khiển và mô tả văn bản. Waypoint-1 là một mô hình tiềm ẩn, có nghĩa là nó được huấn luyện trên các khung hình nén.

Tiêu chuẩn trong các mô hình thế giới hiện tại là lấy các mô hình video đã được huấn luyện trước và tinh chỉnh chúng với các đầu vào điều khiển ngắn gọn và đơn giản hóa. Ngược lại, Waypoint-1 được huấn luyện ngay từ đầu với trọng tâm vào trải nghiệm tương tác. Với các mô hình khác, điều khiển rất đơn giản: bạn có thể di chuyển và xoay camera vài khung hình một lần, với các vấn đề về độ trễ nghiêm trọng. Với Waypoint-1, bạn không bị giới hạn về điều khiển. Bạn có thể di chuyển camera tự do bằng chuột và nhập bất kỳ phím nào trên bàn phím, tất cả đều không có độ trễ. Mỗi khung hình được tạo ra với ngữ cảnh điều khiển của bạn. Ngoài ra, mô hình chạy đủ nhanh để mang lại trải nghiệm liền mạch ngay cả trên phần cứng tiêu dùng.

Nó đã được huấn luyện như thế nào?

Waypoint-1 được huấn luyện trước thông qua cưỡng chế khuếch tán, một kỹ thuật mà mô hình học cách khử nhiễu các khung hình trong tương lai dựa trên các khung hình trước đó. Mặt nạ chú ý nhân quả được áp dụng để một token trong bất kỳ khung hình nào chỉ có thể chú ý đến các token trong khung hình của chính nó hoặc các khung hình trước đó, nhưng không phải các khung hình tương lai. Mỗi khung hình được làm nhiễu ngẫu nhiên, và do đó mô hình học cách khử nhiễu từng khung hình một cách riêng biệt. Trong quá trình suy luận, bạn có thể khử nhiễu các khung hình mới lần lượt, cho phép bạn tạo ra một luồng khung hình mới theo thủ tục.

Mặc dù cưỡng chế khuếch tán là một đường cơ sở mạnh mẽ, việc làm nhiễu ngẫu nhiên tất cả các khung hình không phù hợp với việc triển khai tự hồi quy từng khung hình. Sự không khớp trong quá trình suy luận này dẫn đến tích lũy lỗi và làm nhiễu các lần triển khai dài. Để giải quyết vấn đề này, chúng tôi đã hậu huấn luyện bằng cách tự cưỡng chế, một kỹ thuật đào tạo mô hình để tạo ra kết quả thực tế theo một chế độ phù hợp với hành vi suy luận. Việc tự cưỡng chế thông qua DMD có lợi ích bổ sung là CFG một lần và khử nhiễu nhiều bước.

Thư viện Suy luận: WorldEngine

WorldEngine là thư viện suy luận hiệu suất cao của Overworld cho việc truyền phát mô hình thế giới tương tác. Nó cung cấp các công cụ cốt lõi để xây dựng các ứng dụng suy luận bằng Python thuần túy, được tối ưu hóa cho độ trễ thấp, thông lượng cao, khả năng mở rộng và sự đơn giản cho nhà phát triển. Vòng lặp thời gian chạy được thiết kế cho khả năng tương tác: nó tiêu thụ hình ảnh khung ngữ cảnh, đầu vào bàn phím/chuột và văn bản, đồng thời xuất ra các khung hình ảnh để truyền phát thời gian thực.

Trên Waypoint-1-Small (2,3B) chạy trên 5090, WorldEngine duy trì ~30.000 token-pass/giây (một lần khử nhiễu; 256 token mỗi khung hình) và đạt 30 FPS với 4 bước hoặc 60 FPS với 2 bước.

Hiệu suất đến từ bốn tối ưu hóa có mục tiêu:

Bộ nhớ đệm đặc trưng AdaLN: Tránh các phép chiếu điều kiện AdaLN lặp lại thông qua bộ nhớ đệm và tái sử dụng miễn là điều kiện lời nhắc và các bước thời gian không thay đổi giữa các lần truyền xuôi.
Bộ nhớ đệm KV cuộn tĩnh + Flex Attention
Hợp nhất Matmul: Tối ưu hóa suy luận tiêu chuẩn bằng cách sử dụng các phép chiếu QKV được hợp nhất.
Torch Compile sử dụng torch.compile(fullgraph=True, mode="max-autotune", dynamic=False).

python from world_engine import WorldEngine, CtrlInput

Tạo công cụ suy luận

engine = WorldEngine(“Overworld/Waypoint-1-Small”, device=“cuda”)

Chỉ định một lời nhắc

engine.set_prompt(“A game where you herd goats in a beautiful valley”)

Tùy chọn: Ép buộc khung hình tiếp theo là một hình ảnh cụ thể

img = pipeline.append_frame(uint8_img) # (H, W, 3)

Tạo 3 khung video được điều kiện hóa bởi đầu vào điều khiển

for controller_input in [ CtrlInput(button={48, 42}, mouse=[0.4, 0.3]), CtrlInput(mouse=[0.1, 0.2]), CtrlInput(button={95, 32, 105}), ]: img = engine.gen_frame(ctrl=controller_input)

Xây dựng với World Engine

Chúng tôi đang tổ chức một cuộc thi hackathon world_engine vào ngày 20/01/2026 - Bạn có thể RSVP ở đây. Các đội từ 2-4 người được chào đón và giải thưởng là GPU 5090 ngay tại chỗ. Chúng tôi mong muốn được xem những gì bạn có thể làm để mở rộng world_engine và đó sẽ là một sự kiện tuyệt vời để gặp gỡ các người sáng lập, kỹ sư, hacker và nhà đầu tư có cùng chí hướng. Chúng tôi hy vọng bạn có thể tham gia cùng chúng tôi lúc 10 giờ sáng PST vào ngày 20 tháng 1 để cạnh tranh thân thiện trong 8 giờ!

AI Today - SkyAI