D4RT- Dạy AI nhìn thế giới theo bốn chiều

D4RT là một hệ thống mới giúp AI hiểu rõ hơn về thế giới động, nơi mọi thứ thay đổi theo thời gian. Nó cho phép AI dự đoán và tương tác với các vật thể chuyển động, giống như cách chúng ta nhìn nhận thế giới thực.

  • 7 min read
D4RT- Dạy AI nhìn thế giới theo bốn chiều
D4RT là một hệ thống mới giúp AI hiểu rõ hơn về thế giới động, nơi mọi thứ thay đổi theo thời gian. Nó cho phép AI dự đoán và tương tác với các vật thể chuyển động, giống như cách chúng ta nhìn nhận thế giới thực.

D4RT: Dạy AI nhìn thế giới theo bốn chiều

22 tháng 1 năm 2026

Guillaume Le Moing và Mehdi S. M. Sajjadi

Giới thiệu D4RT, một mô hình AI thống nhất cho phép tái tạo và theo dõi các cảnh 4D trong không gian và thời gian.

Mỗi khi chúng ta nhìn thế giới, chúng ta thực hiện một kỳ tích đáng kinh ngạc về trí nhớ và dự đoán. Chúng ta nhìn và hiểu mọi thứ như chúng đang tồn tại tại một thời điểm nhất định, như chúng đã tồn tại một khoảnh khắc trước, và chúng sẽ như thế nào trong khoảnh khắc tiếp theo. Mô hình tinh thần của chúng ta về thế giới duy trì một biểu diễn bền vững về thực tế và chúng ta sử dụng mô hình đó để rút ra những kết luận trực quan về mối quan hệ nhân quả giữa quá khứ, hiện tại và tương lai.

Để giúp máy móc nhìn thế giới giống chúng ta hơn, chúng ta có thể trang bị cho chúng máy ảnh, nhưng điều đó chỉ giải quyết vấn đề đầu vào. Để hiểu được đầu vào này, máy tính phải giải quyết một bài toán nghịch đảo phức tạp: lấy một video - là một chuỗi các phép chiếu 2D phẳng - và khôi phục hoặc hiểu thế giới 3D phong phú, theo khối và chuyển động. Theo truyền thống, việc nắm bắt mức độ hình học và chuyển động này từ video 2D đòi hỏi các quy trình chuyên sâu về tính toán hoặc một loạt các mô hình AI chuyên dụng - một số cho chiều sâu, những mô hình khác cho chuyển động hoặc góc camera - dẫn đến các bản tái tạo AI chậm và rời rạc.

Hôm nay, chúng tôi xin giới thiệu D4RT (Dynamic 4D Reconstruction and Tracking), một mô hình AI mới thống nhất việc tái tạo cảnh động thành một khung làm việc duy nhất, hiệu quả, đưa chúng ta đến gần hơn với biên giới tiếp theo của trí tuệ nhân tạo: nhận thức toàn diện về thực tế động của chúng ta.

Thách thức của Chiều thứ tư

Để có thể hiểu một cảnh động được ghi lại trên video 2D, một mô hình AI phải theo dõi mọi pixel của mọi đối tượng khi nó di chuyển qua ba chiều không gian và chiều thứ tư là thời gian. Ngoài ra, nó phải tách biệt chuyển động này khỏi chuyển động của máy ảnh, duy trì một biểu diễn mạch lạc ngay cả khi các đối tượng di chuyển ra phía sau nhau hoặc rời khỏi khung hình. Theo truyền thống, việc nắm bắt mức độ hình học và chuyển động này từ video 2D đòi hỏi các quy trình chuyên sâu về tính toán hoặc một loạt các mô hình AI chuyên dụng - một số cho chiều sâu, những mô hình khác cho chuyển động hoặc góc camera - dẫn đến các bản tái tạo AI chậm và rời rạc.

Kiến trúc đơn giản hóa và cơ chế truy vấn mới của D4RT đặt nó ở vị trí đi đầu trong việc tái tạo 4D, đồng thời hiệu quả hơn tới 300 lần so với các phương pháp trước đây - đủ nhanh cho các ứng dụng thời gian thực trong robot học, thực tế tăng cường, và hơn thế nữa.

D4RT hoạt động như thế nào: Một phương pháp dựa trên truy vấn

D4RT hoạt động như một kiến trúc Transformer mã hóa-giải mã thống nhất. Bộ mã hóa đầu tiên xử lý video đầu vào thành một biểu diễn nén của hình học và chuyển động của cảnh. Không giống như các hệ thống cũ sử dụng các mô-đun riêng biệt cho các tác vụ khác nhau, D4RT chỉ tính toán những gì nó cần bằng cách sử dụng cơ chế truy vấn linh hoạt tập trung vào một câu hỏi cơ bản duy nhất:

Một pixel cho trước từ video này nằm ở đâu trong không gian 3D tại một thời điểm tùy ý, như được nhìn từ một camera đã chọn?”

Dựa trên công việc trước đây của chúng tôi, bộ giải mã nhẹ nhàng sẽ truy vấn biểu diễn này để trả lời các trường hợp cụ thể của câu hỏi đã đặt ra. Vì các truy vấn độc lập, chúng có thể được xử lý song song trên phần cứng AI hiện đại. Điều này làm cho D4RT cực kỳ nhanh và có khả năng mở rộng, bất kể nó đang theo dõi chỉ một vài điểm hay tái tạo toàn bộ cảnh.

Khả năng: Hiểu 4D nhanh chóng, chính xác

Với công thức linh hoạt này, nhiều tác vụ 4D khác nhau giờ đây có thể được giải quyết bởi mô hình, bao gồm:

  • Theo dõi điểm: Bằng cách truy vấn vị trí của một pixel qua các bước thời gian khác nhau, D4RT có thể dự đoán quỹ đạo 3D của nó. Quan trọng là, một đối tượng không cần phải hiển thị trong các khung hình khác của video để mô hình đưa ra dự đoán.
  • Tái tạo đám mây điểm: Bằng cách đóng băng thời gian và góc nhìn camera, D4RT có thể trực tiếp tạo ra cấu trúc 3D hoàn chỉnh của một cảnh, loại bỏ các bước bổ sung như ước tính camera riêng biệt hoặc tối ưu hóa lặp lại trên mỗi video.
  • Ước tính tư thế camera: Bằng cách tạo và căn chỉnh các ảnh chụp 3D của một khoảnh khắc từ các góc nhìn khác nhau, D4RT có thể dễ dàng khôi phục quỹ đạo của camera.

Trong các đánh giá trên bộ dữ liệu MPI Sintel với các cảnh tổng hợp phức tạp có hiện tượng mờ chuyển động nhanh và biến dạng không cứng nhắc, D4RT cho thấy tính trung thực vượt trội so với các phương pháp cơ bản gần đây. Điều này nhấn mạnh khả năng của mô hình trong việc tái tạo hình học một cách chính xác ngay cả khi các đối tượng hoặc máy ảnh di chuyển nhanh chóng trong cảnh.

Quan trọng là, độ chính xác của D4RT không phải trả giá bằng hiệu quả. Trong thử nghiệm, nó hoạt động nhanh hơn từ 18 đến 300 lần so với các phương pháp tiên tiến trước đây. Ví dụ, D4RT xử lý một video kéo dài một phút chỉ trong khoảng năm giây trên một chip TPU duy nhất. Các phương pháp tiên tiến trước đây có thể mất tới mười phút cho cùng một tác vụ - một cải tiến 120 lần.

Ứng dụng hạ nguồn

D4RT chứng minh rằng chúng ta không cần phải lựa chọn giữa độ chính xác và hiệu quả trong việc tái tạo 4D. Hệ thống dựa trên truy vấn linh hoạt của nó có thể nắm bắt thế giới động của chúng ta trong thời gian thực, mở đường cho thế hệ tiếp theo của máy tính không gian. Điều này bao gồm:

  • Robot học: Robot cần điều hướng trong môi trường động có người và vật thể chuyển động. D4RT có thể cung cấp nhận thức không gian cần thiết cho việc điều hướng an toàn và thao tác khéo léo.
  • Thực tế tăng cường (AR): Để kính AR có thể phủ các đối tượng kỹ thuật số lên thế giới thực, chúng cần có hiểu biết tức thời, độ trễ thấp về hình học của cảnh. Hiệu quả của D4RT góp phần biến việc triển khai trên thiết bị thành hiện thực hữu hình.
  • Mô hình thế giới: Bằng cách tách biệt hiệu quả chuyển động của máy ảnh, chuyển động của đối tượng và hình học tĩnh, D4RT đưa chúng ta đến gần hơn một bước với AI sở hữu “mô hình thế giới” thực về thực tế vật lý - một bước cần thiết trên con đường dẫn đến AGI.

Chúng tôi đang tiếp tục khám phá khả năng của mô hình và tiềm năng ứng dụng trong lĩnh vực robot học, thực tế tăng cường và hơn thế nữa.

Đọc báo cáo kỹ thuật của chúng tôi

Truy cập trang web dự án của chúng tôi


Bài viết liên quan

Recommended for You

Veo 3.1 Ingredients to Video- Tính nhất quán, sáng tạo và kiểm soát hơn

Veo 3.1 Ingredients to Video- Tính nhất quán, sáng tạo và kiểm soát hơn

Veo 3.1 là phiên bản mới nhất của mô hình tạo video của Google, mang đến khả năng kiểm soát chi tiết hơn, sáng tạo đa dạng hơn và tính nhất quán cao hơn trong các video được tạo ra.

Gemma Scope 2- giúp cộng đồng an toàn AI hiểu sâu hơn về hành vi phức tạp của mô hình ngôn ngữ

Gemma Scope 2- giúp cộng đồng an toàn AI hiểu sâu hơn về hành vi phức tạp của mô hình ngôn ngữ

Trách nhiệm & An toàn