TimeScope- Mô hình đa phương thức lớn cho video của bạn có thể đi được bao lâu?
Tìm hiểu về TimeScope, một chuẩn đánh giá mới để đánh giá khả năng của các mô hình đa phương thức lớn trong việc hiểu và lý luận về video dài.
- 10 min read
TimeScope: Mô hình Đa phương thức Lớn về Video của Bạn Có Thể Đi Được Bao Xa?
TimeScope: Mô hình Đa phương thức Lớn về Video của Bạn Có Thể Đi Được Bao Xa?
Được xuất bản ngày 23 tháng 7 năm 2025
Tóm tắt
TimeScope là một chuẩn mở được thiết kế để đo lường mức độ hiểu video dài của các mô hình ngôn ngữ thị giác. Bằng cách thêm các clip “kim” ngắn vào các video có độ dài từ 1 phút đến 8 giờ, nó đánh giá ba kỹ năng:
- Tìm kiếm có định vị
- Tổng hợp thông tin
- Nhận thức tạm thời chi tiết
TimeScope tiết lộ rằng nhiều mô hình hiện đại vẫn đang vật lộn với sự hiểu biết tạm thời thực sự.
Mục lục
Những tiến bộ gần đây trong AI đa phương thức đã tạo ra các mô hình tuyên bố hiểu được các video dài hàng giờ. Xu hướng này phản ánh sự tiến bộ trong các mô hình ngôn ngữ dài, vượt trội trong việc lý luận dựa trên văn bản dài. Tiếp theo đó, các hệ thống ngôn ngữ thị giác hiện quảng cáo các cửa sổ ngữ cảnh có thể xử lý hàng nghìn khung hình. Nhưng những tuyên bố này đòi hỏi phải xem xét kỹ hơn: liệu các mô hình này có thực sự chứng minh sự hiểu biết về chuỗi các sự kiện hay không? Chúng có bị giới hạn ở việc tìm kiếm/nhận dạng cấp độ bề mặt không? Điều quan trọng là phải hỏi liệu khả năng của chúng có đang bị phóng đại hay không.
Các chuẩn văn bản như HELM và RULER đã vạch trần sự mong manh của các tuyên bố về ngữ cảnh dài, cho thấy rằng các mô hình thường gặp khó khăn khi các nhiệm vụ đòi hỏi nhiều hơn là tìm kiếm đơn giản, như lý luận hoặc tổng hợp ở độ dài ngữ cảnh dài. Tuy nhiên, trong lĩnh vực video, chúng ta vẫn đang bắt kịp. Thử nghiệm phổ biến nhất, Video Needle in a Haystack (VideoNIAH), chèn các hình ảnh tĩnh làm “kim” vào video, đo lường hiệu quả việc tìm kiếm trực quan hơn là động lực tạm thời thực sự. Do đó, ngay cả các mô hình hàng đầu quảng cáo dung lượng khung hình lớn hiếm khi được đào tạo vượt quá ~256 khung hình và chứng kiến sự sụt giảm mạnh trên các chuẩn như Video-MME khi bị đẩy xa hơn.
Khoảng cách đo lường này khiến chúng ta tự hỏi: “Hiểu” video dài thực sự có nghĩa là gì đối với một mô hình? Để giải quyết vấn đề này, chúng tôi rất vui mừng giới thiệu TimeScope, một chuẩn mã nguồn mở mới được lưu trữ trên Hugging Face. TimeScope thăm dò giới hạn của khả năng video dài bằng cách chèn một số đoạn video clip ngắn (~5-10 giây) - “kim” của chúng tôi - vào các video gốc có độ dài từ 1 phút đến 8 giờ. Với ba loại nhiệm vụ riêng biệt, nó đánh giá không chỉ khả năng tìm kiếm mà còn cả khả năng tổng hợp, định vị và phân tích chuyển động chi tiết, cung cấp một cái nhìn toàn diện hơn về sự hiểu biết tạm thời.
Tại sao TimeScope? Thúc đẩy một Benchmark Tốt hơn cho Video
Lời hứa của AI video dài là có tính chuyển đổi - cho phép các tác nhân tóm tắt hàng giờ cảnh quay, phát hiện các điểm bất thường tinh tế và trả lời các câu hỏi phức tạp về các tường thuật mở rộng. Được tích hợp vào robot, các mô hình này có thể phân tích các hoạt động kéo dài, thích ứng trong thời gian thực và thúc đẩy việc ra quyết định tự chủ. Cũng mạnh mẽ như vậy là tầm nhìn về một trợ lý cá nhân hiểu cuộc sống hàng ngày và đưa ra phản hồi liên tục, có thể hành động.
Trong thực tế, điều này dẫn đến những khả năng phóng đại. Các mô hình có thể tuyên bố xử lý hơn 10.000 khung hình, nhưng dữ liệu đào tạo thường giới hạn ở 256 khung hình trên mỗi clip, dẫn đến hiệu suất giảm trên các đầu vào dài hơn. Chúng ta đã thấy điều này trong các đánh giá, nơi việc tăng tốc độ lấy mẫu khung hình làm giảm độ chính xác đối với các tác vụ đòi hỏi cái nhìn sâu sắc về thời gian.
TimeScope lật lại kịch bản bằng cách nhấn mạnh ba trụ cột của sự hiểu biết video dài:
- Tìm kiếm có định vị: Mô hình có thể phát hiện và trả lời các câu hỏi về một đoạn ngắn cụ thể trong một video rộng lớn không?
- Tổng hợp thông tin: Nó có thể thu thập và sắp xếp các chi tiết từ nhiều điểm khác nhau trên dòng thời gian không?
- Nhận thức tạm thời chi tiết: Nó có thể phân tích chuyển động và các sự kiện trong kim đòi hỏi lấy mẫu dày đặc, đa khung hình không?
Thiết kế Benchmark
Ý tưởng chính của TimeScope là sử dụng các đoạn video ngắn làm “kim”, và thay vì chỉ phát hiện ra kim, nó thúc đẩy các mô hình hiểu sâu sắc toàn bộ video. Chúng tôi bắt đầu với một video gốc dài (ví dụ: phim tài liệu, bài giảng hoặc cảnh quay xung quanh) và chèn một hoặc nhiều kim video ngắn được tuyển chọn thủ công (mỗi kim dài 5-10 giây) ở các vị trí ngẫu nhiên. Các kim này chứa thông tin chính cần thiết để giải quyết nhiệm vụ, buộc các mô hình phải xử lý toàn bộ đầu vào mà không cần các phím tắt như lấy mẫu thưa thớt.

Hình 1: Tổng quan về quy trình chèn kim của TimeScope. Một video gốc dài (1 phút đến 8 giờ) đóng vai trò là đống cỏ khô, trong đó chúng ta ghép các kim video ngắn (~5-10 giây). Các tác vụ yêu cầu phát hiện, tổng hợp hoặc phân tích nội dung từ các kim này, được nhúng ở các độ sâu khác nhau.
Chúng tôi đánh giá trên ba loại kim, mỗi loại nhắm mục tiêu đến một khía cạnh khác nhau của sự hiểu biết video dài:
1. Tìm kiếm có định vị
Điều này kiểm tra khả năng tìm kiếm và hiểu cơ bản về một sự kiện được định vị. Các câu hỏi được đặt ra sao cho việc lấy mẫu một khung hình có liên quan từ kim sẽ là đủ - giống như hỏi về một phần ngắn hơn trong một video dài hơn.
Ví dụ:
Phương tiện di chuyển nào được hiển thị trong video?
2. Tổng hợp thông tin
Ở đây, chúng tôi nhúng nhiều kim dựa trên văn bản (ví dụ: 2-4 đoạn clip ngắn hiển thị “các từ bí mật” thông qua văn bản trên màn hình) ở các điểm khác nhau trong video. Mô hình phải xác định tất cả các từ và báo cáo chúng theo thứ tự thời gian, mô phỏng các tác vụ như trích xuất dấu thời gian hoặc các sự kiện chính từ các cảnh phân tán. Điều này đòi hỏi phải quét toàn bộ dòng thời gian và hiểu vị trí tương đối.
3. Nhận thức tạm thời chi tiết
Đối với các câu hỏi tập trung vào chuyển động hoặc các chuỗi trong một clip ngắn, việc lấy mẫu một khung hình sẽ không đủ - mô hình cần cảm nhận động lực trên các khung hình. Điều này thăm dò xem việc xử lý ngữ cảnh dài có bảo toàn độ trung thực tạm thời hay không.
Ví dụ:
Người đàn ông vung rìu của mình bao nhiêu lần? (a) một (b) hai (c) ba (d) bốn (e) năm (f) sáu
Với các độ dài video khác nhau và vị trí kim khác nhau, TimeScope đo lường lượng video mà một mô hình thực sự có thể xử lý - và cho thấy hiệu suất giảm khi video dài hơn.
Đánh giá & Bảng xếp hạng
Để khởi động mọi thứ, chúng tôi đã chạy TimeScope trên một bộ các mô hình ngôn ngữ thị giác hàng đầu, từ các mục yêu thích mã nguồn mở đến các juggernaut như Gemini 2.5-Pro. Các kết quả nhấn mạnh giá trị của điểm chuẩn: ngay cả các mô hình tuyên bố xử lý tốt video dài vẫn gặp khó khăn với các tác vụ video dài thực sự. Những phát hiện này tiết lộ các mô hình rõ ràng - các vách đá hiệu suất xung quanh các thời lượng nhất định, điểm mạnh trong việc tìm kiếm tĩnh so với điểm yếu trong phân tích chuyển động - và mở đường cho những cải tiến có mục tiêu trong đào tạo mô hình. Để biết kết quả và hình ảnh trực quan chi tiết, hãy xem Hugging Face Space được nhúng ở trên của chúng tôi.
Chúng ta đã học được gì?
Kích thước mô hình không phải là tất cả. Qwen 2.5-VL 3B và 7B, cũng như các mô hình InternVL 2.5 ở thông số 2B, 4B và 8B, thể hiện các đường cong video dài gần như không thể phân biệt được so với các đối tác nhỏ hơn của chúng. Tất cả chúng đều đạt đến cao nguyên ở độ dài ngữ cảnh gần như nhau, cho thấy rằng chỉ cần mở rộng các thông số không tự động cấp một đường chân trời thời gian dài hơn.
Gemini 2.5-Pro ở một đẳng cấp riêng. Đây là mô hình duy nhất duy trì độ chính xác cao trên các video dài hơn một giờ.
Sự đánh đổi giữa các nhiệm vụ quan trọng. Qwen 2.5-VL tỏa sáng trong nhiệm vụ Tổng hợp thông tin (OCR) - xác định và sắp xếp các đoạn văn bản phân tán - nhưng lại tụt hậu trong Nhận thức tạm thời chi tiết, nơi yêu cầu đếm chuyển động chính xác.
Kết luận - Hãy nâng cao tiêu chuẩn cho AI Video Dài
TimeScope chứng minh rằng “hiểu video dài hàng giờ” vẫn chỉ là một khẩu hiệu hơn là thực tế. Bằng cách tiết lộ nơi ngay cả các mô hình hiện đại nhất cũng vấp ngã về lý luận thời gian, tổng hợp thông tin và nhận thức chuyển động, điểm chuẩn mời chúng ta xem xét lại cách chúng ta đào tạo và đánh giá các hệ thống đa phương thức.
- Chạy Demo - Khám phá Space công khai: https://huggingface.co/spaces/Apollo-LMMs/TimeScope
- Benchmark cục bộ - Đánh giá bất kỳ mô hình nào bằng hai lệnh nhanh:
pip install git+https://github.com/EvolvingLMMs-Lab/lmms-eval.git
python -m lmms_eval --model-path <your-model> --benchmark timescope
- Tham gia Bảng xếp hạng - Gửi điểm số của bạn và xem mô hình của bạn so sánh như thế nào.
Chúng tôi hy vọng điểm chuẩn này sẽ giúp cộng đồng đạt được tiến bộ ổn định, có thể đo lường được đối với các mô hình hiểu video tốt hơn theo thời gian.
Chúng tôi đang mở nguồn tất cả các thành phần của TimeScope:
- Bộ dữ liệu: Apollo-LMMs/TimeScope
- Bảng xếp hạng: Apollo-LMMs/TimeScope
- Framework đánh giá: lmms-eval
Link bài viết gốc
- Tags:
- Ai
- July 23, 2025
- Huggingface.co