Cải thiện độ bền vững của Depth Anything V2 đối với nén video

May 7, 2026
22 min read

Cải thiện độ bền vững của Depth Anything V2 đối với nén video

Tóm tắt điều hành

Việc quản lý dữ liệu video tổng hợp và thời gian thực cho xe tự hành (AV) ở quy mô petabyte đòi hỏi phải nén dữ liệu. Đồng thời, việc áp dụng nén vào quy trình dữ liệu AV yêu cầu sự đảm bảo rằng độ chính xác của các mô hình hạ nguồn vẫn được duy trì. Như một bước tiến trong việc phát triển xử lý dữ liệu video an toàn cho ML, nghiên cứu này chứng minh rằng việc coi nén dữ liệu như một chiến lược huấn luyện cho phép các đội xe tự hành mở rộng quy mô hiệu quả trong khi vẫn bảo toàn độ chính xác của hệ thống nhận diện. Nghiên cứu này tập trung vào ước tính độ sâu — một tác vụ nhận diện tạo ra bản đồ độ sâu và là một trong những tác vụ nhạy cảm nhất với bất kỳ thay đổi nào của đầu vào.

Các codec thường dùng vốn dĩ là nén có mất dữ liệu (lossy). Mặc dù thường không thể nhận ra bằng mắt thường, chúng có thể làm biến dạng hình học không gian, đặc biệt là đối với thông tin tần số cao mà các mô hình học máy thường dựa vào. Cụ thể, các tác vụ dày đặc, chi tiết đến từng pixel trong hệ thống nhận diện AV — chẳng hạn như ước tính độ sâu đơn nhãn — cực kỳ nhạy cảm với bất kỳ sự biến đổi video nào, bao gồm cả các hiện tượng nhiễu do nén (compression artifacts).

Chúng tôi đề xuất một phương pháp mới: nén video nên được sử dụng như một kỹ thuật tăng cường dữ liệu (data augmentation) trong quá trình huấn luyện mô hình để cải thiện hiệu quả việc học và độ bền vững của mô hình. Tương tự như cách các mô hình được huấn luyện với độ mờ hoặc nhiễu tổng hợp để xử lý thời tiết xấu, việc đưa các nhiễu nén vào quy trình huấn luyện buộc mạng thần kinh phải học các biểu diễn hình học có khả năng chống chịu tự nhiên với các thách thức về viễn tin (telematics), trong đó nén video là một yếu tố nổi bật.

Vì nén có mất dữ liệu vốn dĩ loại bỏ các chi tiết không gian mịn bất kể sử dụng codec nào, việc xử lý các đầu vào nén này sẽ làm giảm chất lượng dự đoán độ sâu của mô hình so với mức cơ sở (baseline) khi dùng đầu vào sạch. Để khắc phục điều này, chúng tôi đã thực hiện tinh chỉnh (fine-tuning) mô hình có mục tiêu bằng các video nén và đạt được kết quả giảm đáng kể sai số trong tập kiểm tra.

1. Thiết lập thí nghiệm

Trong các thử nghiệm trước đó, các mô hình độ sâu cho thấy sự nhạy cảm rõ rệt với đầu vào nén — ngay cả khi việc nén không gây ra thay đổi nào có thể nhìn thấy được trong video. Để xác thực phương pháp “nén như một hình thức tăng cường”, chúng tôi đã xem xét tác động của nén video đối với Depth Anything V2 (Base), một mô hình ước tính độ sâu tương đối đơn nhãn hiện đại. Mô hình này sử dụng Vision Transformer DINOv2 (ViT-B) đã được huấn luyện trước làm backbone để trích xuất các đặc trưng ngữ nghĩa toàn cục phong phú từ các khung hình camera 2D đơn lẻ. Các đặc trưng này sau đó được xử lý hệ thống thông qua một đầu Dense Prediction Transformer (DPT), giúp hợp nhất các biểu diễn đa quy mô để hồi quy ra một bản đồ độ sâu liên tục với độ phân giải cao.

Để xây dựng quy trình huấn luyện, trước tiên chúng tôi đưa các khung hình video gốc, không nén vào mô hình “giáo viên” (teacher) để tạo ra các bản đồ độ sâu tham chiếu. Sau đó, chúng tôi mã hóa các chuỗi video gốc này bằng công nghệ mã hóa tăng tốc phần cứng NVENC CABR HEVC để tạo ra các video nén tối ưu. So với mã hóa NVENC HEVC tiêu chuẩn ở cùng chất lượng, CABR đạt được mức giảm tổng thể 35,2% kích thước tệp trên tập kiểm tra, bao gồm 43 video AV từ các tập dữ liệu công khai Kitti, A2D2 và PandaSet. Cuối cùng, chúng tôi sử dụng các khung hình nén tối ưu này làm đầu vào chính để tinh chỉnh mạng “học sinh” (student), buộc mô hình học cách khôi phục đầu ra độ sâu độ trung thực cao trực tiếp từ các video nén.

2. Tinh chỉnh để cải thiện độ bền vững

Vì dữ liệu độ sâu thực tế (ground-truth) không có sẵn trên nhiều tập dữ liệu lái xe khác nhau, chúng tôi áp dụng phương pháp tự chưng cất (self-distillation). Một mô hình “giáo viên” cố định xử lý các khung hình không nén để tạo ra các bản đồ độ sâu giả lập (pseudo ground-truth). Một mô hình “học sinh” — được khởi tạo từ cùng các trọng số — sẽ học cách khôi phục hình học độ sâu trung thực đó bằng cách sử dụng các khung hình nén làm đầu vào.

2.1 Cấu hình huấn luyện

Mô hình cơ sở: Depth Anything V2 Base (~100 triệu tham số).
Thích ứng: Sử dụng LoRA (rank 16, alpha 32) áp dụng cho tất cả các lớp attention và MLP của backbone, cùng với việc tinh chỉnh toàn bộ phần cổ (neck) và đầu (head). Tổng cộng, cấu hình này chỉ cập nhật 13,5% tổng số tham số của mạng.
Hàm mất mát (Loss Function): Masked L1. Chúng tôi bỏ qua vùng bầu trời và các pixel cực xa (độ sâu chuẩn hóa < 0,02) để tránh phạt mô hình trên các vùng hình học không xác định. Mặc dù AbsRel là chỉ số đánh giá chính, chúng tôi tối ưu hóa bằng Masked L1 để phạt đồng đều tất cả các phần sai lệch của hình ảnh độ sâu, nhằm bảo toàn hành vi của mô hình giáo viên nhiều nhất có thể.
Tăng cường nén: Tập dữ liệu đa nguồn (A2D2, Kitti, PandaSet) được chia thành 309 video huấn luyện (38.361 khung hình) và 43 video kiểm tra (6.513 khung hình), huấn luyện qua 50 epoch. Chúng tôi sử dụng nén CABR làm phương thức tăng cường không gian chính. Bằng cách đưa đầu vào nén cho mô hình học sinh trong khi nhắm tới mục tiêu là nhãn giả từ khung hình sạch, mạng sẽ học cách đảo ngược các nhiễu lượng tử hóa một cách ngầm định.
Duy trì miền dữ liệu: Kết hợp 20% khung hình sạch trong khi huấn luyện để ngăn chặn hiện tượng “quên thảm họa” (catastrophic forgetting) và đảm bảo mô hình vẫn hoạt động tốt nếu được cung cấp đầu vào không nén.
Suy luận không tốn chi phí (Zero-Overhead Inference): Sau khi huấn luyện, các trọng số LoRA đã học được hợp nhất hoàn toàn trở lại mô hình cơ sở. Do đó, mô hình học sinh khôi phục độ sâu bị suy giảm do nén mà không tốn thêm độ trễ suy luận hay bộ nhớ VRAM so với mô hình giáo viên cơ sở.

3. Phân biệt Nhiễu nén và Sự không chắc chắn tự nhiên của ML

Để đo lường chính xác tác động của nén video, trước tiên chúng tôi phải xác định độ nhạy tự nhiên của mô hình giáo viên đối với các biến thể đầu vào tiêu chuẩn. Trong môi trường AV thực tế, ngay cả các luồng camera không nén cũng chịu ảnh hưởng bởi các biến đổi quang học nhỏ (như nhiễu ISO hoặc nhiễu nhiệt) cũng như nhiễu hiệu chuẩn cơ học (như sự dịch chuyển pixel ngang nhỏ mô phỏng chuyển động vật lý của camera trên xe). Vì mô hình độ sâu cơ sở phản ứng rất mạnh với những dịch chuyển quang học và hình học nhỏ này, các dự đoán của nó tự nhiên sẽ có một mức phương sai cơ sở, ngay cả trước khi áp dụng nén.

Vì sự biến thiên vốn có này, việc đo lường mô hình học sinh so với mức cơ sở không sai số tuyệt đối sẽ không phản ánh đúng hiệu suất thực tế. Thay vào đó, một cách tiếp cận thực tế hơn là đánh giá xem sự suy giảm do nén gây ra có thực sự vượt quá mức không chắc chắn tự nhiên của mô hình dưới tác động của nhiễu cảm biến và nhiễu cơ học điển hình hay không.

Để trả lời câu hỏi này, chúng tôi định khung đánh giá sai số nén bằng cách đo lường “ngưỡng nhiễu” (noise floor) của mô hình giáo viên. Với mỗi khung hình kiểm tra sạch, chúng tôi tạo ra 30 biến thể nhiễu — kết hợp nhiễu quang học (nhiễu Gaussian, thay đổi độ sáng/độ tương phản) với các dịch chuyển hình học nhỏ (lên đến 2 pixel ngang). Những nhiễu này được thiết kế để mô phỏng các biến động cảm biến và hiệu chuẩn thực tế. Sau đó, chúng tôi tính độ lệch chuẩn (σ) cho mỗi pixel của các dự đoán độ sâu từ mô hình giáo viên trên 30 biến thể nhiễu này.

Chúng tôi đánh giá xem sai số do nén có nằm trong khoảng $2\sigma$ (dải không chắc chắn tự nhiên của giáo viên) hay không. Chỉ số $P_{valid}$ biểu thị tỷ lệ phần trăm các pixel có sai số nằm trong dải biến thiên tự nhiên này. Nếu dự đoán của mô hình học sinh trên khung hình nén nằm trong dải $2\sigma$, đầu ra của nó về mặt thống kê là không thể phân biệt được với hiệu suất của giáo viên dưới nhiễu cảm biến tự nhiên. Phương pháp này tách biệt về mặt toán học những hư hại thực sự do nén gây ra khỏi độ nhạy đầu vào cơ sở của mô hình, chứng minh liệu mô hình học sinh có thực sự trung hòa được các nhiễu nén để đạt tiêu chuẩn triển khai an toàn hay không.

4. Kết quả và Đánh giá Ngữ nghĩa

4.1 Chỉ số Đánh giá

Depth Anything V2 dự đoán độ sâu tương đối (bất biến với phép biến đổi affine) thay vì khoảng cách mét tuyệt đối. Do đó, Sai số Tương đối Tuyệt đối (AbsRel) đóng vai trò là chỉ số đánh giá chính, vì nó đo lường tỷ lệ phần trăm khác biệt giữa dự đoán của học sinh và mức cơ sở của giáo viên, có chuẩn hóa theo quy mô.

Điều này rất quan trọng đối với quy trình AV: các hệ thống nhận diện hạ nguồn thực hiện hiệu chuẩn trước để chuyển đổi các bản đồ độ sâu tương đối này thành khoảng cách vật lý. Nếu hình học độ sâu tương đối của một người đi bộ bị biến dạng do nén (dẫn đến AbsRel cao), sai số đó sẽ lan truyền trực tiếp khi chuyển sang đơn vị mét, dẫn đến những tính toán sai lầm nguy hiểm. Bằng cách giảm thiểu AbsRel, mô hình học sinh đảm bảo rằng hình học 3D cơ bản vẫn nguyên vẹn, đảm bảo việc tính toán quy mô mét hạ nguồn là an toàn và chính xác.

4.2 Khôi phục trực quan định tính

Chúng tôi trực quan hóa tác động trực tiếp của nén và khả năng khôi phục sau đó của mô hình học sinh trên các khung hình lái xe riêng lẻ. Đọc theo chiều dọc từ trên xuống dưới, các hình ảnh này bao gồm: (1) đầu vào RGB gốc và nén CABR, (2) bản đồ độ sâu của Giáo viên trên hình sạch (GT) so với ngưỡng nhiễu $\sigma_{Teacher}$, (3) bản đồ độ sâu từ Giáo viên so với Học sinh khi xử lý khung hình nén, (4) bản đồ nhiệt Sai số Tương đối Tuyệt đối (AbsRel) tương ứng, và cuối cùng là (5) mặt nạ an toàn $P_{valid}$ tương ứng (trong đó các pixel màu đỏ biểu thị sự biến dạng hình học vượt quá ngưỡng nhiễu $2\sigma$ tự nhiên của mô hình).

Hình 1

Hình 1: So sánh định tính về ước tính độ sâu trong một cảnh có các phương tiện. Mô hình giáo viên cơ sở (bên trái) bị biến dạng hình học toàn cục khi nén video, đặc biệt là trên bề mặt xe và hậu cảnh phức tạp (dẫn đến mặt nạ $P_{valid}$ màu đỏ đậm với tỷ lệ 13%). Mô hình học sinh (bên phải) trung hòa hiệu quả các nhiễu này, giảm sai số AbsRel hơn 3 lần và khôi phục an toàn 77,1% các pixel của cảnh trở lại ngưỡng nhiễu vận hành $2\sigma$ tự nhiên.

Hình 2

Hình 2: So sánh định tính về ước tính độ sâu trong một cảnh có VRU (Người tham gia giao thông dễ bị tổn thương) quan trọng đối với an toàn. Mô hình giáo viên cơ sở (bên trái) bị biến dạng nghiêm trọng ở người đi bộ và các cấu trúc tòa nhà khi nén video (thể hiện qua sai số AbsRel sáng và mặt nạ $P_{valid}$ màu đỏ). Mô hình học sinh (bên phải) trung hòa thành công các nhiễu này, khôi phục hình học VRU quan trọng về an toàn để nằm an toàn trong ngưỡng nhiễu $2\sigma$ tự nhiên của mô hình.

4.3 Khôi phục độ sâu tổng hợp

Mô hình học sinh được đánh giá trên 43 video kiểm tra (6.513 khung hình). Tất cả các chỉ số được tính toán chỉ trên các pixel hợp lệ (đã loại bỏ vùng bầu trời).

Lưu ý: Khi so sánh trực tiếp Học sinh trên đầu vào nén với Giáo viên trên đầu vào sạch, mô hình học sinh đạt được các chỉ số: AbsRel = 0,0178 và RMSE = 0,1289.

4.4 Phân tích sai số ngữ nghĩa theo từng lớp

Để hiểu thành phần nào trong cảnh bị ảnh hưởng nhiều nhất bởi nén, chúng tôi đã chạy phân đoạn ngữ nghĩa (SegFormer-B2, Cityscapes) trên tập kiểm tra. Tham chiếu: Giáo viên trên đầu vào sạch đóng vai trò là ground truth.

Phân tích ngữ nghĩa cho thấy sự suy giảm do nén và khả năng khôi phục của mô hình học sinh thay đổi tùy thuộc vào tần số không gian và độ phức tạp hình học của các thành phần trong cảnh. Đáng chú ý nhất là những Người tham gia giao thông dễ bị tổn thương (VRUs), những đối tượng chi tiết nhất và quan trọng nhất đối với an toàn trong môi trường AV, bị ảnh hưởng nặng nề nhất bởi nén nhưng lại đạt được sự khôi phục tương đối lớn nhất từ mô hình học sinh (giảm 30,7% AbsRel và 29,0% RMSE). Các thành phần cấu trúc tần số cao như tòa nhà, hàng rào và thực vật cũng cho thấy sự khôi phục hình học khổng lồ, với mức giảm RMSE vượt quá 30%. Ngược lại, các vùng lớn, đồng nhất với tần số không gian thấp như bề mặt đường vốn có sai số nén cơ sở thấp hơn nhiều (Teacher AbsRel chỉ 0,0101), nhưng mô hình học sinh vẫn giảm thêm sai số này 23,0%. Sự cải thiện nhất quán trên cả các đối tượng tiền cảnh phức tạp và các mặt phẳng hậu cảnh phẳng xác nhận rằng quá trình tự chưng cất đã học được một sự hiểu biết tổng quát, bền vững về hình học 3D thay vì chỉ đơn thuần là khớp với kết cấu đối tượng cụ thể.

4.5 Phân tích Ngưỡng nhiễu và Sự không chắc chắn

Để đặt sự khôi phục của mô hình học sinh vào đúng ngữ cảnh, chúng tôi đã đo lường sự không chắc chắn cơ sở của cả mô hình giáo viên và học sinh. Bằng cách áp dụng các nhiễu cụ thể cho đầu vào không nén, chúng tôi thiết lập “ngưỡng nhiễu” ($\sigma$) tự nhiên cho mỗi mạng. Chúng tôi thực hiện ba thí nghiệm tăng dần: chỉ nhiễu quang học, tiếp theo là thêm dịch chuyển ngang $\pm 1$ pixel và $\pm 2$ pixel để mô phỏng rung lắc cơ học của camera.

4.5.1 Tăng cường độ ổn định nội tại (So sánh $\sigma$)

Phân tích ban đầu tách biệt biến thiên quang học, mô phỏng các biến động tự nhiên của cảm biến camera. Chúng tôi đánh giá cả hai mô hình trên 30 biến thể nhiễu mỗi khung hình, áp dụng nhiễu Gaussian ($\sigma=0,015$) và thay đổi độ sáng/độ tương phản ($\pm 5%$). Sau đó, chúng tôi đưa vào các dịch chuyển ngang $\pm 1$ và $\pm 2$ pixel, mô phỏng nhiễu hiệu chuẩn và chuyển động tự nhiên của camera khi lái xe.

Hình 3

Hình 3: So sánh ngưỡng nhiễu tự nhiên ($\sigma$) giữa mô hình Giáo viên và Học sinh qua các mức độ nhiễu không gian tăng dần. Trục x đại diện cho bảy lớp ngữ nghĩa, trong khi trục y biểu thị độ lệch chuẩn trung bình trên mỗi pixel (ngưỡng nhiễu) theo đơn vị độ sâu tương đối.

Phân tích nhiễu quang học và không gian tiết lộ lợi ích kép của phương pháp tăng cường nén. Như minh họa trong cả ba bảng của Hình 3, mô hình học sinh (màu xanh) cho thấy ngưỡng nhiễu tự nhiên ($\sigma_{Student}$) chặt chẽ hơn nhất quán so với giáo viên cơ sở (màu đỏ). Trên mọi lớp ngữ nghĩa, phương sai cơ sở của học sinh thấp hơn từ 15% đến 20%. Điều này xác nhận rằng việc huấn luyện với các nhiễu nén đã buộc mạng thần kinh trở nên bền vững hơn về cơ bản, học được một biểu diễn xác định có khả năng chống lại cả biến đổi ánh sáng và chuyển động vật lý của camera. Đúng như mong đợi, cả hai ngưỡng nhiễu đều tăng khi nhiễu không gian tăng lên (từ bảng A sang C), đặc biệt đối với các lớp có nhiều cạnh như Hạ tầng giao thông, nhưng mô hình học sinh vẫn duy trì được độ ổn định vượt trội.

4.5.2 Xác thực khôi phục so với mức cơ sở của Giáo viên ($P_{valid} \rightarrow \sigma_{Teacher}$)

Sau khi thiết lập các ngưỡng nhiễu, chúng tôi đo lường tỷ lệ phần trăm các pixel ($P_{valid}$) có sai số do nén nằm an toàn trong dải biến thiên $2\sigma$ tự nhiên của giáo viên.

Hình 4a: Độ hợp lệ của Pixel trong Dải không chắc chắn tự nhiên của Giáo viên - Chỉ Nhiễu Quang học

Hình 4b: Độ hợp lệ của Pixel trong Dải không chắc chắn tự nhiên của Giáo viên - Nhiễu Quang học + Dịch chuyển $\pm 1$px

Hình 4c: Độ hợp lệ của Pixel trong Dải không chắc chắn tự nhiên của Giáo viên - Nhiễu Quang học + Dịch chuyển $\pm 2$px

Các biểu đồ này đánh giá hiệu suất so với ngưỡng nhiễu của giáo viên cơ sở.

Cột đỏ (Cơ sở): Mô hình giáo viên được đánh giá trên video nén tối ưu.
Cột xanh dương (Cải thiện): Mô hình học sinh được đánh giá trên video nén tối ưu, đẩy tỷ lệ nhiễu trở lại dải biến thiên an toàn cao hơn.
Cột xanh lá (Kiểm tra an toàn): Mô hình học sinh được đánh giá trên video không nén.

Những chỉ số này làm nổi bật hai thành tựu kỹ thuật quan trọng nhất của nghiên cứu:

Khôi phục nhiễu quan trọng đối với an toàn (Xanh dương > Đỏ): Giáo viên cơ sở gặp khó khăn trong việc duy trì hình học tin cậy khi nén. Ví dụ, dưới nhiễu quang học thuần túy, chỉ 36,0% các pixel VRU nén nằm trong dải không chắc chắn $2\sigma$ của chính giáo viên. Học sinh sửa chữa hư hại này hiệu quả, vượt xa mức cơ sở bằng cách đưa 53,0% các pixel đó trở lại ngưỡng an toàn. Khi đánh giá dưới khung rung cơ học $\pm 2$ pixel thực tế hơn, sự khôi phục này tăng vọt: gần 3/4 (74,5%) dự đoán VRU của học sinh trên các khung hình nén nặng là không thể phân biệt được với rung lắc camera tự nhiên.
Không bị quên (Xanh lá > Xanh dương): Một yêu cầu quan trọng cho triển khai AV là các mô hình không được suy giảm khi có sẵn luồng không nén. Mô hình học sinh được đánh giá trên đầu vào sạch (cột xanh lá) có độ hợp lệ cao nhất trên tất cả các lớp. Dưới khung dịch chuyển $\pm 2$ pixel, học sinh đạt 95,5% độ hợp lệ cho cả VRU và Hạ tầng giao thông. Điều này chứng minh về mặt toán học rằng việc pha trộn 20% khung hình sạch khi huấn luyện đã bảo toàn thành công độ trung thực băng thông cao.

4.5.3 Xác thực tự nhất quán ($P_{valid} \rightarrow \sigma_{Student}$)

Cuối cùng, chúng tôi đánh giá mô hình học sinh so với ngưỡng nhiễu $2\sigma$ chặt chẽ hơn nhiều của chính nó.

Hình 5a: Độ hợp lệ của Pixel trong Dải không chắc chắn chặt chẽ hơn của Học sinh - Chỉ Nhiễu Quang học

Hình 5b: Độ hợp lệ của Pixel trong Dải không chắc chắn chặt chẽ hơn của Học sinh - Chỉ Nhiễu Quang học + Dịch chuyển $\pm 1$px

Hình 5c: Độ hợp lệ của Pixel trong Dải không chắc chắn chặt chẽ hơn của Học sinh - Chỉ Nhiễu Quang học + Dịch chuyển $\pm 2$px

Ngay cả với khung nội bộ nghiêm ngặt này, mô hình vẫn cho thấy sự tự nhất quán đáng kinh ngạc. Như trong các hình, 44% đến 49% dự đoán nén của học sinh nằm trong ngưỡng nhiễu chặt chẽ của chính nó dưới nhiễu quang học thuần túy. Khi tính đến dịch chuyển cơ học $\pm 2$ pixel, độ hợp lệ này tăng lên 63%–78% trên các khung hình nén, và đạt mức đặc biệt là 76%–94% trên đầu vào sạch. Điều này xác nhận rằng học sinh không chỉ đơn thuần ghi nhớ và khớp với đầu ra của giáo viên, mà đang tạo ra hình học chính xác và nhất quán nội bộ hơn trên cả dữ liệu nén và không nén.

4.6 Các phát hiện chính và Tác động kỹ thuật

Tinh chỉnh tăng độ ổn định của mô hình (Ngưỡng nhiễu chặt chẽ hơn): Ngoài việc sửa chữa các nhiễu không gian, việc sử dụng nén như một cơ chế tăng cường đã ổn định hóa toàn bộ mô hình một cách cơ bản. Trên tất cả các lớp ngữ nghĩa, ngưỡng nhiễu của học sinh ($\sigma_{Student}$) thấp hơn từ 15% đến 20% so với giáo viên. Tinh chỉnh LoRA đã buộc mạng phải học một biểu diễn hình học bất biến và xác định hơn, có khả năng chống chịu cao với nhiễu cảm biến tự nhiên.
Khôi phục các đối tượng quan trọng đối với an toàn (VRUs): Người tham gia giao thông dễ bị tổn thương (VRUs) hưởng lợi nhiều nhất từ phương pháp này, đạt mức giảm AbsRel 30,7% và giảm RMSE 29,0%. Dưới mức nén cơ sở, VRUs có tỷ lệ pixel hợp lệ thấp nhất (36,0%), cho thấy nén làm suy giảm hình học tần số cao của chúng. Khi tính đến rung lắc camera cơ học thực tế, học sinh đẩy thành công 74,5% các pixel nén này trở lại dải không chắc chắn $2\sigma$ tự nhiên của giáo viên.
Không quên dữ liệu sạch: Yêu cầu then chốt cho triển khai AV là mô hình không được giảm chất lượng khi có luồng không nén. Việc pha trộn 20% khung hình sạch trong khi huấn luyện đã hoàn toàn thành công. Khi đánh giá trên các khung hình sạch, AbsRel của học sinh thấp hơn từ 2 đến 5 lần so với sai số nén, và lên đến 95,5% các pixel nằm thoải mái trong ngưỡng nhiễu cơ sở của giáo viên.

5. Kết luận và Tác động

Nghiên cứu này chứng minh rằng việc sử dụng nén video như một bước tăng cường dữ liệu thiết yếu trong quá trình huấn luyện mô hình giúp cải thiện độ bền vững của mô hình. Bằng cách trung hòa tổn thất do nén thông qua việc tăng cường có mục tiêu tương ứng, các quy trình AV có thể an toàn áp dụng nén và đạt được các giới hạn độ sâu chặt chẽ và chính xác hơn cho các tác vụ nhận diện hạ nguồn.

Trên toàn bộ tập kiểm tra, việc tinh chỉnh đã tạo ra những cải thiện nhất quán ở ba cấp độ: độ ổn định của mô hình, khôi phục hình học và khôi phục các đối tượng quan trọng đối với an toàn, mà không làm tổn hại đến hiệu suất đầu vào sạch:

Tách biệt Chi phí khỏi An toàn: Bằng cách kết hợp mã hóa Beamr CABR với phương pháp tự chưng cất này, các quy trình AV có thể giảm tổng thể 35,2% kích thước video so với mã hóa tiêu chuẩn, đồng thời khôi phục tới 30,7% hình học không gian thường bị mất trên các đối tượng quan trọng như VRUs.
Khôi phục Hình học Toàn cầu: Trên mọi lớp tiền cảnh và hậu cảnh, mô hình học sinh đã đẩy thành công tỷ lệ pixel cao hơn trở lại dải không chắc chắn $2\sigma$ tự nhiên của giáo viên, chứng minh mô hình đã trung hòa các nhiễu nén trên toàn cầu thay vì chỉ áp dụng làm mịn thuật toán cục bộ.
Chứng minh khái niệm hiệu quả về tham số: Đáng chú ý, các chỉ số khôi phục này đạt được thông qua tinh chỉnh nhẹ, hiệu quả về tham số, chỉ cập nhật ~14% tổng trọng số mô hình, thay vì huấn luyện lại mạng 100 triệu tham số từ đầu. Vì sự thích ứng đơn giản và ít tốn kém này trung hòa hiệu quả những hư hại nén nghiêm trọng, nó cho thấy rằng việc tích hợp tăng cường nén một cách tự nhiên vào giai đoạn huấn luyện trước (pre-training) của các mô hình nền tảng AV trong tương lai sẽ mang lại độ bền vững cơ bản và sâu sắc hơn đối với các nút thắt viễn tin.

Cuối cùng, sự thay đổi tư duy này cho phép các đội xe AV mở rộng an toàn các quy trình dữ liệu và cắt giảm mạnh chi phí cơ sở hạ tầng mà không làm tổn hại đến các KPI không gian độ tin cậy cao cần thiết cho nhận diện dựa trên thị giác an toàn.

Tài liệu tham khảo

Yang, L., Kang, B., Huang, Z., et al. (2024). “Depth Anything V2”. arXiv preprint arXiv:2406.09414.
Oquab, M., Darcet, T., Moutakanni, T., et al. (2023). “DINOv2: Learning Robust Visual Features without Supervision”. arXiv preprint arXiv:2304.07193.
Geiger, A., Lenz, P., & Urtasun, R. (2012). “Are we ready for autonomous driving? The KITTI vision benchmark suite”. CVPR.
Geyer, W., Kassahun, Y., Mahmudi, M., et al. (2020). “A2D2: Audi Autonomous Driving Dataset”. arXiv preprint arXiv:2004.06320.
Xiao, P., Shao, Z., Hao, S., et al. (2021). “PandaSet: Advanced Sensor Suite Dataset for Autonomous Driving”. IEEE ITSC.
Hu, E. J., Shen, Y., Wallis, P., et al. (2021). “LoRA: Low-Rank Adaptation of Large Language Models”. ICLR.
Xie, E., Wang, W., Yu, Z., et al. (2021). “SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers”. NeurIPS.
Cordts, M., Omran, M., Ramos, S., et al. (2016). “The Cityscapes Dataset for Semantic Urban Scene Understanding”. CVPR.

AI Today - SkyAI

Cải thiện độ bền vững của Depth Anything V2 đối với nén video

Cải thiện độ bền vững của Depth Anything V2 đối với nén video

Tóm tắt điều hành

1. Thiết lập thí nghiệm

2. Tinh chỉnh để cải thiện độ bền vững

2.1 Cấu hình huấn luyện

3. Phân biệt Nhiễu nén và Sự không chắc chắn tự nhiên của ML

4. Kết quả và Đánh giá Ngữ nghĩa

4.1 Chỉ số Đánh giá

4.2 Khôi phục trực quan định tính

4.3 Khôi phục độ sâu tổng hợp

4.4 Phân tích sai số ngữ nghĩa theo từng lớp

4.5 Phân tích Ngưỡng nhiễu và Sự không chắc chắn

4.5.1 Tăng cường độ ổn định nội tại (So sánh $\sigma$)

4.5.2 Xác thực khôi phục so với mức cơ sở của Giáo viên ($P_{valid} \rightarrow \sigma_{Teacher}$)

4.5.3 Xác thực tự nhất quán ($P_{valid} \rightarrow \sigma_{Student}$)

4.6 Các phát hiện chính và Tác động kỹ thuật

5. Kết luận và Tác động

Tài liệu tham khảo

Link bài viết gốc