SARLO-80- Bộ dữ liệu quang học ngôn ngữ SAR Slant Toàn cầu với Độ phân giải 80 cm
SARLO-80- Bộ dữ liệu quang học ngôn ngữ SAR Slant Toàn cầu với Độ phân giải 80 cm
- 10 min read
SARLO-80: Tập dữ liệu ngôn ngữ quang ảnh SAR toàn cầu ở độ phân giải 80 cm
Tác giả: Solène Debuysère1, Nicolas Trouvé1, Nathan Letheule1, Elise Colin1, Georgia Channing2
Tập đoàn:
1 ONERA – Viện Nghiên cứu Hàng không Vũ trụ Pháp 2 Hugging Face
Ảnh vệ tinh đã thay đổi cách chúng ta quan sát hành tinh. Thông thường, những hình ảnh này đến từ các cảm biến quang học, ghi lại thế giới bằng ánh sáng nhìn thấy, giống như mắt chúng ta. Tuy nhiên, có một cách khác để quan sát hành tinh: Radar Khẩu độ Tổng hợp (SAR). SAR sử dụng sóng vi ba thay vì ánh sáng nhìn thấy và có thể chụp ảnh bất kỳ lúc nào, ngay cả khi có mây hoặc thời tiết xấu.
Chúng tôi đã thu thập dữ liệu thô từ vệ tinh Umbra để tạo tập dữ liệu SARLO-80 (Slant SAR Language Optic, 80 cm), một nguồn tài nguyên cấu trúc, độ phân giải cao, được tối ưu hóa cho các ứng dụng AI và học máy. Bằng cách kết hợp ảnh SAR với dữ liệu quang học được căn chỉnh về mặt hình học và mô tả bằng ngôn ngữ tự nhiên, nó kết nối lĩnh vực radar và thị giác-ngôn ngữ.
Trước khi trình bày các bước xử lý, chúng ta hãy cùng điểm lại ngắn gọn sự khác biệt giữa SAR và cảm biến quang học thông thường.
Kho lưu trữ tập dữ liệu: ONERA/SARLO-80
Quang học so với Radar: Hai góc nhìn khác nhau về Trái đất
Các hình ảnh quang học và radar cung cấp hai phương pháp hoàn toàn khác nhau để quan sát bề mặt Trái đất. Trong khi ảnh quang học giống như ảnh chụp thông thường được tạo ra bởi ánh sáng nhìn thấy, thì ảnh Radar Khẩu độ Tổng hợp (SAR) được tái tạo bằng máy tính từ các tín hiệu phản xạ radar thu thập khi vệ tinh di chuyển theo quỹ đạo. Sự khác biệt này ảnh hưởng đến mọi khía cạnh của việc thu thập, độ phân giải, hình học và diễn giải hình ảnh.
1. Cảm biến chủ động và thụ động
Không giống như cảm biến quang học phụ thuộc vào ánh sáng mặt trời và bầu trời quang đãng, SAR chủ động phát sóng vi ba và có thể chụp ảnh Trái đất ngay cả khi có mây — đây là một lợi thế quan trọng khi hơn 60% hành tinh bị che phủ bởi mây vào bất kỳ thời điểm nào.
2. Nguyên tắc tạo ảnh
Ảnh quang học là hình chiếu trực tiếp của ánh sáng qua ống kính lên mảng cảm biến. Ngược lại, ảnh radar được tái tạo bằng máy tính từ một loạt tín hiệu phản xạ radar thu thập khi vệ tinh di chuyển dọc theo quỹ đạo của nó. Bằng cách kết hợp các phép đo theo thời gian, hệ thống tổng hợp một “ăng-ten ảo” lớn — khẩu độ tổng hợp — cho phép độ phân giải không gian tốt (xem Hình 3).
Trong hệ thống quang học, độ phân giải không gian chủ yếu phụ thuộc vào kích thước khẩu độ của ống kính. Trong hệ thống radar, nó phụ thuộc vào tần số tín hiệu, băng thông và khoảng cách mà cảm biến di chuyển trong quá trình thu thập dữ liệu. Sự khác biệt này cho phép vệ tinh SAR đạt được độ phân giải cao ngay cả với ăng-ten tương đối nhỏ gọn. Độ phân giải này được mã hóa trong kích thước của các điểm sáng, với mỗi điểm tương ứng khoảng với tính năng nhỏ nhất có thể phân biệt mà radar có thể giải quyết.
3. Hình học radar và các biến dạng
Các cảm biến quang học và radar quan sát Trái đất từ các hình học cơ bản khác nhau. Hệ thống quang học chụp ảnh trong mặt phẳng chiếu xuống mặt đất (mặt phẳng màu xanh lá cây trong Hình 2), trong đó mỗi pixel tương ứng trực tiếp với một điểm trên bề mặt. Ngược lại, Radar Khẩu độ Tổng hợp (SAR) thu thập dữ liệu theo hình học tầm xiên (mặt phẳng màu cam trong Hình 2), đo khoảng cách dọc theo đường nhìn của radar. Để làm cho ảnh SAR và ảnh quang học có thể so sánh về mặt hình học, một trong số chúng phải được chiếu lại theo hình học của cái kia — hoặc cả hai vào một hình học tham chiếu chung — để đạt được khả năng chồng hình học gần đúng, vì việc chồng hình học hoàn hảo là không thể về mặt vật lý do hình học xem khác nhau của chúng.
Hơn nữa, việc thu thập chéo này khiến địa hình cao và các cấu trúc cao xuất hiện nghiêng về phía radar, gây ra các biến dạng hình học như:
- Chồng lấp (Layover) – Các cấu trúc cao, chẳng hạn như núi hoặc tòa nhà, xuất hiện nghiêng về phía radar vì phần trên của chúng trả về tín hiệu trước phần đáy.
- Nén ngắn (Foreshortening) – Các sườn dốc hướng về phía radar xuất hiện bị nén lại vì đỉnh và đáy của chúng được chiếu sáng gần như đồng thời.
- Bóng đổ (Shadowing) – Các khu vực bị che khỏi chùm tia radar xuất hiện tối hoặc không được đo.
Các hiệu ứng này là cố hữu trong chụp ảnh radar và mang lại thông tin hữu ích về địa hình và hướng bề mặt.
4. Đặc tính tương quan và đốm
Các cảm biến SAR ghi lại không chỉ biên độ của tín hiệu phản xạ mà còn cả pha của nó — thời gian chính xác của sóng trả về. Đặc tính này làm cho dữ liệu radar trở nên tương quan, cho phép các kỹ thuật nâng cao như phân cực và giao thoa kế (InSAR).
Sự tương quan cũng tạo ra một mẫu đốm đặc trưng, có thể nhìn thấy như kết cấu hạt trong ảnh SAR. Đốm là kết quả của sự giao thoa cộng hưởng và triệt tiêu của các tín hiệu radar bị tán xạ bởi nhiều mục tiêu nhỏ trong một ô phân giải duy nhất. Mặc dù nó có thể giống nhiễu, đốm là một hiện tượng xác định chứa thông tin về cấu trúc vật lý và hành vi tán xạ của bề mặt.
5. Diễn giải và ứng dụng
Diễn giải ảnh SAR đòi hỏi phải hiểu rằng độ sáng tương ứng với cường độ phản xạ ngược chứ không phải độ sáng hoặc màu sắc quang học. Các bề mặt có độ phản xạ cao (ví dụ: địa hình gồ ghề hoặc cấu trúc kim loại) xuất hiện sáng, trong khi các bề mặt nhẵn (ví dụ: nước lặng hoặc đất bằng phẳng) xuất hiện tối. Mặc dù có vẻ ngoài trừu tượng hơn, SAR cung cấp khả năng quan sát độc đáo bổ sung cho dữ liệu quang học:
- Theo dõi biến dạng bề mặt bằng giao thoa kế
- Lập bản đồ độ ẩm đất, thảm thực vật và động lực băng
- Phát hiện cơ sở hạ tầng, tàu thuyền và phạm vi lũ lụt
Cùng nhau, các quan sát quang học và radar tạo thành một cái nhìn toàn diện về Trái đất — các hệ thống quang học cung cấp bối cảnh trực quan dễ hiểu, và các hệ thống radar tiết lộ các đặc tính cấu trúc, động lực và địa vật lý mà mắt người không nhìn thấy được.
Tạo tập dữ liệu Umbra
Nguồn dữ liệu mở: Umbra Open Data
Mặc dù radar mang lại khả năng cảm biến đáng chú ý, việc xử lý nó vẫn còn thách thức. Để làm cho dữ liệu này dễ tiếp cận hơn, chúng tôi đã biên soạn và chuyển đổi ảnh radar mã nguồn mở được thu thập bởi chòm sao vệ tinh Umbra thành định dạng sẵn sàng cho học máy.
Chúng tôi bắt đầu với khoảng 2.500 ảnh Umbra SICD được thu thập trên toàn cầu. Các cảnh SAR này, được chụp ở định dạng phức tạp và phân cực VV hoặc HH, có độ phân giải từ 20 cm đến 2 m và góc tới từ 10° đến 70°. Để chuẩn hóa chúng, chúng tôi đã tập trung lại phổ và lấy mẫu lại tất cả dữ liệu thành 80 cm × 80 cm theo hình học tầm xiên, sau đó chia mỗi cảnh lớn thành các mảng có kích thước 1.024 × 1.024 pixel chồng lên nhau.
Để làm cho tập dữ liệu trở thành đa phương thức, mỗi mảng SAR được ghép nối với ảnh quang học độ phân giải cao được chiếu vào hình học tầm xiên của radar. Điều này đảm bảo sự căn chỉnh từng pixel giữa ảnh radar và ảnh quang học, mặc dù phép chiếu quang học có thể cho thấy các biến dạng hình học.
Cuối cùng, để mở rộng tập dữ liệu cho nghiên cứu thị giác-ngôn ngữ, chúng tôi đã tạo ba mô tả bằng văn bản cho mỗi ảnh quang học (NGẮN, TRUNG BÌNH và DÀI) bằng CogVLM2, sau đó tinh chỉnh và làm sạch bằng Qwen LLM. Ví dụ, trong Hình 7, các mô tả là:
- NGẮN:
- TRUNG BÌNH:
- DÀI:
Bộ sưu tập kết quả chứa khoảng 119.566 bộ ba — mỗi bộ bao gồm một mảng SAR, một mảng quang học được căn chỉnh và các mô tả văn bản — tạo thành nền tảng để huấn luyện các mô hình đa phương thức cùng hiểu dữ liệu radar, quang học và ngôn ngữ.
Tập dữ liệu có sẵn trên Hugging Face theo địa chỉ: ONERA/SARLO-80
Ứng dụng của SAR và AI
Tập dữ liệu Umbra SAR kết hợp dữ liệu SAR, quang học và văn bản ở định dạng đa phương thức được tiêu chuẩn hóa, mở ra những khả năng mới cho các ứng dụng AI như:
- Phân loại
- Phân đoạn
- Phát hiện thay đổi
- Mô hình hóa sinh sản
Bằng cách kết hợp cái nhìn riêng biệt về cấu trúc, toàn thời tiết của radar với thông tin trực quan dễ hiểu của ảnh quang học, tập dữ liệu hỗ trợ nghiên cứu trên nhiều lĩnh vực đa dạng — từ giám sát sức khỏe cây trồng và độ ẩm đất trong nông nghiệp, đến đánh giá thảm họa nhanh chóng, theo dõi tăng trưởng đô thị và các nghiên cứu môi trường như nạn phá rừng và chuyển động băng hà. Cách tiếp cận bổ sung này cho phép các mô hình AI học các biểu diễn phong phú hơn, bền bỉ hơn về Trái đất, chứng tỏ cách ảnh radar và ảnh quang học cùng nhau cung cấp hiểu biết sâu sắc hơn về hành tinh của chúng ta.
Kết luận
Tập dữ liệu Umbra SAR được xây dựng với một mục tiêu duy nhất: làm cho radar dễ tiếp cận hơn cho AI. Bằng cách căn chỉnh ảnh SAR độ phân giải cao với ảnh quang học và mô tả bằng ngôn ngữ tự nhiên, nó cung cấp nền tảng cho các mô hình mới có thể diễn giải góc nhìn độc đáo của radar và kết nối nó với các khái niệm mà con người có thể hiểu được.
Lời cảm ơn
Công trình này được thực hiện như một phần của luận án Tiến sĩ của Solène Debuysère tại DEMR-ONERA – Université de Paris Saclay, dưới sự giám sát của Nicolas Trouvé, Nathan Letheule và Elise Colin. Chúng tôi xin bày tỏ lòng biết ơn sâu sắc đến ONERA, đặc biệt là nhóm DEMR-SEM và Olivier Lévêque vì đã cung cấp nguồn lực tính toán và nghiên cứu, Umbra vì các bộ sưu tập dữ liệu SAR và các sáng kiến truy cập mở cho phép sử dụng nghiên cứu (https://umbra.space/open-data/), và Hugging Face, đặc biệt là Georgia Channing, vì sự giúp đỡ của cô ấy trong dự án này.
Liên hệ
Nếu bạn có bất kỳ câu hỏi nào hoặc muốn đóng góp, đừng ngần ngại liên hệ với chúng tôi: