Đã quét 4 triệu mô hình Protect AI + Hugging Face sau 6 tháng

Bài viết này tóm tắt sáu tháng hợp tác giữa Protect AI và Hugging Face.

April 19, 2025
11 min read

Đã quét 4 triệu mô hình: Protect AI + Hugging Face sau 6 tháng

Hugging Face và Protect AI đã hợp tác vào tháng 10 năm 2024 để tăng cường bảo mật mô hình học máy (ML) thông qua công nghệ quét Guardian’s cho cộng đồng các nhà phát triển khám phá và sử dụng các mô hình từ Hugging Face Hub. Sự hợp tác này là một sự phù hợp tự nhiên ngay từ đầu—Hugging Face đang thực hiện sứ mệnh dân chủ hóa việc sử dụng AI nguồn mở, với cam kết về an toàn và bảo mật; và Protect AI đang xây dựng các biện pháp bảo vệ để làm cho các mô hình nguồn mở an toàn cho tất cả mọi người.

Đã ra mắt 4 mô-đun phát hiện mối đe dọa mới

Kể từ tháng 10, Protect AI đã mở rộng đáng kể khả năng phát hiện của Guardian, cải thiện các khả năng phát hiện mối đe dọa hiện có và ra mắt bốn mô-đun phát hiện mới:

PAIT-ARV-100: Archive slip có thể ghi vào hệ thống tệp tại thời điểm tải
PAIT-JOBLIB-101: Đã phát hiện mã thực thi đáng ngờ của mô hình Joblib tại thời điểm tải mô hình
PAIT-TF-200: TensorFlow SavedModel chứa backdoor kiến trúc
PAIT-LMAFL-300: Llamafile có thể thực thi mã độc hại trong quá trình suy luận

Với những cập nhật này, Guardian bao gồm nhiều định dạng tệp mô hình hơn và phát hiện các kỹ thuật che giấu phức tạp bổ sung, bao gồm cả mức độ nghiêm trọng cao lỗ hổng CVE-2025-1550 trong Keras. Thông qua các công cụ phát hiện nâng cao, người dùng Hugging Face nhận được thông tin bảo mật quan trọng thông qua các cảnh báo nội tuyến trên nền tảng và có quyền truy cập vào các báo cáo lỗ hổng toàn diện trên Insights DB. Các phát hiện được dán nhãn rõ ràng có sẵn trên mỗi trang mô hình, cho phép người dùng đưa ra quyết định sáng suốt hơn về các mô hình để tích hợp vào dự án của họ.

Theo số liệu

Tính đến ngày 1 tháng 4 năm 2025, Protect AI đã quét thành công 4,47 triệu phiên bản mô hình duy nhất trong 1,41 triệu kho lưu trữ trên Hugging Face Hub.

Đến nay, Protect AI đã xác định tổng cộng 352.000 vấn đề không an toàn/đáng ngờ trên 51.700 mô hình. Chỉ trong 30 ngày qua, Protect AI đã phục vụ 226 triệu yêu cầu từ Hugging Face với thời gian phản hồi là 7,94 ms.

Duy trì cách tiếp cận Zero Trust đối với Bảo mật Mô hình

Guardian của Protect AI áp dụng phương pháp zero trust đối với bảo mật AI/ML. Điều này đặc biệt phát huy tác dụng khi coi việc thực thi mã tùy ý là vốn không an toàn, bất kể ý định. Thay vì chỉ phân loại các mối đe dọa công khai độc hại, Guardian gắn cờ rủi ro thực thi là đáng ngờ trên InsightsDB, nhận thấy rằng ngay cả mã có hại cũng có thể trông vô hại thông qua các kỹ thuật che giấu (xem thêm về việc che giấu tải trọng bên dưới). Kẻ tấn công có thể ngụy trang tải trọng bên trong các tập lệnh hoặc thành phần khả năng mở rộng dường như vô hại của một khung, khiến việc chỉ kiểm tra tải trọng là không đủ để đảm bảo an ninh. Bằng cách duy trì phương pháp thận trọng này, Guardian giúp giảm thiểu rủi ro do các mối đe dọa ẩn giấu trong các mô hình học máy gây ra.

Phát triển Khả năng Phát hiện Lỗ hổng Mô hình của Guardian

Các mối đe dọa bảo mật AI/ML đang phát triển mỗi ngày. Đó là lý do tại sao Protect AI tận dụng cả đội ngũ nghiên cứu mối đe dọa nội bộ và huntr—chương trình thưởng lỗi AI/ML đầu tiên và lớn nhất thế giới được cung cấp bởi cộng đồng hơn 17.000 nhà nghiên cứu bảo mật của chúng tôi.

Trùng với thời điểm ra mắt quan hệ đối tác của chúng tôi vào tháng 10, Protect AI đã ra mắt một chương trình mới trên huntr để nghiên cứu nguồn cung cấp đám đông về Lỗ hổng tệp mô hình mới. Kể từ khi ra mắt chương trình, họ đã nhận được hơn 200 báo cáo mà các nhóm Protect AI đã xử lý và kết hợp vào Guardian—tất cả đều được tự động áp dụng cho các lần quét mô hình tại đây trên Hugging Face.

Các chủ đề tấn công phổ biến

Khi có nhiều báo cáo huntr hơn và nhiều nghiên cứu mối đe dọa độc lập hơn được tiến hành, một số xu hướng nhất định đã xuất hiện.

Chuỗi tấn công phụ thuộc vào thư viện: Các cuộc tấn công này tập trung vào khả năng của một tác nhân xấu để gọi các chức năng từ các thư viện có trong môi trường máy trạm ML. Chúng gợi nhớ đến kiểu tấn công “tải xuống drive-by” đã ảnh hưởng đến các trình duyệt và hệ thống khi các tiện ích chung như Java và Flash hiện diện. Thông thường, quy mô tác động của các cuộc tấn công này tỷ lệ thuận với mức độ phổ biến của một thư viện nhất định, với các thư viện ML phổ biến như Pytorch có tác động tiềm tàng rộng hơn nhiều so với các thư viện ít được sử dụng hơn.

Che giấu tải trọng: Một số báo cáo đã nêu bật các cách để chèn, che giấu hoặc “ẩn” tải trọng trong mô hình bỏ qua các kỹ thuật quét thông thường. Các lỗ hổng này sử dụng các kỹ thuật như nén, mã hóa và tuần tự hóa để che giấu tải trọng và không dễ phát hiện. Nén là một vấn đề vì các thư viện như Joblib cho phép tải trực tiếp các tải trọng được nén. Các định dạng vùng chứa như Keras và NeMo nhúng thêm các tệp mô hình, mỗi tệp có khả năng dễ bị tấn công vào các vectơ tấn công cụ thể của riêng chúng. Nén khiến người dùng gặp phải các lỗ hổng TarSlip hoặc ZipSlip. Mặc dù tác động của những điều này thường bị giới hạn ở Từ chối dịch vụ, nhưng trong một số trường hợp nhất định, những lỗ hổng này có thể dẫn đến Thực thi mã tùy ý bằng cách tận dụng các kỹ thuật duyệt đường dẫn, cho phép những kẻ tấn công độc hại ghi đè lên các tệp thường được thực thi tự động.

Lỗ hổng khả năng mở rộng khung: Khung ML cung cấp nhiều cơ chế khả năng mở rộng vô tình tạo ra các vectơ tấn công nguy hiểm: các lớp tùy chỉnh, các phụ thuộc mã bên ngoài và tải mã dựa trên cấu hình. Ví dụ: CVE-2025-1550 trong Keras, được cộng đồng huntr báo cáo cho chúng tôi, chứng minh cách các lớp tùy chỉnh có thể bị khai thác để thực thi mã tùy ý bất chấp các tính năng bảo mật. Các tệp cấu hình có lỗ hổng tuần tự hóa tương tự cho phép tải mã động. Những lỗ hổng tuần tự hóa này làm cho các mô hình có thể bị khai thác thông qua các tải trọng được tạo thủ công được nhúng trong các định dạng mà người dùng tải mà không nghi ngờ gì. Bất chấp những cải tiến bảo mật từ các nhà cung cấp, các phiên bản dễ bị tấn công cũ hơn và việc xử lý phụ thuộc không an toàn tiếp tục gây ra rủi ro đáng kể trong hệ sinh thái ML.

Xâu chuỗi vectơ tấn công: Các báo cáo gần đây chứng minh cách nhiều lỗ hổng có thể được kết hợp để tạo ra các chuỗi tấn công phức tạp có thể bỏ qua việc phát hiện. Bằng cách khai thác tuần tự các lỗ hổng như tải trọng bị che giấu và cơ chế mở rộng, các nhà nghiên cứu đã chỉ ra các con đường phức tạp để thỏa hiệp có vẻ lành tính khi được kiểm tra riêng lẻ. Phương pháp này làm phức tạp đáng kể các nỗ lực phát hiện và giảm thiểu, vì các công cụ bảo mật tập trung vào các mối đe dọa vectơ đơn thường bỏ lỡ các cuộc tấn công hỗn hợp này. Phòng thủ hiệu quả đòi hỏi phải xác định và giải quyết tất cả các liên kết trong chuỗi tấn công thay vì xử lý từng lỗ hổng một cách riêng biệt.

Cung cấp Khả năng Phát hiện Mối đe dọa Toàn diện cho Người dùng Hugging Face

Nhóm nghiên cứu mối đe dọa Protect AI hàng đầu trong ngành, với sự giúp đỡ từ cộng đồng huntr, liên tục thu thập dữ liệu và thông tin chi tiết để phát triển các lần quét mô hình mới và mạnh mẽ hơn cũng như chặn mối đe dọa tự động (có sẵn cho khách hàng Guardian). Trong vài tháng qua, Guardian đã:

Tăng cường phát hiện các cuộc tấn công phụ thuộc vào thư viện: Mở rộng đáng kể khả năng quét của Guardian để phát hiện các vectơ tấn công phụ thuộc vào thư viện. Các trình quét cho PyTorch và Pickle hiện thực hiện phân tích cấu trúc sâu của mã được tuần tự hóa, kiểm tra đường dẫn thực thi và xác định các mẫu mã có khả năng độc hại có thể được kích hoạt thông qua các phụ thuộc thư viện. Ví dụ: các hàm torchvision.io của PyTorch có thể ghi đè bất kỳ tệp nào trên hệ thống của nạn nhân để bao gồm tải trọng hoặc xóa tất cả nội dung của nó. Guardian hiện có thể phát hiện nhiều hơn các chức năng nguy hiểm này trong các thư viện phổ biến như PyTorch, Numpy và Pandas.

Khám phá các cuộc tấn công bị che giấu: Guardian thực hiện phân tích đa lớp trên các định dạng lưu trữ khác nhau, giải nén các kho lưu trữ lồng nhau và kiểm tra các tải trọng được nén để tìm các mô hình độc hại. Phương pháp này phát hiện các nỗ lực ẩn mã độc thông qua các kỹ thuật nén, mã hóa hoặc tuần tự hóa. Joblib, ví dụ: hỗ trợ lưu các mô hình bằng các định dạng nén khác nhau có thể che giấu các lỗ hổng tuần tự hóa Pickle và điều tương tự có thể được thực hiện ở các định dạng khác như Keras, có thể bao gồm các tệp trọng số Numpy có tải trọng tuần tự hóa trong chúng.

Phát hiện các khai thác trong các thành phần khả năng mở rộng khung: Các mô-đun phát hiện không ngừng được cải thiện của Guardian đã cảnh báo người dùng trên Hugging Face về các mô hình bị ảnh hưởng bởi CVE-2025-1550 (một phát hiện bảo mật quan trọng) trước khi lỗ hổng được tiết lộ công khai. Các mô-đun phát hiện này phân tích toàn diện các cơ chế mở rộng khung ML, chỉ cho phép các thành phần tiêu chuẩn hoặc đã được xác minh và chặn các triển khai có khả năng nguy hiểm, bất kể ý định rõ ràng của chúng.

Xác định các backdoor kiến trúc bổ sung: Khả năng phát hiện backdoor kiến trúc của Guardian đã được mở rộng ra ngoài các định dạng ONNX để bao gồm các định dạng mô hình bổ sung như TensorFlow.

Mở rộng phạm vi phủ sóng định dạng mô hình: Sức mạnh thực sự của Guardian đến từ chiều sâu phạm vi phủ sóng của nó, điều này đã thúc đẩy sự mở rộng đáng kể của các mô-đun phát hiện để bao gồm các định dạng bổ sung như Joblib và định dạng llamafile ngày càng phổ biến, với hỗ trợ cho các khung ML bổ sung sắp ra mắt.

Cung cấp phân tích mô hình sâu hơn: Chủ động nghiên cứu các cách bổ sung để tăng cường khả năng phát hiện hiện tại để phân tích và phát hiện các mô hình không an toàn tốt hơn. Mong đợi sẽ thấy những cải tiến đáng kể trong việc giảm cả dương tính giả và âm tính giả trong tương lai gần.

Mọi thứ chỉ tốt hơn từ đây

Thông qua sự hợp tác với Protect AI và Hugging Face, chúng tôi đã làm cho các mô hình ML của bên thứ ba an toàn hơn và dễ tiếp cận hơn. Chúng tôi tin rằng việc có nhiều con mắt hơn về bảo mật mô hình chỉ có thể là một điều tốt. Chúng tôi ngày càng thấy thế giới bảo mật chú ý và tham gia, làm cho các mối đe dọa dễ khám phá hơn và việc sử dụng AI an toàn hơn cho tất cả mọi người.

AI Today - SkyAI