Dân chủ hóa An toàn AI với RiskRubric.ai

  • 7 min read
Dân chủ hóa An toàn AI với RiskRubric.ai

Dân chủ hóa An toàn AI với RiskRubric.ai

Xây dựng lòng tin vào hệ sinh thái mô hình mở thông qua đánh giá rủi ro tiêu chuẩn

Hơn 500.000 mô hình có thể được tìm thấy trên Hugging Face Hub, nhưng không phải lúc nào người dùng cũng rõ ràng về cách chọn mô hình tốt nhất cho họ, đặc biệt là về các khía cạnh bảo mật. Các nhà phát triển có thể tìm thấy một mô hình hoàn toàn phù hợp với trường hợp sử dụng của họ, nhưng không có cách hệ thống nào để đánh giá tư thế bảo mật, các tác động về quyền riêng tư hoặc các chế độ lỗi tiềm ẩn của nó.

Khi các mô hình trở nên mạnh mẽ hơn và việc áp dụng tăng tốc, chúng ta cần tiến bộ nhanh chóng tương đương trong báo cáo an toàn và bảo mật AI. Do đó, chúng tôi rất vui mừng thông báo về RiskRubric.ai, một sáng kiến mới do Cloud Security Alliance và Noma Security dẫn đầu, với sự đóng góp của Haize Labs và Harmonic Security, để đánh giá rủi ro minh bạch và tiêu chuẩn trong hệ sinh thái mô hình AI.

Risk Rubric, một Đánh giá Rủi ro Tiêu chuẩn mới cho các mô hình

RiskRubric.ai cung cấp điểm rủi ro nhất quán, có thể so sánh được trên toàn bộ bối cảnh mô hình, bằng cách đánh giá các mô hình trên sáu trụ cột: tính minh bạch, độ tin cậy, bảo mật, quyền riêng tư, an toàn và danh tiếng.

Cách tiếp cận của nền tảng phù hợp hoàn hảo với các giá trị mã nguồn mở: nghiêm ngặt, minh bạch và có thể tái tạo. Sử dụng các khả năng của Noma Security để tự động hóa nỗ lực này, mỗi mô hình trải qua:

  • Hơn 1.000 bài kiểm tra độ tin cậy kiểm tra tính nhất quán và xử lý các trường hợp đặc biệt
  • Hơn 200 thăm dò bảo mật đối kháng để bẻ khóa và tiêm prompt
  • Quét mã tự động các thành phần mô hình
  • Đánh giá tài liệu toàn diện về dữ liệu và phương pháp đào tạo
  • Đánh giá quyền riêng tư bao gồm giữ lại dữ liệu và thử nghiệm rò rỉ
  • Đánh giá an toàn thông qua các bài kiểm tra nội dung có hại có cấu trúc

Những đánh giá này tạo ra điểm số từ 0-100 cho mỗi trụ cột rủi ro, tổng hợp thành các điểm chữ A-F rõ ràng. Mỗi đánh giá cũng bao gồm các lỗ hổng cụ thể được tìm thấy, các biện pháp giảm thiểu được đề xuất và các đề xuất cải tiến.

RiskRubric cũng đi kèm với các bộ lọc để giúp các nhà phát triển và tổ chức đưa ra quyết định triển khai dựa trên những gì quan trọng đối với họ. Cần một mô hình có đảm bảo quyền riêng tư mạnh mẽ cho các ứng dụng chăm sóc sức khỏe? Lọc theo điểm số quyền riêng tư. Xây dựng một ứng dụng hướng đến khách hàng đòi hỏi đầu ra nhất quán? Ưu tiên xếp hạng độ tin cậy.

Những gì chúng tôi tìm thấy (tính đến tháng 9 năm 2025)

Đánh giá cả mô hình mở và đóng với các tiêu chuẩn chính xác tương tự đã làm nổi bật một số kết quả thú vị: nhiều mô hình mở thực sự vượt trội so với các đối tác đóng của chúng về các khía cạnh rủi ro cụ thể (đặc biệt là tính minh bạch, nơi các phương pháp phát triển mở tỏa sáng).

Hãy xem các xu hướng chung:

Phân phối rủi ro bị phân cực - hầu hết các mô hình đều mạnh, nhưng điểm số tầm trung cho thấy mức độ phơi nhiễm cao

total_score

Tổng điểm rủi ro dao động từ 47 đến 94, với giá trị trung bình là 81 (trên 100 điểm). Hầu hết các mô hình tập trung trong phạm vi “an toàn hơn” (54% ở cấp độ A hoặc B), nhưng một đuôi dài những người kém hiệu quả kéo mức trung bình xuống. Sự phân chia đó cho thấy sự phân cực: các mô hình có xu hướng được bảo vệ tốt hoặc nằm trong phạm vi điểm số trung bình, với ít hơn ở giữa.

Các mô hình tập trung trong dải 50–67 (phạm vi C/D) không hoàn toàn bị hỏng, nhưng chúng chỉ cung cấp khả năng bảo vệ tổng thể từ trung bình đến thấp. Dải này đại diện cho khu vực quan tâm thiết thực nhất, nơi các lỗ hổng bảo mật đủ quan trọng để đảm bảo ưu tiên.

Điều này có nghĩa là gì: Đừng cho rằng mô hình “trung bình” là an toàn. Đuôi của những người hoạt động yếu là có thật - và đó là nơi kẻ tấn công sẽ tập trung vào. Các nhóm có thể sử dụng điểm tổng hợp để đặt ngưỡng tối thiểu (ví dụ: 75) cho việc mua sắm hoặc triển khai, đảm bảo rằng các giá trị ngoại lai không xâm nhập vào sản xuất.

Rủi ro an toàn là “yếu tố xoay vòng” - nhưng nó theo dõi chặt chẽ tư thế bảo mật

safety_histogram

Trụ cột An toàn & Xã hội (ví dụ: ngăn chặn đầu ra có hại) cho thấy sự khác biệt lớn nhất giữa các mô hình. Điều quan trọng là, các mô hình đầu tư vào tăng cường bảo mật (phòng thủ tiêm prompt, thực thi chính sách) hầu như luôn đạt điểm cao hơn về an toàn.

Điều này có nghĩa là gì: Tăng cường các biện pháp kiểm soát bảo mật cốt lõi không chỉ ngăn chặn bẻ khóa, mà còn trực tiếp giảm thiểu tác hại ở hạ lưu! An toàn có vẻ như là một sản phẩm phụ của tư thế bảo mật mạnh mẽ.

Các biện pháp bảo vệ có thể làm xói mòn tính minh bạch - trừ khi bạn thiết kế cho nó

Các biện pháp bảo vệ nghiêm ngặt hơn thường làm cho các mô hình kém minh bạch hơn đối với người dùng cuối (ví dụ: từ chối mà không có giải thích, ranh giới ẩn). Điều này có thể tạo ra một khoảng cách tin cậy: người dùng có thể coi hệ thống là “mờ đục” ngay cả khi nó an toàn.

Điều này có nghĩa là gì: Bảo mật không nên phải trả giá bằng lòng tin. Để cân bằng cả hai, hãy ghép nối các biện pháp bảo vệ mạnh mẽ với từ chối giải thích, tín hiệu xuất xứ và khả năng kiểm tra. Điều này duy trì tính minh bạch mà không nới lỏng các biện pháp phòng thủ.

Có thể truy cập bảng kết quả cập nhật tại đây.

Kết luận

Khi các đánh giá rủi ro được công khai và tiêu chuẩn hóa, toàn bộ cộng đồng có thể làm việc cùng nhau để cải thiện sự an toàn của mô hình. Các nhà phát triển có thể thấy chính xác nơi các mô hình của họ cần được tăng cường và cộng đồng có thể đóng góp các bản sửa lỗi, bản vá và các biến thể tinh chỉnh an toàn hơn. Điều này tạo ra một chu kỳ cải tiến minh bạch đức hạnh, điều này là không thể với các hệ thống đóng. Nó cũng giúp cộng đồng nói chung hiểu những gì hoạt động và không hoạt động, về mặt an toàn, bằng cách nghiên cứu các mô hình tốt nhất.

Nếu bạn muốn tham gia vào sáng kiến này, bạn có thể gửi mô hình của mình để đánh giá (hoặc đề xuất các mô hình hiện có!) để hiểu hồ sơ rủi ro của chúng!

Chúng tôi cũng hoan nghênh tất cả phản hồi về phương pháp đánh giá và khung chấm điểm

Recommended for You

Chào mừng EmbeddingGemma, mô hình nhúng hiệu quả mới của Google

Chào mừng EmbeddingGemma, mô hình nhúng hiệu quả mới của Google

Các thủ thuật từ OpenAI gpt-oss mà BẠN 🫵 có thể sử dụng với transformers

Các thủ thuật từ OpenAI gpt-oss mà BẠN 🫵 có thể sử dụng với transformers