Kiểm tra các biện pháp phòng thủ an toàn của chúng tôi với chương trình tiền thưởng lỗi mới
Anthropic khởi động một chương trình tiền thưởng lỗi mới để chủ động kiểm tra và tăng cường các biện pháp phòng thủ an toàn của mình, đảm bảo sự ổn định của hệ thống.
- 3 min read
Kiểm tra các biện pháp phòng vệ an toàn với chương trình săn lỗi mới
Anthropic đã ra mắt một chương trình săn lỗi mới nhằm kiểm tra các biện pháp an toàn mới nhất của họ, hợp tác với HackerOne. Chương trình này sẽ kiểm tra phiên bản cập nhật của hệ thống Phân loại Lập hiến (Constitutional Classifiers) của Anthropic, một kỹ thuật được xây dựng để bảo vệ chống lại các cuộc tấn công “jailbreak” có thể dẫn đến việc tiết lộ thông tin liên quan đến vũ khí hóa học, sinh học, phóng xạ và hạt nhân (CBRN).
Nội dung chi tiết
Mục tiêu:
- Kiểm tra các biện pháp an toàn mới nhất của Anthropic.
- Tìm kiếm các lỗ hổng “jailbreak” có thể vượt qua các bộ phân loại an toàn chưa được triển khai công khai.
- Đảm bảo tuân thủ Tiêu chuẩn Triển khai An toàn AI Cấp 3 (ASL-3) theo Chính sách Mở rộng Có Trách nhiệm (Responsible Scaling Policy).
Đối tác:
- HackerOne
Kỹ thuật được kiểm tra:
- Hệ thống Phân loại Lập hiến (Constitutional Classifiers) được cập nhật.
- Kỹ thuật này tập trung vào việc ngăn chặn các cuộc tấn công liên quan đến vũ khí CBRN.
Cơ hội tham gia:
- Những người tham gia sẽ có quyền truy cập sớm để thử nghiệm bộ phân loại trên Claude 3.7 Sonnet.
- Phần thưởng lên tới 25.000 USD cho các lỗ hổng “jailbreak” phổ quát được xác minh trên hệ thống chưa được phát hành.
- Ưu tiên các lỗ hổng có thể bị khai thác để lạm dụng thông tin liên quan đến CBRN.
- Khuyến khích các chuyên gia an ninh mạng, red-teamer có kinh nghiệm đăng ký tham gia.
Thời gian:
- Đơn đăng ký mở từ ngày 14 tháng 5 năm 2025.
- Chương trình diễn ra đến hết Chủ nhật, ngày 18 tháng 5 năm 2025.
- Đây là chương trình chỉ dành cho lời mời để đảm bảo phản hồi kịp thời.
Cập nhật ngày 22 tháng 5 năm 2025:
- Chương trình săn lỗi đã kết thúc.
- Những người tham gia sẽ chuyển sang một chương trình mới, tập trung vào việc kiểm tra hệ thống Phân loại Lập hiến trên mô hình Claude Opus 4 và các hệ thống an toàn khác.
- Vẫn đang tiếp nhận đơn đăng ký cho chương trình mới này.
- Anthropic cũng đang tiếp nhận báo cáo về các lỗ hổng “jailbreak” phổ quát cho các trường hợp sử dụng ASL-3 liên quan đến các mối đe dọa sinh học được tìm thấy trên các nền tảng công khai hoặc diễn đàn.
Anthropic bày tỏ sự cảm ơn cộng đồng bảo mật vì đã hợp tác để làm cho các hệ thống AI an toàn hơn.
Kính lúp lớn với các ký hiệu mã trên nền kỹ thuật chi tiết
Link bài viết gốc
- Tags:
- Ai
- May 14, 2025
- Www.anthropic.com