Mở rộng chương trình tiền thưởng lỗi về an toàn mô hình

Anthropic mở rộng chương trình tiền thưởng lỗi về an toàn mô hình, khuyến khích cộng đồng báo cáo các lỗ hổng tiềm ẩn và tăng cường an ninh.

November 10, 2025
6 min read

Anthropic mở rộng chương trình tiền thưởng lỗi về an toàn mô hình, khuyến khích cộng đồng báo cáo các lỗ hổng tiềm ẩn và tăng cường an ninh.

Mở rộng chương trình truy tìm lỗ hổng bảo mật mô hình AI

Sự phát triển nhanh chóng của các khả năng mô hình AI đòi hỏi các quy trình an toàn cũng phải tiến bộ tương xứng. Khi chúng tôi phát triển thế hệ hệ thống bảo vệ AI tiếp theo, chúng tôi đang mở rộng chương trình truy tìm lỗ hổng bảo mật (bug bounty) để giới thiệu một sáng kiến mới tập trung vào việc tìm kiếm các sai sót trong các biện pháp giảm thiểu mà chúng tôi sử dụng để ngăn chặn việc lạm dụng mô hình của mình.

Các chương trình truy tìm lỗ hổng bảo mật đóng vai trò quan trọng trong việc tăng cường an ninh và an toàn cho các hệ thống công nghệ. Sáng kiến mới của chúng tôi tập trung vào việc xác định và giảm thiểu các cuộc tấn công jailbreak phổ biến. Đây là những lỗ hổng có thể cho phép bỏ qua liên tục các rào cản an toàn của AI trên nhiều lĩnh vực. Bằng cách nhắm vào các jailbreak phổ biến, chúng tôi hướng tới giải quyết một số lỗ hổng nghiêm trọng nhất trong các lĩnh vực quan trọng, có rủi ro cao như CBRN (hóa học, sinh học, phóng xạ và hạt nhân) và an ninh mạng.

Chúng tôi rất mong muốn được hợp tác với cộng đồng toàn cầu gồm các nhà nghiên cứu bảo mật và an toàn trong nỗ lực này và mời các ứng viên quan tâm đăng ký tham gia chương trình của chúng tôi để đánh giá các biện pháp bảo vệ mới của chúng tôi.

Cách tiếp cận của chúng tôi

Cho đến nay, chúng tôi đã vận hành một chương trình truy tìm lỗ hổng bảo mật chỉ dành cho khách mời, hợp tác với HackerOne, nhằm thưởng cho các nhà nghiên cứu vì đã xác định các vấn đề về an toàn mô hình trong các mô hình AI được phát hành công khai của chúng tôi. Chương trình truy tìm lỗ hổng bảo mật mà chúng tôi công bố hôm nay sẽ kiểm tra hệ thống thế hệ tiếp theo mà chúng tôi đã phát triển cho các biện pháp giảm thiểu an toàn AI, hệ thống này chưa được triển khai công khai. Cách thức hoạt động như sau:

Truy cập sớm: Những người tham gia sẽ được cấp quyền truy cập sớm để kiểm tra hệ thống giảm thiểu an toàn mới nhất của chúng tôi trước khi triển khai công khai. Là một phần của hoạt động này, những người tham gia sẽ được thử thách xác định các lỗ hổng tiềm ẩn hoặc các cách thức để vượt qua các biện pháp an toàn của chúng tôi trong một môi trường được kiểm soát.
Phạm vi chương trình: Chúng tôi cung cấp phần thưởng lên tới 15.000 đô la cho các cuộc tấn công jailbreak phổ biến, mới lạ, có thể làm lộ các lỗ hổng trong các lĩnh vực quan trọng, có rủi ro cao như CBRN (hóa học, sinh học, phóng xạ và hạt nhân) và an ninh mạng. Như chúng tôi đã viết trước đây, một cuộc tấn công jailbreak trong AI đề cập đến một phương pháp được sử dụng để vượt qua các biện pháp an toàn và nguyên tắc đạo đức tích hợp của hệ thống AI, cho phép người dùng gợi ra các phản hồi hoặc hành vi từ AI mà thông thường sẽ bị hạn chế hoặc cấm. Jailbreak phổ biến là một loại lỗ hổng trong hệ thống AI cho phép người dùng bỏ qua các biện pháp an toàn một cách nhất quán trên nhiều chủ đề. Việc xác định và giảm thiểu các jailbreak phổ biến là trọng tâm chính của sáng kiến truy tìm lỗ hổng bảo mật này. Nếu bị khai thác, các lỗ hổng này có thể gây ra hậu quả sâu rộng trên nhiều lĩnh vực có hại, phi đạo đức hoặc nguy hiểm. Cuộc tấn công jailbreak sẽ được định nghĩa là phổ biến nếu nó có thể khiến mô hình trả lời một số lượng câu hỏi có hại cụ thể được xác định trước. Hướng dẫn chi tiết và phản hồi sẽ được chia sẻ với những người tham gia chương trình.

Tham gia

Sáng kiến truy tìm lỗ hổng bảo mật mô hình này sẽ bắt đầu với chương trình chỉ dành cho khách mời, hợp tác với HackerOne. Mặc dù ban đầu chỉ dành cho khách mời, chúng tôi có kế hoạch mở rộng sáng kiến này rộng rãi hơn trong tương lai. Giai đoạn ban đầu này sẽ cho phép chúng tôi tinh chỉnh quy trình của mình và phản hồi các đề xuất một cách kịp thời và mang tính xây dựng. Nếu bạn là một nhà nghiên cứu bảo mật AI có kinh nghiệm hoặc đã chứng tỏ được chuyên môn trong việc xác định các cuộc tấn công jailbreak trong các mô hình ngôn ngữ, chúng tôi khuyến khích bạn đăng ký lời mời thông qua biểu mẫu đăng ký của chúng tôi trước Thứ Sáu, ngày 16 tháng 8. Chúng tôi sẽ liên hệ với các ứng viên được chọn vào mùa thu này.

Trong thời gian chờ đợi, chúng tôi tích cực tìm kiếm mọi báo cáo về các mối lo ngại về an toàn mô hình để liên tục cải thiện các hệ thống hiện tại của chúng tôi. Nếu bạn đã xác định được một vấn đề an toàn tiềm ẩn trong các hệ thống hiện tại của chúng tôi, vui lòng báo cáo cho usersafety@anthropic.com với các chi tiết đủ để chúng tôi có thể tái tạo vấn đề. Để biết thêm thông tin, vui lòng tham khảo Chính sách tiết lộ có trách nhiệm.

Sáng kiến này phù hợp với các cam kết mà chúng tôi đã ký với các công ty AI khác về việc phát triển AI có trách nhiệm, chẳng hạn như Cam kết AI tự nguyện do Nhà Trắng công bố và Bộ Quy tắc Ứng xử cho các Tổ chức Phát triển Hệ thống AI Tiên tiến được phát triển thông qua Quy trình G7 Hiroshima. Mục tiêu của chúng tôi là giúp đẩy nhanh tiến bộ trong việc giảm thiểu các jailbreak phổ biến và tăng cường an toàn AI trong các lĩnh vực có rủi ro cao. Nếu bạn có chuyên môn trong lĩnh vực này, vui lòng tham gia cùng chúng tôi trong công việc quan trọng này. Sự đóng góp của bạn có thể đóng một vai trò quan trọng trong việc đảm bảo rằng khi khả năng của AI tiến bộ, các biện pháp an toàn của chúng tôi cũng theo kịp.

AI Today - SkyAI

Mở rộng chương trình tiền thưởng lỗi về an toàn mô hình

Mở rộng chương trình truy tìm lỗ hổng bảo mật mô hình AI

Cách tiếp cận của chúng tôi

Tham gia

Chia sẻ bài viết này

Bài viết liên quan

[Tin tức] Văn phòng mới tại Paris và Munich mở rộng sự hiện diện của Anthropic tại Châu Âu

[Tin tức] Ra mắt Chương trình Tương lai Kinh tế Anthropic tại Vương quốc Anh và Châu Âu

[Tin tức] Anthropic và Iceland công bố một trong những chương trình thí điểm giáo dục AI quốc gia đầu tiên trên thế giới

Link bài viết gốc