Kiểm thử đỏ các mối đe dọa tiên phong cho An toàn AI

Anthropic thảo luận về tầm quan trọng của việc kiểm thử đỏ trong việc xác định và giảm thiểu các mối đe dọa tiềm ẩn từ các hệ thống AI tiên phong.

  • 12 min read
Anthropic thảo luận về tầm quan trọng của việc kiểm thử đỏ trong việc xác định và giảm thiểu các mối đe dọa tiềm ẩn từ các hệ thống AI tiên phong.

Các mối đe dọa biên giới trong Red Teaming vì an toàn AI

Anthropic là một công ty nghiên cứu và an toàn AI đang làm việc để xây dựng các hệ thống AI đáng tin cậy, có thể diễn giải và dễ điều khiển.

Đội ngũ An ninh mạng và An toàn AI của Anthropic

“Red teaming”, hay kiểm thử đối kháng, là một kỹ thuật được công nhận để đo lường và tăng cường sự an toàn, bảo mật của các hệ thống. Mặc dù nghiên cứu trước đây của Anthropic đã báo cáo các phương pháp và kết quả cho red teaming sử dụng người làm việc cho dự án, nhưng trong một thời gian dài, các nhà nghiên cứu AI đã nhận thấy rằng các mô hình AI cuối cùng có thể đạt được khả năng trong các lĩnh vực liên quan đến an ninh quốc gia. Ví dụ, các nhà nghiên cứu đã kêu gọi đo lường và giám sát những rủi ro này, và đã viết các bài báo có bằng chứng về rủi ro. CEO của Anthropic, Dario Amodei, cũng nhấn mạnh chủ đề này trong lời khai gần đây trước Thượng viện. Với bối cảnh đó, chúng tôi rất vui mừng được ủng hộ và tham gia vào các cam kết được công bố tại Nhà Trắng vào ngày 21 tháng 7, bao gồm cả việc “kiểm tra an ninh nội bộ và bên ngoài [các] hệ thống AI [của chúng tôi]” để bảo vệ chống lại “một số nguồn rủi ro AI đáng kể nhất, chẳng hạn như an ninh sinh học và an ninh mạng.” Tuy nhiên, red teaming trong các lĩnh vực chuyên biệt này đòi hỏi đầu tư đáng kể về thời gian và chuyên môn của các nhà khoa học.

Trong bài đăng này, chúng tôi chia sẻ cách tiếp cận của mình đối với “red teaming các mối đe dọa biên giới”, những phát hiện cấp cao từ một dự án chúng tôi đã thực hiện về rủi ro sinh học như một dự án thử nghiệm, những bài học kinh nghiệm và kế hoạch tương lai của chúng tôi trong lĩnh vực này.

Mục tiêu của chúng tôi trong công việc này là đánh giá mức độ rủi ro cơ bản và tạo ra một cách lặp lại để thực hiện red teaming các mối đe dọa biên giới trên nhiều lĩnh vực. Đối với lĩnh vực sinh học, mặc dù chi tiết về những phát hiện của chúng tôi rất nhạy cảm, chúng tôi tin rằng việc chia sẻ những hiểu biết của mình từ công việc này là quan trọng. Tóm lại, làm việc với các chuyên gia, chúng tôi nhận thấy rằng các mô hình có thể sớm gây ra rủi ro cho an ninh quốc gia nếu không được giảm thiểu. Tuy nhiên, chúng tôi cũng nhận thấy rằng có các biện pháp giảm thiểu để giảm đáng kể những rủi ro này.

Chúng tôi hiện đang mở rộng quy mô công việc này để xác định rủi ro một cách đáng tin cậy và xây dựng các biện pháp giảm thiểu. Chúng tôi tin rằng việc cải thiện red teaming các mối đe dọa biên giới sẽ mang lại lợi ích tức thời và đóng góp cho sự an toàn AI lâu dài. Chúng tôi đã chia sẻ những phát hiện của mình với chính phủ, các phòng thí nghiệm và các bên liên quan khác, và chúng tôi mong muốn thấy nhiều nhóm độc lập hơn thực hiện công việc này.

Tiến hành red teaming các mối đe dọa biên giới

Red teaming các mối đe dọa biên giới đòi hỏi phải đầu tư nỗ lực đáng kể để khám phá các khả năng tiềm ẩn của mô hình. Điểm khởi đầu quan trọng nhất đối với chúng tôi là làm việc với các chuyên gia trong lĩnh vực có hàng thập kỷ kinh nghiệm. Cùng nhau, chúng tôi bắt đầu bằng cách xác định các mô hình mối đe dọa: loại thông tin nào nguy hiểm, thông tin đó được kết hợp như thế nào để tạo ra tác hại và mức độ chính xác, tần suất cần thiết để nó trở nên nguy hiểm. Ví dụ, để tạo ra tác hại, thường cần phải nối chuỗi nhiều mẩu thông tin chính xác, không chỉ đơn giản là tạo ra một đầu ra nghe có vẻ nguy hiểm.

Sau một kế hoạch nghiên cứu được xác định rõ ràng, các chuyên gia về chủ đề và chuyên gia LLM sẽ cần cùng nhau dành một khoảng thời gian đáng kể (tức là hơn 100 giờ) làm việc chặt chẽ với các mô hình để thăm dò và hiểu các khả năng thực sự của chúng trong một lĩnh vực mục tiêu. Ví dụ, các chuyên gia lĩnh vực có thể cần học cách tốt nhất để tương tác hoặc “bẻ khóa” các mô hình.

Một mục tiêu quan trọng là xây dựng các đánh giá tự động mới dựa trên kiến thức chuyên môn và các công cụ để chạy các đánh giá đó để làm cho chúng có thể lặp lại và có thể mở rộng quy mô. Tuy nhiên, một thách thức là thông tin này có khả năng nhạy cảm. Do đó, loại red teaming này đòi hỏi quan hệ đối tác với các bên thứ ba đáng tin cậy và các biện pháp bảo mật thông tin mạnh mẽ.

Kết quả từ red teaming lĩnh vực sinh học

Trong sáu tháng qua, chúng tôi đã dành hơn 150 giờ với các chuyên gia hàng đầu về an ninh sinh học để thực hiện red teaming và đánh giá khả năng của mô hình chúng tôi trong việc cung cấp thông tin sinh học có hại, chẳng hạn như thiết kế và thu thập vũ khí sinh học. Những chuyên gia này đã học cách trò chuyện, bẻ khóa và đánh giá mô hình của chúng tôi. Chúng tôi đã phát triển các đánh giá định lượng về khả năng của mô hình. Các chuyên gia đã sử dụng một giao diện an toàn, tùy chỉnh cho mô hình của chúng tôi mà không có các công cụ giám sát và thực thi độ tin cậy và an toàn đang hoạt động trên các triển khai công khai của chúng tôi.

Chúng tôi đã phát hiện ra một vài mối lo ngại chính. Đầu tiên là các mô hình biên giới hiện tại đôi khi có thể cung cấp kiến thức tinh vi, chính xác, hữu ích và chi tiết ở cấp độ chuyên gia. Ở hầu hết các lĩnh vực chúng tôi nghiên cứu, điều này không xảy ra thường xuyên. Ở các lĩnh vực khác, thì có. Tuy nhiên, chúng tôi đã tìm thấy những dấu hiệu cho thấy các mô hình càng lớn thì càng có khả năng hơn. Chúng tôi cũng nghĩ rằng các mô hình có quyền truy cập vào các công cụ có thể nâng cao khả năng của chúng trong lĩnh vực sinh học. Tổng hợp lại, chúng tôi nghĩ rằng các LLM không được giảm thiểu có thể đẩy nhanh nỗ lực của kẻ xấu trong việc lạm dụng sinh học so với việc chỉ có quyền truy cập internet, và cho phép chúng hoàn thành các tác vụ mà chúng không thể làm nếu không có LLM. Hai tác động này có khả năng nhỏ ngày hôm nay, nhưng đang phát triển tương đối nhanh. Nếu không được giảm thiểu, chúng tôi lo ngại rằng những loại rủi ro này là gần hạn, có nghĩa là chúng có thể được hiện thực hóa trong hai đến ba năm tới, thay vì năm năm hoặc hơn.

Tuy nhiên, quá trình nghiên cứu những rủi ro này cũng cho phép phát hiện và triển khai các biện pháp giảm thiểu cho chúng. Ví dụ, chúng tôi nhận thấy rằng những thay đổi đơn giản trong quy trình đào tạo có ý nghĩa giảm thiểu các đầu ra có hại bằng cách cho phép mô hình phân biệt tốt hơn giữa việc sử dụng sinh học có hại và vô hại (xem, ví dụ, công việc của chúng tôi về AI Lập hiến). Chúng tôi cũng nhận thấy rằng các bộ lọc dựa trên bộ phân loại có thể làm cho kẻ xấu khó có được loại thông tin nhiều mảnh, được nối chuỗi và ở cấp độ chuyên gia cần thiết để gây hại. Những điều này hiện đã được triển khai trong mô hình biên giới hướng tới công chúng của chúng tôi, và chúng tôi đã xác định được một danh sách các biện pháp giảm thiểu ở mọi bước của quy trình phát triển và triển khai mô hình mà chúng tôi sẽ tiếp tục thử nghiệm.

Nghiên cứu trong tương lai

Vào cuối dự án, chúng tôi hiện có nhiều thử nghiệm và đánh giá hơn mà chúng tôi muốn thực hiện so với khi bắt đầu. Ví dụ, chúng tôi nghĩ rằng một thử nghiệm rất quan trọng cần lặp đi lặp lại sẽ là đo lường tốc độ mà các LLM có thể cung cấp để tạo ra tác hại so với, ví dụ, một công cụ tìm kiếm. Và chúng ta nên thực hiện điều đó không chỉ với các mô hình biên giới ngày nay, mà còn với các mô hình tương lai – ví dụ, các mô hình thế hệ tiếp theo, các mô hình sử dụng công cụ và các mô hình đa phương thức.

Do phát hiện của chúng tôi rằng các mô hình biên giới ngày nay cung cấp cảnh báo về các rủi ro gần tương lai, các nhà phát triển mô hình biên giới nên tập thể và khẩn trương thực hiện nhiều phân tích hơn và phát triển nhiều biện pháp giảm thiểu mạnh mẽ hơn, chia sẻ thông tin này với các nhà phát triển ngành có trách nhiệm để họ có thể bổ sung các biện pháp bảo vệ cho mô hình của họ, và với các cơ quan chính phủ được chọn.

Chúng ta cũng nên chuẩn bị cho khả năng phát hành các mô hình chưa được red teaming các mối đe dọa biên giới. Chúng tôi nghi ngờ rằng nếu không có các phương pháp giảm thiểu mới, những kẻ xấu có thể trích xuất các khả năng sinh học có hại bằng các mô hình nhỏ hơn, được tinh chỉnh hoặc chuyên biệt hóa được điều chỉnh từ trọng số của các mô hình có sẵn công khai nếu các mô hình cơ sở đủ mạnh được phát hành.

Chúng tôi đang mở rộng quy mô và hỗ trợ công việc này

Công việc thực nghiệm này xác nhận rằng red teaming các mối đe dọa biên giới trong các lĩnh vực an ninh quốc gia là quan trọng và kịp thời. Các mô hình hiện tại chỉ thể hiện những dấu hiệu ban đầu của loại rủi ro này, điều này làm cho đây là cơ hội của chúng tôi để đánh giá các rủi ro mới nổi và giảm thiểu chúng trước khi chúng trở nên nghiêm trọng. Điều quan trọng là phải tăng cường nỗ lực trước một thế hệ mô hình tiếp theo sử dụng các công cụ mới. May mắn thay, đã có một kho kiến thức chuyên môn phong phú trong các cộng đồng an ninh quốc gia để khai thác, có thể giúp xây dựng các mô hình mối đe dọa, đánh giá và biện pháp giảm thiểu.

Đây cũng là một lĩnh vực mà chính phủ quen thuộc một cách tự nhiên. Điều này có nghĩa là an ninh quốc gia là một lĩnh vực mà chính phủ, các phòng thí nghiệm và các bên liên quan khác có thể hợp tác. Để bắt đầu, chúng tôi đang thiết lập một quy trình tiết lộ mà theo đó các phòng thí nghiệm và các bên liên quan khác có thể báo cáo những rủi ro này và các biện pháp giảm thiểu của họ cho các bên liên quan khác. Cuối cùng, chúng tôi nghĩ rằng rất quan trọng là phải thiết lập các bên thứ ba mới để thực hiện đánh giá an ninh quốc gia giữa các bên liên quan này. Các bên thứ ba này sẽ không thiên vị và sẽ cần có các biện pháp bảo vệ phù hợp để xử lý thông tin nhạy cảm.

Chương trình nghiên cứu red teaming các mối đe dọa biên giới có khả năng hữu ích cho các loại rủi ro khác có vẻ sắp xảy ra trong thời gian dài hơn, chẳng hạn như lừa đảo. Để xác định và giảm thiểu những rủi ro này, các nhà phát triển phải xác định các khả năng trong tương lai mà mô hình không nên có, đo lường chúng và xây dựng các biện pháp giảm thiểu hoặc kỹ thuật căn chỉnh. Kết quả là, chúng ta sẽ tìm hiểu về sự căn chỉnh, các biện pháp bảo mật và “những cảnh báo sớm”.

Anthropic đang xây dựng đội ngũ nghiên cứu red teaming các mối đe dọa biên giới của chúng tôi. Đội ngũ này sẽ thử nghiệm các khả năng trong tương lai để hiểu các rủi ro sắp tới và xây dựng các đánh giá và biện pháp giảm thiểu có thể mở rộng quy mô. Bạn có thể tìm hiểu thêm về công việc này và cách ứng tuyển để tham gia nhóm tại đây. Chúng tôi đang tìm kiếm những nhà nghiên cứu kỹ thuật có động lực cao, những người có thể nhanh chóng tạo mẫu trên cơ sở hạ tầng của chúng tôi.

Chúng tôi cũng đang cung cấp thông tin chi tiết về những gì chúng tôi đã tìm thấy cho chính phủ và các phòng thí nghiệm. Chúng tôi sẵn sàng chia sẻ những phát hiện hiện tại và tương lai của mình với các đối tượng thích hợp và đang thí điểm một quy trình tiết lộ có trách nhiệm giữa các bên liên quan trong cộng đồng để báo cáo rủi ro và biện pháp giảm thiểu. Chúng tôi đặc biệt quan tâm đến việc hỗ trợ các nhóm khác – đặc biệt là các phòng thí nghiệm hoặc tổ chức đánh giá của bên thứ ba mới – để thực hiện nhiều công việc này hơn. Nếu bạn là một trong những bên liên quan này và quan tâm, vui lòng liên hệ với chúng tôi.

Recommended for You

Anthropic Ký cam kết của Nhà Trắng với Thanh niên Hoa Kỳ- Đầu tư vào Giáo dục AI

Anthropic Ký cam kết của Nhà Trắng với Thanh niên Hoa Kỳ- Đầu tư vào Giáo dục AI

Anthropic tham gia cùng Nhà Trắng và các tổ chức khác trong cam kết đầu tư vào giáo dục AI cho giới trẻ Mỹ, thúc đẩy tương lai của lực lượng lao động.

Anthropic bổ nhiệm Guillaume Princen làm Trưởng bộ phận EMEA và công bố hơn 100 vị trí mới trong khu vực

Anthropic bổ nhiệm Guillaume Princen làm Trưởng bộ phận EMEA và công bố hơn 100 vị trí mới trong khu vực

Anthropic chào đón Guillaume Princen đảm nhận vai trò Trưởng bộ phận EMEA, đồng thời công bố kế hoạch tuyển dụng mở rộng trong khu vực.