Tiến bộ từ Đội Đỏ Tiên phong của chúng tôi

Anthropic chia sẻ những hiểu biết và tiến bộ từ các hoạt động Đội Đỏ Tiên phong của mình, tập trung vào việc xác định và giảm thiểu các rủi ro AI.

  • 11 min read
Tiến bộ từ Đội Đỏ Tiên phong của chúng tôi
Anthropic chia sẻ những hiểu biết và tiến bộ từ các hoạt động Đội Đỏ Tiên phong của mình, tập trung vào việc xác định và giảm thiểu các rủi ro AI.

Tiến bộ từ Đội Đỏ Biên giới của chúng tôi

Trong bài viết này, chúng tôi chia sẻ những gì đã học được về quỹ đạo của các rủi ro an ninh quốc gia tiềm ẩn từ các mô hình AI biên giới, cùng với một số suy nghĩ về các thách thức và phương pháp hay nhất trong việc đánh giá những rủi ro này. Thông tin trong bài viết này dựa trên công việc chúng tôi đã thực hiện trong năm qua trên bốn bản phát hành mô hình. Đánh giá của chúng tôi là các mô hình AI đang cho thấy các dấu hiệu “cảnh báo sớm” về sự tiến bộ nhanh chóng trong các khả năng sử dụng kép quan trọng: các mô hình đang tiếp cận, và trong một số trường hợp vượt qua, các kỹ năng ở cấp độ sinh viên đại học về an ninh mạng và kiến thức chuyên môn ở một số lĩnh vực sinh học. Tuy nhiên, các mô hình hiện tại vẫn chưa đạt đến ngưỡng mà chúng tôi coi là tạo ra rủi ro đáng kể cho an ninh quốc gia.

AI đang cải thiện nhanh chóng trên nhiều lĩnh vực

Mặc dù khả năng của AI đang tiến bộ nhanh chóng trong nhiều lĩnh vực, điều quan trọng cần lưu ý là các rủi ro trong thế giới thực phụ thuộc vào nhiều yếu tố ngoài bản thân AI. Các hạn chế về vật lý, thiết bị chuyên dụng, chuyên môn của con người và các thách thức thực tế trong triển khai đều là những rào cản đáng kể, ngay cả khi AI được cải thiện trong các tác vụ đòi hỏi trí thông minh và kiến thức. Với bối cảnh này, đây là những gì chúng tôi đã học được về sự tiến bộ của khả năng AI trong các lĩnh vực chính.

An ninh mạng

Trong lĩnh vực an ninh mạng, năm 2024 là một khoảnh khắc “từ không đến có”. Trong các bài kiểm tra Capture The Flag (CTF) — các thử thách an ninh mạng liên quan đến việc tìm kiếm và khai thác các lỗ hổng phần mềm trong môi trường được kiểm soát — Claude đã cải thiện từ cấp độ học sinh trung học lên cấp độ sinh viên đại học chỉ trong một năm.

Chúng tôi tin tưởng rằng điều này phản ánh sự cải thiện thực sự về khả năng vì chúng tôi đã phát triển các thử thách bổ sung để đảm bảo chúng không vô tình có trong dữ liệu đào tạo của mô hình.

Sự cải thiện này về khả năng an ninh mạng đã tiếp tục với mô hình mới nhất của chúng tôi, Claude 3.7 Sonnet. Trên Cybench — một điểm chuẩn công khai sử dụng các thử thách CTF để đánh giá LLM — Claude 3.7 Sonnet giải quyết khoảng một phần ba các thử thách trong vòng năm lần thử, tăng từ khoảng năm phần trăm với mô hình biên giới của chúng tôi vào thời điểm này năm ngoái (xem Hình 2).

Những cải tiến này đang diễn ra trên các danh mục khác nhau của các tác vụ an ninh mạng. Hình 3 cho thấy sự cải thiện qua các thế hệ mô hình trên các loại CTF khác nhau, yêu cầu khám phá và khai thác lỗ hổng trong phần mềm không an toàn trên máy chủ từ xa (“pwn”), ứng dụng web (“web”) và các nguyên tắc và giao thức mật mã (“crypto”). Tuy nhiên, kỹ năng của Claude vẫn còn kém hơn con người chuyên nghiệp. Ví dụ, nó tiếp tục gặp khó khăn trong việc kỹ thuật đảo ngược các tệp thực thi nhị phân để tìm các lỗ hổng ẩn và thực hiện trinh sát và khai thác trong môi trường mạng — ít nhất là khi không có một chút trợ giúp.

Làm việc với các chuyên gia bên ngoài tại Đại học Carnegie Mellon, chúng tôi đã tiến hành các thí nghiệm trên các phạm vi an ninh mạng thực tế, lớn (~50 máy chủ) để kiểm tra khả năng của mô hình trong việc khám phá và khai thác các lỗ hổng trong phần mềm không an toàn và lây nhiễm, di chuyển ngang qua mạng. Hơn cả các bài kiểm tra CTF truyền thống, các thử thách này mô phỏng sự phức tạp của một hoạt động an ninh mạng thực tế bằng cách yêu cầu mô hình cũng có khả năng thực hiện trinh sát và điều phối một cuộc tấn công an ninh mạng nhiều giai đoạn. Hiện tại, các mô hình không có khả năng hoạt động thành công trong môi trường mạng này một cách tự động. Nhưng khi được trang bị một bộ công cụ phần mềm được xây dựng bởi các nhà nghiên cứu an ninh mạng, Claude (và các LLM khác) đã có thể sử dụng các hướng dẫn đơn giản để tái hiện thành công một cuộc tấn công tương tự như một vụ trộm quy mô lớn thông tin cá nhân đã biết từ một cơ quan báo cáo tín dụng.

Cơ sở hạ tầng đánh giá này cho phép chúng tôi cảnh báo khi khả năng tự động của mô hình được cải thiện, đồng thời có khả năng giúp cải thiện tiện ích của AI cho phòng thủ mạng, một con đường mà các phòng thí nghiệm khác cũng đang theo đuổi với kết quả đầy hứa hẹn.

An ninh sinh học

Bài viết trước của chúng tôi đã tập trung sâu vào các đánh giá an ninh sinh học của chúng tôi và chúng tôi đã tiếp tục công việc này. Chúng tôi đã chứng kiến sự tiến bộ nhanh chóng trong sự hiểu biết của các mô hình về sinh học. Trong vòng một năm, Claude đã chuyển từ việc hoạt động kém hơn các chuyên gia vi rút học hàng đầu thế giới trong một đánh giá được thiết kế để kiểm tra các tình huống khắc phục sự cố phổ biến trong môi trường phòng thí nghiệm sang vượt qua đường cơ sở đó một cách thoải mái (xem Hình 5).

Tuy nhiên, khả năng của Claude trong lĩnh vực sinh học vẫn còn không đồng đều. Ví dụ, các thử nghiệm nội bộ các câu hỏi đánh giá các kỹ năng của mô hình liên quan đến nghiên cứu thực nghiệm cho thấy các mô hình của chúng tôi đang tiếp cận các đường cơ sở chuyên gia của con người trong việc hiểu các quy trình sinh học và thao tác chuỗi DNA và protein. Mô hình mới nhất của chúng tôi vượt qua các đường cơ sở chuyên gia của con người trong quy trình nhân bản. Các mô hình vẫn kém hơn chuyên gia con người trong việc giải thích các hình vẽ khoa học.

Để đánh giá mức độ mà chuyên môn sinh học đang phát triển nhưng không đồng đều này chuyển thành rủi ro an ninh sinh học, chúng tôi đã tiến hành các nghiên cứu nhỏ, có kiểm soát về các tác vụ liên quan đến vũ khí hóa và hợp tác với các chuyên gia phòng thủ sinh học hàng đầu thế giới. Trong một nghiên cứu thực nghiệm, chúng tôi nhận thấy rằng mô hình gần đây nhất của chúng tôi đã mang lại một số lợi ích cho người mới bắt đầu so với những người tham gia khác không có quyền truy cập vào mô hình. Tuy nhiên, ngay cả kế hoạch đạt điểm cao nhất từ người tham gia có quyền truy cập vào mô hình vẫn bao gồm những sai sót nghiêm trọng sẽ dẫn đến thất bại trong thế giới thực.

Tương tự, kết luận của đội ngũ đỏ chuyên gia là trái chiều. Một số chuyên gia xác định sự cải thiện trong kiến thức của mô hình về một số khía cạnh của vũ khí hóa, trong khi những người khác lưu ý rằng số lượng lỗi nghiêm trọng trong kế hoạch của mô hình là quá cao để dẫn đến thành công trong việc thực hiện tấn công từ đầu đến cuối. Nhìn chung, phân tích này cho thấy các mô hình của chúng tôi không thể hướng dẫn một cách đáng tin cậy một tác nhân độc hại mới bắt đầu thông qua các bước thực tế chính trong việc mua lại vũ khí sinh học. Tuy nhiên, với sự cải thiện nhanh chóng, chúng tôi tiếp tục đầu tư mạnh vào việc giám sát các rủi ro an ninh sinh học và phát triển các biện pháp giảm thiểu, chẳng hạn như công việc gần đây của chúng tôi về bộ phân loại hiến pháp, để chúng tôi sẵn sàng nếu và khi các mô hình đạt đến các cấp độ hiệu suất đáng lo ngại hơn.

Lợi ích của việc hợp tác để cảnh báo chiến lược: phát triển AI nhanh chóng, có trách nhiệm

Một lợi ích quan trọng của công việc này là nó giúp chúng tôi tiến nhanh hơn, không chậm lại. Bằng cách phát triển các kế hoạch đánh giá trước và cam kết với các ngưỡng khả năng sẽ thúc đẩy các cấp độ bảo mật tăng lên, công việc của Đội Đỏ Biên giới của Anthropic nâng cao khả năng của chúng tôi trong việc đẩy biên giới của AI một cách nhanh chóng và với sự tự tin rằng chúng tôi đang làm điều đó một cách có trách nhiệm.

Công việc này — đặc biệt là khi được thực hiện với sự hợp tác của chính phủ — dẫn đến những cải tiến cụ thể về bảo mật và tạo ra thông tin hữu ích cho các quan chức chính phủ. Thông qua các thỏa thuận tự nguyện, có lợi cho cả hai bên, các mô hình của chúng tôi đã trải qua quá trình kiểm tra trước khi triển khai bởi cả Viện An toàn AI Hoa KỳViện An ninh AI Vương quốc Anh (AISI). Việc kiểm tra gần đây nhất của AISI đã đóng góp vào sự hiểu biết của chúng tôi về các khả năng liên quan đến an ninh quốc gia của Claude 3.7 Sonnet, và chúng tôi đã sử dụng phân tích này để cung cấp thông tin cho việc xác định Cấp độ An toàn AI (ASL) của chúng tôi cho mô hình.

Anthropic cũng đi tiên phong trong một quan hệ đối tác đầu tiên thuộc loại này với Cơ quan An ninh Hạt nhân Quốc gia (NNSA) — một bộ phận của Bộ Năng lượng Hoa Kỳ (DOE) — đang đánh giá Claude trong một môi trường mật để thu thập kiến thức liên quan đến rủi ro hạt nhân và phóng xạ. Dự án này liên quan đến hoạt động đội đỏ trực tiếp của chính phủ do tính nhạy cảm đặc biệt của thông tin liên quan đến vũ khí hạt nhân. Là một phần của mối quan hệ đối tác này, Anthropic đã chia sẻ những hiểu biết sâu sắc từ các phương pháp xác định và giảm thiểu rủi ro của chúng tôi trong các lĩnh vực CBRN khác, mà NNSA đã điều chỉnh cho phù hợp với lĩnh vực hạt nhân. Sự thành công của thỏa thuận này giữa các thực thể công và tư trong lĩnh vực hạt nhân được quản lý chặt chẽ cho thấy rằng sự hợp tác tương tự là có thể trong các lĩnh vực nhạy cảm khác.

Nhìn về phía trước

Công việc của chúng tôi về các mối đe dọa biên giới đã nhấn mạnh tầm quan trọng của các biện pháp bảo vệ nội bộ như Chính sách Mở rộng Có Trách nhiệm của chúng tôi, các thực thể đánh giá độc lập bao gồm Viện An toàn/An ninh AI và sự giám sát bên ngoài được nhắm mục tiêu phù hợp. Trong tương lai, mục tiêu của chúng tôi là mở rộng quy mô lên các bài kiểm tra thường xuyên hơn với đánh giá, thu thập, phân tích và báo cáo tự động. Đúng là khả năng của AI đang tiến bộ nhanh chóng, nhưng khả năng của chúng tôi trong việc thực hiện các đánh giá này và phát hiện các rủi ro tiềm ẩn sớm hơn và đáng tin cậy hơn cũng vậy.

Chúng tôi đang hành động khẩn trương. Khi các mô hình cải thiện khả năng sử dụng tư duy mở rộng, một số trừu tượng hóa và lập kế hoạch được kích hoạt bởi một bộ công cụ an ninh mạng như Incalmo có thể trở nên lỗi thời và các mô hình sẽ giỏi hơn trong các tác vụ an ninh mạng ngay lập tức. Dựa một phần vào nghiên cứu về sinh học được thảo luận ở đây, chúng tôi tin rằng các mô hình của chúng tôi đang tiến gần hơn đến ngưỡng khả năng yêu cầu các biện pháp bảo vệ Cấp độ An toàn AI 3, thúc đẩy đầu tư bổ sung để đảm bảo các biện pháp bảo mật này sẵn sàng kịp thời. Chúng tôi tin rằng sự hợp tác sâu sắc hơn giữa các phòng thí nghiệm AI biên giới và chính phủ là điều cần thiết để cải thiện các đánh giá và biện pháp giảm thiểu rủi ro của chúng tôi trong tất cả các lĩnh vực trọng tâm này.

Nếu bạn quan tâm đến việc đóng góp trực tiếp vào công việc của chúng tôi, chúng tôi đang tuyển dụng.

Recommended for You

Phản hồi của Anthropic đối với báo cáo dự thảo nhóm AI của Thống đốc Newsom

Phản hồi của Anthropic đối với báo cáo dự thảo nhóm AI của Thống đốc Newsom

Anthropic đưa ra phản hồi chi tiết của mình đối với báo cáo dự thảo nhóm AI của Thống đốc Newsom, đóng góp vào cuộc thảo luận về quy định AI.

Anthropic Ký cam kết của Nhà Trắng với Thanh niên Hoa Kỳ- Đầu tư vào Giáo dục AI

Anthropic Ký cam kết của Nhà Trắng với Thanh niên Hoa Kỳ- Đầu tư vào Giáo dục AI

Anthropic tham gia cùng Nhà Trắng và các tổ chức khác trong cam kết đầu tư vào giáo dục AI cho giới trẻ Mỹ, thúc đẩy tương lai của lực lượng lao động.