Kích hoạt các biện pháp bảo vệ An toàn AI Cấp độ 3
- 14 min read
Kích hoạt các biện pháp bảo vệ Cấp độ An toàn AI 3
Chúng tôi đã kích hoạt các Tiêu chuẩn Triển khai và Bảo mật Cấp độ An toàn AI 3 (ASL-3) được mô tả trong Chính sách Mở rộng có Trách nhiệm (RSP) của Anthropic cùng với việc ra mắt Claude Opus 4. Tiêu chuẩn Bảo mật ASL-3 bao gồm các biện pháp bảo mật nội bộ tăng cường giúp việc đánh cắp trọng số mô hình trở nên khó khăn hơn, trong khi Tiêu chuẩn Triển khai tương ứng bao gồm một tập hợp các biện pháp triển khai được nhắm mục tiêu hẹp được thiết kế để hạn chế rủi ro Claude bị lạm dụng đặc biệt cho việc phát triển hoặc mua lại vũ khí hóa học, sinh học, phóng xạ và hạt nhân (CBRN). Những biện pháp này không nên khiến Claude từ chối các truy vấn, ngoại trừ một tập hợp chủ đề rất hẹp.
Chúng tôi đang triển khai Claude Opus 4 với các biện pháp ASL-3 của mình như một hành động phòng ngừa và tạm thời. Để rõ ràng, chúng tôi vẫn chưa xác định liệu Claude Opus 4 đã vượt qua Dứt khoát Ngưỡng Năng lực yêu cầu các biện pháp bảo vệ ASL-3 hay chưa. Thay vào đó, do những cải tiến liên tục về kiến thức và khả năng liên quan đến CBRN, chúng tôi đã xác định rằng việc loại trừ rõ ràng các rủi ro ASL-3 là không thể đối với Claude Opus 4 theo cách mà nó đã từng làm đối với mọi mô hình trước đó và cần nghiên cứu chi tiết hơn để đánh giá dứt điểm mức độ rủi ro của mô hình. (Chúng tôi đã loại trừ rằng Claude Opus 4 cần Tiêu chuẩn ASL-4, theo yêu cầu của RSP của chúng tôi, và tương tự, chúng tôi đã loại trừ rằng Claude Sonnet 4 cần Tiêu chuẩn ASL-3.)
Việc đánh giá năng lực nguy hiểm của các mô hình AI vốn dĩ rất thách thức và khi các mô hình tiến gần đến ngưỡng quan tâm của chúng tôi, sẽ mất nhiều thời gian hơn để xác định trạng thái của chúng. Chủ động cho phép tiêu chuẩn an toàn và bảo mật cao hơn sẽ đơn giản hóa việc phát hành mô hình đồng thời cho phép chúng tôi học hỏi kinh nghiệm bằng cách cải thiện dần khả năng phòng thủ của mình và giảm tác động của chúng đối với người dùng.
Bài đăng này và báo cáo đi kèm thảo luận về các biện pháp mới và cơ sở lý luận đằng sau chúng.
Bối cảnh
Các mô hình AI ngày càng có khả năng đảm bảo các biện pháp bảo vệ triển khai và bảo mật ngày càng mạnh mẽ. Nguyên tắc này là cốt lõi trong Chính sách Mở rộng có Trách nhiệm (RSP) của Anthropic.1
- Các biện pháp triển khai nhắm mục tiêu vào các loại lạm dụng cụ thể; đặc biệt, RSP của chúng tôi tập trung vào việc giảm thiểu rủi ro các mô hình có thể bị lạm dụng cho các cuộc tấn công bằng các loại vũ khí nguy hiểm nhất–CBRN.
- Các biện pháp kiểm soát an ninh nhằm ngăn chặn việc đánh cắp trọng số mô hình–bản chất trí thông minh và khả năng của AI.
RSP của Anthropic bao gồm Ngưỡng Năng lực cho các mô hình: nếu các mô hình đạt đến các ngưỡng đó (hoặc nếu chúng tôi chưa xác định rằng chúng đủ xa dưới chúng), chúng tôi phải thực hiện cấp độ cao hơn của Tiêu chuẩn Cấp độ An toàn AI. Cho đến nay, tất cả các mô hình của chúng tôi đã được triển khai theo các biện pháp bảo vệ cơ bản của Tiêu chuẩn Cấp độ An toàn AI 2 (ASL-2). Các biện pháp triển khai ASL-2 bao gồm đào tạo các mô hình để từ chối các yêu cầu nguy hiểm liên quan đến CBRN. Các biện pháp an ninh ASL-2 bao gồm phòng thủ chống lại các nỗ lực cơ hội để đánh cắp các trọng số. Tiêu chuẩn ASL-3 yêu cầu mức độ phòng thủ cao hơn chống lại cả các mối đe dọa triển khai và an ninh, phù hợp chống lại các đối thủ phi nhà nước tinh vi.
Cơ sở lý luận
Chúng tôi vẫn chưa xác định liệu các khả năng của Claude Opus 4 có thực sự yêu cầu các biện pháp bảo vệ của Tiêu chuẩn ASL-3 hay không. Vậy tại sao chúng ta lại thực hiện những biện pháp bảo vệ đó ngay bây giờ? Chúng tôi đã dự đoán rằng chúng tôi có thể làm điều này khi chúng tôi ra mắt mô hình cuối cùng của mình, Claude Sonnet 3.7. Trong trường hợp đó, chúng tôi đã xác định rằng mô hình không yêu cầu các biện pháp bảo vệ của Tiêu chuẩn ASL-3. Nhưng chúng tôi đã thừa nhận khả năng rất thực tế là với tốc độ tiến bộ hiện tại, các mô hình trong tương lai gần có thể đảm bảo các biện pháp tăng cường này.2 Và thực tế, trong quá trình chuẩn bị phát hành Claude Opus 4, chúng tôi đã chủ động quyết định ra mắt nó theo Tiêu chuẩn ASL-3. Cách tiếp cận này cho phép chúng tôi tập trung vào việc phát triển, thử nghiệm và tinh chỉnh các biện pháp bảo vệ này trước khi chúng tôi cần chúng.
Cách tiếp cận này cũng phù hợp với RSP, cho phép chúng tôi thận trọng và triển khai một mô hình theo một tiêu chuẩn cao hơn mức chúng tôi chắc chắn là cần thiết. Trong trường hợp này, điều đó có nghĩa là chủ động thực hiện các Tiêu chuẩn Triển khai và Bảo mật ASL-3 (và loại trừ nhu cầu về các biện pháp bảo vệ tiên tiến hơn nữa). Chúng tôi sẽ tiếp tục đánh giá các khả năng CBRN của Claude Opus 4. Nếu chúng tôi kết luận rằng Claude Opus 4 chưa vượt qua Ngưỡng Năng lực có liên quan, thì chúng tôi có thể loại bỏ hoặc điều chỉnh các biện pháp bảo vệ ASL-3.
Các biện pháp triển khai
Các biện pháp triển khai ASL-3 mới tập trung hẹp vào việc ngăn chặn mô hình hỗ trợ các nhiệm vụ liên quan đến vũ khí CBRN đáng lo ngại,3 và đặc biệt là hỗ trợ các quy trình làm việc CBRN mở rộng, đầu cuối theo cách cộng thêm vào những gì đã có thể thực hiện được mà không cần các mô hình ngôn ngữ lớn. Điều này bao gồm việc hạn chế các cuộc vượt ngục phổ quát—các cuộc tấn công có hệ thống cho phép kẻ tấn công phá vỡ các biện pháp bảo vệ của chúng tôi và liên tục trích xuất các chuỗi dài thông tin liên quan đến CBRN nâng cao quy trình làm việc. Phù hợp với các mô hình mối đe dọa cơ bản của chúng tôi, các biện pháp triển khai ASL-3 không nhằm mục đích giải quyết các vấn đề không liên quan đến CBRN, để phòng thủ chống lại các cuộc vượt ngục không phổ quát hoặc để ngăn chặn việc trích xuất các mẩu thông tin đơn lẻ có sẵn rộng rãi, chẳng hạn như câu trả lời cho câu hỏi: “Công thức hóa học của sarin là gì?” (mặc dù chúng có thể vô tình ngăn chặn điều này). Với bối cảnh mối đe dọa đang phát triển, chúng tôi hy vọng rằng các cuộc vượt ngục mới sẽ được khám phá và chúng tôi sẽ cần nhanh chóng lặp lại và cải thiện hệ thống của mình theo thời gian.
Chúng tôi đã phát triển một cách tiếp cận gồm ba phần: làm cho hệ thống khó bị vượt ngục hơn, phát hiện các cuộc vượt ngục khi chúng xảy ra và cải thiện dần khả năng phòng thủ của chúng tôi.
- Làm cho hệ thống khó bị vượt ngục hơn. Chúng tôi đã triển khai Bộ phân loại Hiến pháp—một hệ thống trong đó các biện pháp bảo vệ bộ phân loại thời gian thực, được đào tạo trên dữ liệu tổng hợp đại diện cho các lời nhắc và hoàn thành liên quan đến CBRN có hại và vô hại, giám sát các đầu vào và đầu ra của mô hình và can thiệp để chặn một loại thông tin CBRN có hại hẹp. Thử nghiệm trước khi sản xuất của chúng tôi cho thấy chúng tôi có thể giảm đáng kể thành công của việc vượt ngục trong khi chỉ thêm chi phí tính toán vừa phải (chi phí xử lý bổ sung ngoài những gì cần thiết cho suy luận mô hình) vào các hoạt động bình thường.
- Phát hiện các cuộc vượt ngục khi chúng xảy ra. Chúng tôi cũng đã thiết lập một hệ thống giám sát rộng hơn bao gồm một chương trình tiền thưởng lỗi tập trung vào việc kiểm tra căng thẳng Bộ phân loại Hiến pháp, hệ thống phân loại ngoại tuyến và quan hệ đối tác tình báo về mối đe dọa của chúng tôi để nhanh chóng xác định và ứng phó với các cuộc vượt ngục phổ quát tiềm ẩn có thể cho phép lạm dụng CBRN.
- Cải thiện dần khả năng phòng thủ của chúng tôi. Chúng tôi tin rằng chúng tôi có thể nhanh chóng khắc phục các cuộc vượt ngục bằng các phương pháp bao gồm tạo ra các cuộc vượt ngục tổng hợp tương tự như những cuộc vượt ngục mà chúng tôi đã khám phá và sử dụng dữ liệu đó để đào tạo một bộ phân loại mới.
Tất cả các biện pháp này sẽ yêu cầu tinh chỉnh liên tục, cả để cải thiện hiệu quả của chúng và vì chúng vẫn có thể thỉnh thoảng ảnh hưởng đến các truy vấn hợp pháp (nghĩa là chúng có thể tạo ra kết quả dương tính giả).4 Tuy nhiên, chúng đại diện cho một tiến bộ đáng kể trong việc phòng thủ chống lại việc lạm dụng thảm khốc các khả năng AI.5
An ninh
Các biện pháp kiểm soát an ninh có mục tiêu của chúng tôi tập trung vào việc bảo vệ trọng số mô hình—các tham số số quan trọng mà nếu bị xâm phạm, có thể cho phép người dùng truy cập các mô hình của chúng tôi mà không cần các biện pháp bảo vệ triển khai. Cách tiếp cận của chúng tôi bao gồm hơn 100 biện pháp kiểm soát an ninh khác nhau kết hợp các biện pháp kiểm soát phòng ngừa với cơ chế phát hiện, chủ yếu nhắm mục tiêu các mối đe dọa từ các tác nhân phi nhà nước tinh vi6 từ các điểm xâm nhập ban đầu thông qua di chuyển ngang đến khai thác cuối cùng. Nhiều biện pháp kiểm soát này, chẳng hạn như ủy quyền hai bên để truy cập trọng số mô hình, các giao thức quản lý thay đổi nâng cao và các biện pháp kiểm soát phần mềm điểm cuối thông qua danh sách cho phép nhị phân, là những ví dụ về việc tuân theo các phương pháp hay nhất được thiết lập bởi các tổ chức có ý thức về an ninh khác.
Một biện pháp kiểm soát đặc biệt, tuy nhiên, là duy nhất hơn đối với mục tiêu bảo vệ trọng số mô hình: chúng tôi đã triển khai các biện pháp kiểm soát băng thông đầu ra sơ bộ. Các biện pháp kiểm soát băng thông đầu ra hạn chế luồng dữ liệu ra khỏi môi trường điện toán an toàn nơi đặt trọng số mô hình AI. Các trọng số kết hợp của một mô hình có kích thước đáng kể. Bằng cách giới hạn tốc độ lưu lượng mạng đi ra, các biện pháp kiểm soát này có thể tận dụng kích thước trọng số mô hình để tạo lợi thế an ninh. Khi khả năng xâm nhập trọng số mô hình được phát hiện thông qua việc sử dụng băng thông bất thường, các hệ thống an ninh có thể chặn lưu lượng đáng ngờ. Theo thời gian, chúng tôi hy vọng sẽ đạt đến điểm mà giới hạn tốc độ đủ thấp để việc xâm nhập trọng số mô hình trước khi bị phát hiện là rất khó—ngay cả khi kẻ tấn công đã xâm phạm đáng kể hệ thống của chúng tôi. Việc triển khai các biện pháp kiểm soát băng thông đầu ra đã là một chức năng bắt buộc để hiểu và quản lý cách dữ liệu đang chảy ra bên ngoài các hệ thống nội bộ của chúng tôi, điều này đã mang lại lợi ích cho khả năng phát hiện và ứng phó của chúng tôi.
Tương tự như các biện pháp bảo vệ triển khai, chúng tôi tiếp tục nỗ lực cải thiện phạm vi và độ trưởng thành của các biện pháp kiểm soát an ninh của mình, luôn tính đến bối cảnh mối đe dọa đang phát triển. Đặc biệt, chúng tôi sẽ tiếp tục cải thiện các biện pháp kiểm soát đầu ra, giảm thiểu chống lại các mối đe dọa nội bộ tinh vi hơn và tư thế an ninh tổng thể của chúng tôi.
Kết luận
Như chúng tôi đã nhấn mạnh ở trên, câu hỏi về việc áp dụng các biện pháp triển khai và an ninh nào cho các mô hình AI tiên tiến còn lâu mới được giải quyết. Chúng tôi sẽ tiếp tục tự xem xét, lặp lại và cải thiện. Kinh nghiệm thực tế hoạt động theo Tiêu chuẩn ASL-3 sẽ giúp chúng tôi khám phá những vấn đề và cơ hội mới và có lẽ là bất ngờ.
Chúng tôi sẽ liên tục làm việc với những người khác trong ngành AI, người dùng Claude và các đối tác trong chính phủ và xã hội dân sự để cải thiện phương pháp bảo vệ các mô hình này. Chúng tôi hy vọng rằng báo cáo chi tiết của chúng tôi sẽ hữu ích cho những người khác trong ngành AI đang cố gắng thực hiện các biện pháp bảo vệ tương tự và giúp tất cả chúng ta chuẩn bị cho lời hứa và thách thức của AI thậm chí còn có khả năng hơn.
Đọc báo cáo đầy đủ.
Chú thích
1RSP chỉ là một thành phần trong cách tiếp cận của chúng tôi để giảm thiểu các rủi ro tiềm ẩn.
2Đặc biệt, chúng tôi có một số bằng chứng về các khả năng liên quan đến CBRN được cải thiện. Các thí nghiệm cho thấy rằng quyền truy cập vào Claude Sonnet 3.7 đã giúp những người tham gia thực hiện tốt hơn một chút các nhiệm vụ liên quan đến việc mua vũ khí CBRN so với những người có quyền truy cập internet tiêu chuẩn (mặc dù tất cả các kế hoạch của người tham gia vẫn có những thất bại nghiêm trọng). Hiệu suất mô hình trên các đánh giá như Bài kiểm tra Khả năng Vi rút học đã tăng đều đặn theo thời gian.
3Ban đầu, chúng chỉ tập trung độc quyền vào vũ khí sinh học vì chúng tôi tin rằng những vũ khí này chiếm phần lớn rủi ro, mặc dù chúng tôi đang đánh giá khả năng mở rộng phạm vi sang một số mối đe dọa CBRN khác.
4Chúng tôi cũng đã thiết lập các hệ thống kiểm soát truy cập để người dùng có các ứng dụng khoa học và công nghệ sử dụng kép có thể được kiểm tra để nhận các miễn trừ có mục tiêu từ một số hành động của bộ phân loại.
5Để biết thêm thông tin về đánh giá của chúng tôi về tính hiệu quả và đầy đủ của các biện pháp này, hãy xem Báo cáo Các biện pháp bảo vệ Triển khai ASL-3.
6Các mối đe dọa từ quốc gia (ngoài những mối đe dọa sử dụng chuỗi tấn công không mới) và rủi ro nội bộ tinh vi nằm ngoài phạm vi của Tiêu chuẩn ASL-3.
Tin Tức Liên Quan
- Giới thiệu Claude 4
- Kiểm tra hệ thống phòng thủ an toàn của chúng tôi bằng một chương trình tiền thưởng lỗi mới
- Giới thiệu tìm kiếm web trên Anthropic API
Link bài viết gốc
- Tags:
- Ai
- May 22, 2025
- Www.anthropic.com