Bảo mật Mô hình Tiên phong

Anthropic nhấn mạnh tầm quan trọng của việc bảo mật các mô hình AI tiên phong, tập trung vào các biện pháp bảo vệ chống lại các hành vi sử dụng độc hại.

November 10, 2025
7 min read

Anthropic nhấn mạnh tầm quan trọng của việc bảo mật các mô hình AI tiên phong, tập trung vào các biện pháp bảo vệ chống lại các hành vi sử dụng độc hại.

Bảo mật Mô hình Tiên phong

Tóm tắt

Các mô hình trí tuệ nhân tạo tiên phong trong tương lai có tiềm năng làm đảo lộn các vấn đề an ninh kinh tế và quốc gia trong và giữa các quốc gia. Do tính chất chiến lược của công nghệ này, nghiên cứu và mô hình AI tiên phong phải được bảo mật ở các cấp độ vượt xa các thực tiễn tiêu chuẩn cho các công nghệ thương mại khác để bảo vệ chúng khỏi bị đánh cắp hoặc lạm dụng.

Trong tương lai gần, chính phủ và các phòng thí nghiệm AI tiên phong phải sẵn sàng bảo vệ các mô hình tiên tiến, trọng lượng mô hình và nghiên cứu dẫn đến chúng. Điều này nên bao gồm các biện pháp như phát triển các thực tiễn tốt nhất mạnh mẽ được phổ biến rộng rãi trong ngành, cũng như coi lĩnh vực AI tiên tiến như một loại “cơ sở hạ tầng quan trọng” về mức độ hợp tác công tư trong việc bảo mật các mô hình này và các công ty phát triển chúng.

Nhiều biện pháp này có thể bắt đầu dưới dạng thỏa thuận tự nguyện, nhưng theo thời gian, có thể thích hợp để sử dụng quyền mua hoặc quy định của chính phủ để bắt buộc tuân thủ.

Thực tiễn tốt nhất về An ninh mạng

Chúng tôi tin rằng “kiểm soát hai bên” là cần thiết để bảo mật các hệ thống AI tiên tiến. Kiểm soát hai bên đã được sử dụng trong nhiều lĩnh vực; ví dụ, hai người có hai chìa khóa là cần thiết để mở các hầm an toàn nhất và các mẫu xem xét nhiều bên đã được áp dụng trong sản xuất (GMP, ISO 9001), thực phẩm (FSMA PCQI, ISO 22000), y tế (ISO 13485) và công nghệ tài chính (SOX).

Mẫu hình này nên được áp dụng cho tất cả các hệ thống liên quan đến phát triển, đào tạo, lưu trữ và triển khai các mô hình AI tiên phong.
Mẫu hình này hiện đang được sử dụng rộng rãi trong các công ty công nghệ lớn để chống lại các tác nhân đe dọa tiên tiến nhất và giảm thiểu rủi ro nội bộ.
Nó biểu hiện dưới dạng thiết kế hệ thống mà không ai có quyền truy cập liên tục vào môi trường quan trọng cho sản xuất và họ phải yêu cầu đồng nghiệp truy cập có thời hạn với lý do kinh doanh cho yêu cầu đó.
Ngay cả các phòng thí nghiệm AI mới nổi, không có nguồn lực doanh nghiệp lớn, cũng có thể triển khai các kiểm soát này.

Chúng tôi gọi đây là thiết kế cơ sở hạ tầng quan trọng AI với sự cho phép của nhiều bên. Đây là yêu cầu bảo mật hàng đầu, phụ thuộc vào toàn bộ các thực tiễn tốt nhất về an ninh mạng để triển khai chính xác.

Ngoài ra, các thực tiễn phát triển phần mềm an toàn nên lan tỏa trong môi trường mô hình AI tiên phong. Tiêu chuẩn vàng cho các thực tiễn này là Khung Phát triển Phần mềm An toàn (SSDF) của NIST và Các Cấp Độ Chuỗi Cung ứng cho Tài nguyên Phần mềm (SLSA). Các Lệnh Điều hành đã được sử dụng thành công để khuyến khích các công ty công nghệ lớn áp dụng các tiêu chuẩn phát triển cao hơn: vào năm 2021, EO 14028 đã chỉ đạo OMB đặt ra các hướng dẫn Mua sắm Liên bang. Điều này đã thúc đẩy hành động: ngành công nghiệp phần mềm đã đầu tư mạnh để đáp ứng các yêu cầu của SSDF nhằm giữ các hợp đồng liên bang.

Mặc dù nghiên cứu AI tiên phong đã được hưởng lợi từ việc các nhà cung cấp đám mây triển khai một số tiêu chuẩn này khi lưu trữ mô hình của họ, việc áp dụng các tiêu chuẩn hiện có này có thể cải thiện đáng kể an ninh của các hệ thống AI này:

SSDF và SLSA phần lớn có thể chuyển đổi sang việc phát triển mô hình và phần mềm đi kèm của chúng; sản xuất một mô hình sau đó triển khai nó gần như giống hệt với việc xây dựng phần mềm và sau đó triển khai nó.

SSDF và SLSA kết hợp với nhau có nghĩa là bất kỳ hệ thống AI nào được triển khai đều có chuỗi giám sát. Theo nghĩa này, khi được áp dụng đúng cách, các thực tiễn này cho phép bạn liên kết một mô hình được triển khai với công ty đã phát triển nó, giúp cung cấp nguồn gốc.

Chúng tôi gọi đây là khung phát triển mô hình an toàn. Chúng tôi khuyến khích mở rộng SSDF để bao gồm việc phát triển mô hình trong quy trình thiết lập tiêu chuẩn của NIST.

Trong thời gian tới, hai thực tiễn tốt nhất này có thể được thiết lập như các yêu cầu mua sắm áp dụng cho các công ty AI và nhà cung cấp đám mây ký hợp đồng với chính phủ – cùng với các thực tiễn an ninh mạng tiêu chuẩn cũng áp dụng cho các công ty này. Vì các nhà cung cấp đám mây của Hoa Kỳ cung cấp cơ sở hạ tầng mà nhiều công ty mô hình tiên phong hiện tại sử dụng, các yêu cầu mua sắm sẽ có tác dụng tương tự như quy định thị trường rộng rãi và có thể hoạt động trước các yêu cầu pháp lý.

Anthropic đang triển khai kiểm soát hai bên, SSDF, SLSA và các thực tiễn an ninh mạng khác. Khi khả năng của mô hình tăng lên, chúng ta sẽ cần tăng cường hơn nữa các biện pháp bảo mật, vượt ra ngoài các đề xuất trên. Điều này nhất thiết sẽ là một quá trình lặp đi lặp lại với sự tư vấn của chính phủ và ngành công nghiệp.

Hợp tác Công - Tư

Các phòng thí nghiệm nghiên cứu AI tiên phong nên tham gia vào hợp tác công - tư theo cách tương tự như các công ty trong các lĩnh vực cơ sở hạ tầng quan trọng như dịch vụ tài chính. Ví dụ, lĩnh vực này có thể được chỉ định là một phân ngành đặc biệt của lĩnh vực CNTT hiện có. Việc chỉ định như vậy sẽ là phương tiện để tăng cường hợp tác và chia sẻ thông tin giữa các phòng thí nghiệm trong ngành và các cơ quan chính phủ, giúp tất cả các phòng thí nghiệm tốt hơn trong việc chống lại các tác nhân độc hại có nguồn lực cao.

Kết luận

Thật hấp dẫn khi có thể ưu tiên hóa bảo mật: khi mọi thứ diễn ra tốt đẹp, nó có thể có vẻ không cần thiết hoặc có thể mâu thuẫn với các mục tiêu khác của công ty. Nhưng công nghệ này ngày càng mạnh mẽ và sẽ đòi hỏi các biện pháp phòng ngừa tăng cường. Chúng tôi cũng tin rằng mặc dù bảo mật đôi khi có thể cản trở năng suất, có những cách sáng tạo để đảm bảo tác động của nó được hạn chế và nghiên cứu cũng như các công việc khác có thể tiến hành hiệu quả.

Sự phát triển của trí tuệ nhân tạo có tiềm năng đáng kinh ngạc để mang lại lợi ích cho nhân loại, nhưng nó cũng đi kèm với rủi ro nếu không được theo đuổi một cách thận trọng. Là một công ty AI đang làm việc ở biên giới của công nghệ này, chúng tôi coi trọng trách nhiệm của mình trong việc xây dựng và triển khai Claude một cách an toàn, bảo mật và phù hợp với các giá trị con người. Chúng tôi sẽ tiếp tục chia sẻ quan điểm của mình về sự phát triển có trách nhiệm của AI.

Hình ảnh

Hình ảnh minh họa khóa bảo mật

AI Today - SkyAI

Bảo mật Mô hình Tiên phong

Bảo mật Mô hình Tiên phong

Tóm tắt

Thực tiễn tốt nhất về An ninh mạng

Hợp tác Công - Tư

Kết luận

Hình ảnh

Link bài viết gốc