Chính sách Mở rộng Có trách nhiệm của Anthropic
Anthropic công bố Chính sách Mở rộng Có trách nhiệm, nêu rõ cam kết của công ty đối với việc phát triển AI một cách an toàn và có trách nhiệm.
- 7 min read
Chính sách Mở rộng Có Trách nhiệm của Anthropic
Hôm nay, chúng tôi công bố Chính sách Mở rộng Có Trách nhiệm (RSP) - một loạt các giao thức kỹ thuật và tổ chức mà chúng tôi đang áp dụng để giúp quản lý rủi ro trong quá trình phát triển các hệ thống AI ngày càng mạnh mẽ hơn.
Khi các mô hình AI ngày càng có năng lực, chúng tôi tin rằng chúng sẽ tạo ra giá trị kinh tế và xã hội to lớn, nhưng cũng sẽ mang đến những rủi ro ngày càng nghiêm trọng. RSP của chúng tôi tập trung vào các rủi ro thảm khốc – những rủi ro mà một mô hình AI trực tiếp gây ra sự tàn phá trên quy mô lớn. Những rủi ro này có thể đến từ việc lạm dụng mô hình một cách cố ý (ví dụ: sử dụng bởi khủng bố hoặc các thế lực nhà nước để tạo vũ khí sinh học) hoặc từ các mô hình gây ra sự hủy diệt bằng cách hoạt động tự chủ theo cách đi ngược lại ý định của người thiết kế.
RSP của chúng tôi định nghĩa một khung gọi là Mức độ An toàn AI (ASL) để giải quyết các rủi ro thảm khốc, được mô phỏng tương tự như các tiêu chuẩn Mức độ An toàn Sinh học (BSL) của chính phủ Hoa Kỳ trong việc xử lý các vật liệu sinh học nguy hiểm. Ý tưởng cơ bản là yêu cầu các tiêu chuẩn an toàn, bảo mật và vận hành phù hợp với khả năng rủi ro thảm khốc của mô hình, với các mức ASL cao hơn đòi hỏi các bằng chứng an toàn ngày càng nghiêm ngặt.
Một bản tóm tắt rất ngắn gọn về hệ thống ASL như sau:
- ASL-1: Áp dụng cho các hệ thống không gây ra rủi ro thảm khốc đáng kể, ví dụ như một LLM năm 2018 hoặc một hệ thống AI chỉ chơi cờ vua.
- ASL-2: Áp dụng cho các hệ thống có dấu hiệu sớm về khả năng nguy hiểm – ví dụ, khả năng đưa ra hướng dẫn về cách chế tạo vũ khí sinh học – nhưng thông tin đó chưa hữu ích do độ tin cậy không đủ hoặc không cung cấp thông tin mà ví dụ, một công cụ tìm kiếm không thể có. Các LLM hiện tại, bao gồm cả Claude, dường như thuộc ASL-2.
- ASL-3: Áp dụng cho các hệ thống làm tăng đáng kể nguy cơ lạm dụng thảm khốc so với các cơ sở không sử dụng AI (ví dụ: công cụ tìm kiếm hoặc sách giáo khoa) HOẶC thể hiện khả năng tự chủ ở mức độ thấp.
- ASL-4 trở lên (ASL-5+): Chưa được định nghĩa vì còn quá xa so với các hệ thống hiện tại, nhưng có thể liên quan đến sự leo thang định tính về khả năng lạm dụng thảm khốc và tự chủ.
Định nghĩa, tiêu chí và các biện pháp an toàn cho mỗi mức ASL được mô tả chi tiết trong tài liệu chính, nhưng nhìn chung, các biện pháp ASL-2 đại diện cho các tiêu chuẩn an toàn và bảo mật hiện tại của chúng tôi và trùng lặp đáng kể với các cam kết gần đây của chúng tôi với Chính quyền Biden-Harris. Các biện pháp ASL-3 bao gồm các tiêu chuẩn nghiêm ngặt hơn sẽ đòi hỏi nỗ lực nghiên cứu và kỹ thuật chuyên sâu để tuân thủ kịp thời, chẳng hạn như các yêu cầu bảo mật đặc biệt mạnh mẽ và cam kết không triển khai các mô hình ASL-3 nếu chúng thể hiện bất kỳ rủi ro lạm dụng thảm khốc nào có ý nghĩa dưới bài kiểm tra đối nghịch của các đội ngũ “red-team” đẳng cấp thế giới (điều này trái ngược với cam kết đơn thuần thực hiện red-teaming). Các biện pháp ASL-4 của chúng tôi vẫn chưa được viết ra (cam kết của chúng tôi là viết chúng trước khi chúng tôi đạt đến ASL-3), nhưng có thể yêu cầu các phương pháp đảm bảo là các vấn đề nghiên cứu chưa được giải quyết ngày nay, chẳng hạn như sử dụng các phương pháp diễn giải để chứng minh một cách cơ chế rằng mô hình khó có khả năng tham gia vào một số hành vi thảm khốc nhất định.
Chúng tôi đã thiết kế hệ thống ASL để cân bằng giữa việc nhắm mục tiêu hiệu quả vào rủi ro thảm khốc và khuyến khích các ứng dụng có lợi và tiến bộ an toàn. Một mặt, hệ thống ASL ngầm yêu cầu chúng tôi tạm dừng việc đào tạo các mô hình mạnh mẽ hơn nếu việc mở rộng quy mô AI của chúng tôi vượt quá khả năng tuân thủ các quy trình an toàn cần thiết. Nhưng nó làm điều đó theo cách trực tiếp khuyến khích chúng tôi giải quyết các vấn đề an toàn cần thiết như một cách để mở khóa việc mở rộng quy mô hơn nữa, và cho phép chúng tôi sử dụng các mô hình mạnh mẽ nhất từ cấp độ ASL trước đó làm công cụ để phát triển các tính năng an toàn cho cấp độ tiếp theo.1 Nếu được áp dụng như một tiêu chuẩn trên các phòng thí nghiệm tiên phong, chúng tôi hy vọng điều này có thể tạo ra động lực “cuộc đua lên đỉnh” nơi các ưu đãi cạnh tranh được chuyển trực tiếp vào việc giải quyết các vấn đề an toàn.
Từ góc độ kinh doanh, chúng tôi muốn làm rõ rằng RSP của chúng tôi sẽ không thay đổi các cách sử dụng hiện tại của Claude hoặc làm gián đoạn tính khả dụng của các sản phẩm của chúng tôi. Thay vào đó, nó nên được xem tương tự như việc thử nghiệm trước khi ra mắt thị trường và thiết kế tính năng an toàn được thực hiện trong ngành ô tô hoặc hàng không, nơi mục tiêu là chứng minh nghiêm ngặt sự an toàn của sản phẩm trước khi nó được tung ra thị trường, điều cuối cùng sẽ mang lại lợi ích cho khách hàng.
RSP của Anthropic đã được hội đồng quản trị chính thức phê duyệt và các thay đổi phải được hội đồng quản trị phê duyệt sau các cuộc tham vấn với Quỹ Lợi ích Dài hạn. Trong tài liệu đầy đủ, chúng tôi mô tả một số biện pháp bảo vệ thủ tục để đảm bảo tính toàn vẹn của quy trình đánh giá.
Tuy nhiên, chúng tôi muốn nhấn mạnh rằng các cam kết này là những phỏng đoán tốt nhất hiện tại của chúng tôi, và là một phiên bản ban đầu mà chúng tôi sẽ xây dựng dựa trên đó. Tốc độ nhanh chóng và nhiều điều không chắc chắn của lĩnh vực AI ngụ ý rằng, không giống như hệ thống BSL tương đối ổn định, việc lặp lại nhanh chóng và sửa đổi hướng đi gần như chắc chắn sẽ cần thiết.
Tài liệu đầy đủ có thể được đọc tại đây. Chúng tôi hy vọng rằng nó cung cấp nguồn cảm hứng hữu ích cho các nhà hoạch định chính sách, các tổ chức phi lợi nhuận bên thứ ba và các công ty khác đối mặt với các quyết định triển khai tương tự.
Chúng tôi cảm ơn ARC Evals vì những hiểu biết sâu sắc và chuyên môn quan trọng của họ trong việc hỗ trợ phát triển các cam kết RSP của chúng tôi, đặc biệt là liên quan đến việc đánh giá khả năng tự chủ. Chúng tôi nhận thấy chuyên môn của họ trong việc đánh giá rủi ro AI là công cụ quan trọng khi chúng tôi thiết kế các quy trình đánh giá của mình. Chúng tôi cũng ghi nhận vai trò lãnh đạo của ARC Evals trong việc khởi xướng và thúc đẩy việc phát triển khung Chính sách Mở rộng Có Trách nhiệm của họ, điều này đã truyền cảm hứng cho cách tiếp cận của chúng tôi.
Chú thích:
- Nói chung, Anthropic luôn nhận thấy rằng việc làm việc với các mô hình AI tiên tiến là một thành phần thiết yếu trong việc phát triển các phương pháp mới để giảm thiểu rủi ro của AI.
Link bài viết gốc
- Tags:
- Ai
- Sep 19, 2023
- Www.anthropic.com