Thông báo về Chính sách Mở rộng Có trách nhiệm được cập nhật của chúng tôi

Anthropic công bố Chính sách Mở rộng Có trách nhiệm được cập nhật, nêu rõ cách tiếp cận của công ty đối với việc phát triển AI an toàn và có thể quản lý.

  • 12 min read
Anthropic công bố Chính sách Mở rộng Có trách nhiệm được cập nhật, nêu rõ cách tiếp cận của công ty đối với việc phát triển AI an toàn và có thể quản lý.

Thông báo về Chính sách Mở rộng Có Trách nhiệm được Cập nhật

Hôm nay, chúng tôi công bố một bản cập nhật quan trọng cho Chính sách Mở rộng Có Trách nhiệm (RSP) của chúng tôi, đây là khuôn khổ quản trị rủi ro mà chúng tôi sử dụng để giảm thiểu các rủi ro thảm khốc tiềm ẩn từ các hệ thống AI tiên tiến. Bản cập nhật này đưa ra một cách tiếp cận linh hoạt và chi tiết hơn để đánh giá và quản lý rủi ro AI, đồng thời duy trì cam kết của chúng tôi là không đào tạo hoặc triển khai các mô hình trừ khi chúng tôi đã áp dụng các biện pháp bảo vệ đầy đủ.

Các cải tiến chính bao gồm:

  • Ngưỡng năng lực mới để chỉ ra khi nào chúng tôi sẽ nâng cấp các biện pháp bảo vệ.
  • Quy trình tinh chỉnh để đánh giá khả năng của mô hình và tính đầy đủ của các biện pháp bảo vệ (lấy cảm hứng từ các phương pháp luận trường hợp an toàn).
  • Các biện pháp mới cho quản trị nội bộ và đầu vào từ bên ngoài.

Bằng cách học hỏi từ kinh nghiệm triển khai và áp dụng các thực tiễn quản lý rủi ro được sử dụng trong các ngành có hậu quả cao khác, chúng tôi mong muốn chuẩn bị tốt hơn cho tốc độ phát triển nhanh chóng của AI.

A hand with a feather quill writing a policy document.

Lời hứa và thách thức của AI tiên tiến

Khi các mô hình AI tiên tiến phát triển, chúng có tiềm năng mang lại những lợi ích mang tính cách mạng cho xã hội và nền kinh tế của chúng ta. AI có thể đẩy nhanh các khám phá khoa học, cách mạng hóa y tế, nâng cao hệ thống giáo dục và tạo ra các lĩnh vực sáng tạo và đổi mới hoàn toàn mới cho con người. Tuy nhiên, các hệ thống AI tiên tiến cũng đặt ra những thách thức và rủi ro mới đòi hỏi sự nghiên cứu cẩn thận và các biện pháp bảo vệ hiệu quả.

Vào tháng 9 năm 2023, chúng tôi đã công bố Chính sách Mở rộng Có Trách nhiệm của mình, một khuôn khổ để quản lý rủi ro từ các hệ thống AI ngày càng có năng lực. Sau một năm triển khai và học hỏi, chúng tôi hiện đang chia sẻ một phiên bản cập nhật đáng kể, phản ánh những hiểu biết thực tế và tính đến sự phát triển của năng lực công nghệ.

Mặc dù chính sách này tập trung vào các rủi ro thảm khốc như các danh mục được liệt kê dưới đây, nhưng chúng không phải là những rủi ro duy nhất mà chúng tôi theo dõi và chuẩn bị. Chính sách Sử dụng của chúng tôi đặt ra các tiêu chuẩn về việc sử dụng các sản phẩm của chúng tôi, bao gồm các quy tắc cấm sử dụng các mô hình của chúng tôi để lan truyền thông tin sai lệch, kích động bạo lực hoặc hành vi thù địch, hoặc tham gia vào các hoạt động gian lận hoặc lạm dụng. Chúng tôi liên tục tinh chỉnh các biện pháp kỹ thuật để thực thi các tiêu chuẩn tin cậy và an toàn ở quy mô lớn. Hơn nữa, chúng tôi tiến hành nghiên cứu để hiểu rõ hơn về tác động xã hội rộng lớn hơn của các mô hình của mình. Chính sách Mở rộng Có Trách nhiệm của chúng tôi bổ sung cho công việc của chúng tôi trong các lĩnh vực này, góp phần vào hiểu biết của chúng tôi về các rủi ro hiện tại và tiềm ẩn.

Một khuôn khổ cho các biện pháp bảo vệ tương xứng

Như trước đây, chúng tôi duy trì cam kết cốt lõi của mình: chúng tôi sẽ không đào tạo hoặc triển khai các mô hình trừ khi chúng tôi đã áp dụng các biện pháp an toàn và bảo mật để giữ cho rủi ro dưới mức chấp nhận được. RSP của chúng tôi dựa trên nguyên tắc bảo vệ tương xứng: các biện pháp bảo vệ mở rộng tương ứng với các rủi ro tiềm ẩn. Để làm được điều này, chúng tôi sử dụng Tiêu chuẩn Cấp độ An toàn AI (ASL Standards), một tập hợp các biện pháp an toàn và bảo mật được phân cấp, trở nên nghiêm ngặt hơn khi năng lực của mô hình tăng lên. Lấy cảm hứng từ Cấp độ An toàn Sinh học, các tiêu chuẩn này bắt đầu từ ASL-1 đối với các mô hình có năng lực rất cơ bản (ví dụ: bot chơi cờ) và tiến tới ASL-2, ASL-3, v.v.

Trong chính sách cập nhật của mình, chúng tôi đã tinh chỉnh phương pháp đánh giá các khả năng cụ thể (và các rủi ro liên quan) và triển khai các biện pháp an toàn và bảo mật tương xứng. Khuôn khổ cập nhật của chúng tôi có hai thành phần chính:

  • Ngưỡng Năng lực: Các khả năng AI cụ thể, nếu đạt được, sẽ yêu cầu các biện pháp bảo vệ mạnh mẽ hơn so với mức cơ bản hiện tại của chúng tôi.
  • Biện pháp Bảo vệ Bắt buộc: Các Tiêu chuẩn ASL cụ thể cần thiết để giảm thiểu rủi ro khi Ngưỡng Năng lực đã đạt được.

Hiện tại, tất cả các mô hình của chúng tôi hoạt động theo Tiêu chuẩn ASL-2, phản ánh các phương pháp tốt nhất trong ngành. Chính sách cập nhật của chúng tôi xác định hai Ngưỡng Năng lực chính sẽ yêu cầu nâng cấp các biện pháp bảo vệ:

  • Nghiên cứu và Phát triển AI Tự động: Nếu một mô hình có thể tự thực hiện các nhiệm vụ nghiên cứu AI phức tạp đòi hỏi chuyên môn của con người—có khả năng thúc đẩy sự phát triển AI một cách đáng kể và khó lường—chúng tôi yêu cầu các tiêu chuẩn bảo mật nâng cao (có thể là ASL-4 hoặc cao hơn) và các đảm bảo an toàn bổ sung để tránh tình huống phát triển vượt xa khả năng ứng phó với các rủi ro mới nổi của chúng tôi.
  • Vũ khí Hóa học, Sinh học, Phóng xạ và Hạt nhân (CBRN): Nếu một mô hình có thể hỗ trợ có ý nghĩa cho một người có nền tảng kỹ thuật cơ bản trong việc tạo hoặc triển khai vũ khí CBRN, chúng tôi yêu cầu các biện pháp bảo vệ bảo mật và triển khai nâng cao (tiêu chuẩn ASL-3).

Các biện pháp bảo vệ ASL-3 bao gồm các biện pháp bảo mật nâng cao và kiểm soát triển khai. Về mặt bảo mật, điều này sẽ bao gồm các biện pháp kiểm soát truy cập nội bộ và bảo vệ mạnh mẽ hơn các trọng số mô hình. Đối với rủi ro triển khai, chúng tôi dự định thực hiện một phương pháp tiếp cận nhiều lớp để ngăn chặn lạm dụng, bao gồm giám sát thời gian thực và không đồng bộ, các quy trình phản ứng nhanh và kiểm thử đỏ kỹ lưỡng trước khi triển khai.

Triển khai và giám sát

Để đóng góp vào việc thực hiện hiệu quả chính sách, chúng tôi đã thiết lập:

  • Đánh giá Năng lực: Đánh giá mô hình định kỳ dựa trên Ngưỡng Năng lực của chúng tôi để xác định xem các biện pháp bảo vệ hiện tại của chúng tôi có còn phù hợp hay không. (Bản tóm tắt các đánh giá trước đây có sẵn tại đây.)
  • Đánh giá Biện pháp Bảo vệ: Đánh giá định kỳ hiệu quả của các biện pháp bảo mật và an toàn triển khai của chúng tôi để đánh giá xem chúng tôi có đáp ứng được mức Biện pháp Bảo vệ Bắt buộc hay không. (Bản tóm tắt các quyết định này sẽ có sẵn tại đây.)
  • Tài liệu hóa và đưa ra quyết định: Các quy trình để tài liệu hóa các đánh giá năng lực và biện pháp bảo vệ, lấy cảm hứng từ các quy trình (như phương pháp luận trường hợp an toàn) phổ biến trong các ngành có độ tin cậy cao.
  • Các biện pháp cho quản trị nội bộ và đầu vào từ bên ngoài: Phương pháp đánh giá của chúng tôi sẽ được hỗ trợ bởi kiểm tra nội bộ ngoài quy trình báo cáo nội bộ hiện có của chúng tôi về các vấn đề an toàn. Chúng tôi cũng đang xin phản hồi từ các chuyên gia bên ngoài về các phương pháp luận của chúng tôi.1

Học hỏi từ kinh nghiệm

Chúng tôi đã học được rất nhiều trong năm đầu tiên với RSP trước đây có hiệu lực, và đang sử dụng bản cập nhật này như một cơ hội để xem xét những gì đã hoạt động tốt và những gì cần cập nhật trong chính sách. Là một phần của điều này, chúng tôi đã tiến hành đánh giá đầu tiên về mức độ tuân thủ khuôn khổ của chúng tôi và xác định một số ít trường hợp mà chúng tôi đã không đáp ứng đầy đủ yêu cầu của nó. Điều này bao gồm các vấn đề thủ tục như hoàn thành một bộ đánh giá muộn hơn ba ngày hoặc thiếu rõ ràng về cách thức và địa điểm chúng tôi nên ghi lại bất kỳ thay đổi nào đối với các đánh giá tạm thời của chúng tôi. Chúng tôi cũng đã ghi nhận một số đánh giá mà chúng tôi có thể đã đạt được hiệu suất mô hình tốt hơn một chút thông qua việc triển khai các kỹ thuật tiêu chuẩn (như chuỗi suy nghĩ hoặc tốt nhất trong N).

Trong mọi trường hợp, chúng tôi thấy rằng những trường hợp này có rủi ro tối thiểu đối với sự an toàn của các mô hình của chúng tôi. Chúng tôi đã sử dụng thêm ba ngày để tinh chỉnh và cải thiện các đánh giá của mình; bộ đánh giá khác mà chúng tôi sử dụng cung cấp một đánh giá chính xác hơn so với các đánh giá tạm thời; và phương pháp đánh giá của chúng tôi vẫn cho thấy chúng tôi còn khá xa các ngưỡng. Từ đó, chúng tôi đã rút ra hai bài học có giá trị để tích hợp vào khuôn khổ cập nhật của mình: chúng tôi cần kết hợp nhiều tính linh hoạt hơn vào các chính sách của mình và chúng tôi cần cải thiện quy trình theo dõi tuân thủ RSP. Bạn có thể đọc thêm tại đây.

Kể từ khi công bố RSP lần đầu tiên cách đây một năm, mục tiêu của chúng tôi là đưa ra một ví dụ về một khuôn khổ mà những người khác có thể lấy cảm hứng để xây dựng các chính sách quản trị rủi ro AI của riêng họ. Chúng tôi hy vọng rằng việc chủ động chia sẻ kinh nghiệm triển khai chính sách của mình sẽ giúp các công ty khác trong việc triển khai các khuôn khổ quản lý rủi ro của họ và đóng góp vào việc thiết lập các phương pháp tốt nhất trên toàn bộ hệ sinh thái AI.

Nhìn về phía trước

Tiên phong trong lĩnh vực AI đang phát triển nhanh chóng, khiến việc dự đoán các biện pháp an toàn nào sẽ phù hợp cho các hệ thống trong tương lai trở nên khó khăn. Tất cả các khía cạnh của chương trình an toàn của chúng tôi sẽ tiếp tục phát triển: chính sách của chúng tôi, phương pháp đánh giá, các biện pháp bảo vệ, và nghiên cứu của chúng tôi về các rủi ro và biện pháp khắc phục tiềm ẩn.

Ngoài ra, Đồng sáng lập và Giám đốc Khoa học Jared Kaplan sẽ đảm nhiệm vai trò Cán bộ Mở rộng Có Trách nhiệm của Anthropic, kế nhiệm Đồng sáng lập và Giám đốc Công nghệ Sam McCandlish, người đã giữ vai trò này trong năm qua. Sam đã giám sát việc triển khai ban đầu RSP và sẽ tiếp tục tập trung vào nhiệm vụ của mình với tư cách là Giám đốc Công nghệ. Khi chúng tôi nỗ lực mở rộng quy mô các nỗ lực triển khai RSP, chúng tôi cũng đang mở một vị trí cho Trưởng phòng Mở rộng Có Trách nhiệm. Vai trò này sẽ chịu trách nhiệm điều phối nhiều nhóm cần thiết để lặp lại và tuân thủ thành công RSP.

Nếu bạn muốn đóng góp vào quản lý rủi ro AI tại Anthropic, chúng tôi đang tuyển dụng! Nhiều nhóm của chúng tôi hiện đóng góp vào quản lý rủi ro thông qua RSP, bao gồm:

  • Đội Đặc nhiệm Tiên phong (Frontier Red Team) (chịu trách nhiệm về mô hình hóa mối đe dọa và đánh giá năng lực)
  • Tin cậy & An toàn (Trust & Safety) (chịu trách nhiệm phát triển các biện pháp bảo vệ triển khai)
  • Bảo mật và Tuân thủ (Security and Compliance) (chịu trách nhiệm về các biện pháp bảo vệ bảo mật và quản lý rủi ro)
  • Khoa học Căn chỉnh (Alignment Science) (bao gồm các nhóm phụ trách phát triển các biện pháp an toàn ASL-3+, đánh giá năng lực tập trung vào sự sai lệch, và chương trình kiểm tra căng thẳng căn chỉnh nội bộ của chúng tôi)
  • Đội RSP (RSP Team) (chịu trách nhiệm soạn thảo chính sách, đảm bảo và thực hiện trên toàn công ty)

Đọc chính sách cập nhật tại anthropic.com/rsp, và thông tin bổ sung tại anthropic.com/rsp-updates.

Chúng tôi xin gửi lời cảm ơn chân thành đến nhiều nhóm bên ngoài đã cung cấp phản hồi vô giá về việc phát triển và tinh chỉnh Chính sách Mở rộng Có Trách nhiệm của chúng tôi.


1 Chúng tôi cũng đã chia sẻ phương pháp đánh giá của mình với cả Viện An toàn AI, cũng như một lựa chọn các chuyên gia và tổ chức độc lập, để xin phản hồi. Điều này không đại diện cho sự tán thành từ Viện An toàn AI hoặc các chuyên gia và tổ chức độc lập.

Recommended for You

Anthropic Ký cam kết của Nhà Trắng với Thanh niên Hoa Kỳ- Đầu tư vào Giáo dục AI

Anthropic Ký cam kết của Nhà Trắng với Thanh niên Hoa Kỳ- Đầu tư vào Giáo dục AI

Anthropic tham gia cùng Nhà Trắng và các tổ chức khác trong cam kết đầu tư vào giáo dục AI cho giới trẻ Mỹ, thúc đẩy tương lai của lực lượng lao động.

Anthropic bổ nhiệm Guillaume Princen làm Trưởng bộ phận EMEA và công bố hơn 100 vị trí mới trong khu vực

Anthropic bổ nhiệm Guillaume Princen làm Trưởng bộ phận EMEA và công bố hơn 100 vị trí mới trong khu vực

Anthropic chào đón Guillaume Princen đảm nhận vai trò Trưởng bộ phận EMEA, đồng thời công bố kế hoạch tuyển dụng mở rộng trong khu vực.