Suy ngẫm về Chính sách Thúc đẩy Có trách nhiệm của chúng tôi

Chia sẻ những suy nghĩ của chúng tôi về cách Anthropic tiếp cận Chính sách Thúc đẩy Có trách nhiệm của chúng tôi

  • 22 min read
Chia sẻ những suy nghĩ của chúng tôi về cách Anthropic tiếp cận Chính sách Thúc đẩy Có trách nhiệm của chúng tôi

Suy ngẫm về Chính sách Mở rộng Có trách nhiệm của chúng tôi

Bài viết này chia sẻ những suy ngẫm từ việc thực hiện chính sách Mở rộng Có trách nhiệm (Responsible Scaling Policy - RSP) cho đến nay. Chúng tôi cũng đang làm việc trên một RSP cập nhật và sẽ sớm chia sẻ điều này.

Chúng tôi thấy việc có một chính sách được trình bày rõ ràng về các rủi ro thảm khốc là vô cùng giá trị. Nó đã cung cấp một khuôn khổ có cấu trúc để làm rõ các ưu tiên của tổ chức và đóng khung các cuộc thảo luận về thời gian biểu dự án, số lượng nhân viên, mô hình mối đe dọa và sự đánh đổi. Quá trình thực hiện chính sách cũng đã làm nổi lên một loạt các câu hỏi, dự án và sự phụ thuộc quan trọng mà nếu không có thì có thể mất nhiều thời gian hơn để xác định hoặc không được thảo luận.

Cân bằng mong muốn có các cam kết mạnh mẽ với thực tế là chúng tôi vẫn đang tìm kiếm câu trả lời đúng là một thách thức. Trong một số trường hợp, chính sách ban đầu là mơ hồ và cần làm rõ. Trong trường hợp có các câu hỏi nghiên cứu mở hoặc sự không chắc chắn, việc đặt ra các yêu cầu quá cụ thể có khả năng không đứng vững trước thử thách của thời gian. Điều đó nói rằng, khi các tác nhân trong ngành phải đối mặt với áp lực thương mại ngày càng tăng, chúng tôi hy vọng sẽ chuyển từ các cam kết tự nguyện sang các thông lệ tốt nhất đã được thiết lập và sau đó là các quy định được soạn thảo tốt.

Khi chúng tôi tiếp tục lặp lại và cải thiện chính sách ban đầu, chúng tôi đang tích cực khám phá các cách để kết hợp các thông lệ từ các lĩnh vực quản lý rủi ro và an toàn vận hành hiện có. Mặc dù không lĩnh vực nào trong số này sẽ hoàn toàn tương tự, chúng tôi hy vọng sẽ tìm thấy những hiểu biết sâu sắc có giá trị từ an ninh hạt nhân, an toàn sinh học, an toàn hệ thống, xe tự hành, hàng không vũ trụ và an ninh mạng. Chúng tôi đang xây dựng một nhóm liên ngành để giúp chúng tôi tích hợp các thông lệ phù hợp và giá trị nhất từ mỗi lĩnh vực.

Khuôn khổ hiện tại của chúng tôi để thực hiện điều này được tóm tắt dưới đây, như một tập hợp năm cam kết cấp cao.

  1. Thiết lập Năng lực Đường Đỏ. Chúng tôi cam kết xác định và công bố “Năng lực Đường Đỏ” có thể xuất hiện trong các thế hệ mô hình tương lai và sẽ gây ra quá nhiều rủi ro nếu được lưu trữ hoặc triển khai theo các thông lệ an toàn và bảo mật hiện tại của chúng tôi (được gọi là Tiêu chuẩn ASL-2).

  2. Kiểm tra Năng lực Đường Đỏ (Đánh giá Rủi ro Tiên phong). Chúng tôi cam kết chứng minh rằng Năng lực Đường Đỏ không có trong các mô hình, hoặc - nếu chúng tôi không thể làm như vậy - thực hiện hành động như thể chúng có (thông tin thêm bên dưới). Điều này bao gồm cộng tác với các chuyên gia trong lĩnh vực để thiết kế một loạt các “Đánh giá Rủi ro Tiên phong” các thử nghiệm thực nghiệm mà nếu thất bại, sẽ cung cấp bằng chứng mạnh mẽ chống lại một mô hình đang ở hoặc gần một năng lực đường đỏ. Chúng tôi cũng cam kết duy trì một quy trình đánh giá rõ ràng và một bản tóm tắt các đánh giá hiện tại của chúng tôi một cách công khai.

  3. Ứng phó với Năng lực Đường Đỏ. Chúng tôi cam kết phát triển và thực hiện một tiêu chuẩn mới về an toàn và bảo mật đủ để xử lý các mô hình có Năng lực Đường Đỏ. Tập hợp các biện pháp này được gọi là Tiêu chuẩn ASL-3. Chúng tôi cam kết không chỉ xác định các biện pháp giảm thiểu rủi ro bao gồm tiêu chuẩn này, mà còn chi tiết và tuân theo một quy trình đảm bảo để xác thực tính hiệu quả của tiêu chuẩn. Cuối cùng, chúng tôi cam kết tạm dừng đào tạo hoặc triển khai nếu cần thiết để đảm bảo rằng các mô hình có Năng lực Đường Đỏ chỉ được đào tạo, lưu trữ và triển khai khi chúng tôi có thể áp dụng tiêu chuẩn ASL-3.

  4. Mở rộng lặp đi lặp lại chính sách này. Trước khi chúng tôi tiến hành các hoạt động yêu cầu tiêu chuẩn ASL-3, chúng tôi cam kết công bố một mô tả rõ ràng về giới hạn trên của sự phù hợp của nó: một tập hợp Năng lực Đường Đỏ mới mà chúng tôi phải xây dựng Đánh giá Rủi ro Tiên phong và sẽ yêu cầu một tiêu chuẩn an toàn và bảo mật cao hơn (ASL-4) trước khi tiến hành đào tạo và triển khai. Điều này bao gồm duy trì một quy trình đánh giá rõ ràng và bản tóm tắt các đánh giá của chúng tôi một cách công khai.

  5. Cơ chế Đảm bảo. Chúng tôi cam kết đảm bảo chính sách này được thực hiện như dự định, bằng cách thực hiện Cơ chế Đảm bảo. Chúng sẽ đảm bảo rằng quy trình đánh giá của chúng tôi được kiểm tra căng thẳng; các biện pháp giảm thiểu an toàn và bảo mật của chúng tôi được xác thực công khai hoặc bởi các chuyên gia không quan tâm; Ban Giám đốc và Tổ chức Ủy thác Lợi ích Dài hạn của chúng tôi có đủ sự giám sát đối với việc thực hiện chính sách để xác định bất kỳ lĩnh vực không tuân thủ nào; và bản thân chính sách được cập nhật thông qua một quy trình thích hợp.

Mô hình hóa Mối đe dọa và Đánh giá

Các nhóm Đánh giá Rủi ro Tiên phong và Khoa học Căn chỉnh của chúng tôi đã tập trung vào mô hình hóa mối đe dọa và tham gia với các chuyên gia trong lĩnh vực. Họ chủ yếu tập trung vào (a) cải thiện các mô hình mối đe dọa để xác định năng lực nào sẽ đảm bảo tiêu chuẩn an toàn và bảo mật ASL-3, (b) làm việc với các nhóm phát triển các biện pháp kiểm soát ASL-3 để đảm bảo rằng các biện pháp kiểm soát đó được điều chỉnh phù hợp với các rủi ro chính xác và (c) lập bản đồ các năng lực mà tiêu chuẩn ASL-3 sẽ không đủ để xử lý và chúng tôi sẽ tiếp tục kiểm tra ngay cả sau khi nó được thực hiện. Một số suy ngẫm chính là:

  • Mỗi thế hệ mô hình mới đều có các năng lực mới nổi, khiến việc dự đoán các thuộc tính của các mô hình tương lai trở nên đặc biệt khó khăn. Có một nhu cầu nghiêm trọng đối với việc mô hình hóa mối đe dọa hơn nữa.

  • Có sự bất đồng hợp lý giữa các chuyên gia về việc ưu tiên rủi ro nào và cách các năng lực mới có thể gây hại, ngay cả trong các lĩnh vực Hóa học, Sinh học, Phóng xạ và Hạt nhân (CBRN) tương đối đã được thiết lập. Nói chuyện với nhiều chuyên gia trong các lĩnh vực phụ khác nhau là rất có giá trị, do thiếu quan điểm đồng thuận.

  • Cố gắng làm cho các mô hình mối đe dọa trở nên định lượng đã giúp ích cho việc quyết định ưu tiên năng lực và kịch bản nào.

Các nhóm Đánh giá Rủi ro Tiên phong, Khoa học Căn chỉnh, Tinh chỉnh và Kiểm tra Căng thẳng Căn chỉnh của chúng tôi tập trung vào việc xây dựng các đánh giá và cải thiện phương pháp luận tổng thể của chúng tôi. Hiện tại, chúng tôi tiến hành kiểm tra trước khi triển khai trong các lĩnh vực an ninh mạng, CBRN và Tính tự chủ của Mô hình cho các mô hình tiên phong đã đạt được tính toán gấp 4 lần so với mô hình đã được kiểm tra gần đây nhất của chúng tôi (bạn có thể đọc mô tả chi tiết hơn về bộ đánh giá gần đây nhất của chúng tôi trên Claude 3 Opus tại đây). Chúng tôi cũng kiểm tra các mô hình giữa quá trình đào tạo nếu chúng đạt đến ngưỡng này và kiểm tra lại mô hình có khả năng nhất của chúng tôi каждые 3 tháng một lần để tính đến những cải tiến về tinh chỉnh. Các nhóm cũng tập trung vào việc xây dựng các đánh giá trong một số lĩnh vực mới để theo dõi các năng lực mà tiêu chuẩn ASL-3 vẫn không phù hợp và xác định các cách để làm cho quy trình kiểm tra tổng thể trở nên mạnh mẽ hơn. Một số suy ngẫm chính là:

  • Chu kỳ lặp lại nhanh chóng với các chuyên gia trong lĩnh vực đặc biệt có giá trị để nhận ra khi mức độ khó của một thử nghiệm được hiệu chỉnh kém hoặc nhiệm vụ tách rời khỏi mô hình mối đe dọa được đề cập.

  • Chúng ta nên ngày càng nhắm đến việc tận dụng và khuyến khích hệ sinh thái ngày càng phát triển của các nhà nghiên cứu và công ty trong lĩnh vực này. Nhiều rủi ro mà chúng tôi nhắm đến để đánh giá, đặc biệt là những rủi ro liên quan đến quyền tự chủ hoặc sự sai lệch, vốn dĩ phức tạp và mang tính suy đoán, và việc kiểm tra và mô hình hóa mối đe dọa của riêng chúng tôi có khả năng không đầy đủ. Cũng sẽ có giá trị để phát triển một hệ sinh thái bên ngoài trưởng thành có thể đánh giá đầy đủ chất lượng các tuyên bố của chúng tôi, cũng như cung cấp các đánh giá dễ tiếp cận như một dịch vụ cho các công ty ít nguồn lực hơn. Chúng tôi đã bắt đầu thử nghiệm quan hệ đối tác với các tổ chức bên ngoài trong các lĩnh vực này.

  • Các phương pháp đánh giá khác nhau có những điểm mạnh và điểm yếu riêng, và các phương pháp đánh giá khả năng của một mô hình một cách thuyết phục nhất sẽ khác nhau tùy thuộc vào mô hình mối đe dọa hoặc lĩnh vực được đề cập.

    • Bộ dữ liệu câu hỏi & trả lời tương đối dễ thiết kế và chạy nhanh chóng. Tuy nhiên, chúng có thể không phản ánh đúng rủi ro trong thế giới thực do các định dạng vốn bị ràng buộc của chúng. Các nhóm sẽ tiếp tục khám phá khả năng thiết kế các bộ dữ liệu là proxy tốt cho các tập hợp nhiệm vụ phức tạp hơn và có thể kích hoạt một bộ thử nghiệm toàn diện, tốn thời gian hơn.
    • Thử nghiệm trên người so sánh hiệu suất của các đối tượng có quyền truy cập mô hình với hiệu suất của các đối tượng có công cụ tìm kiếm là có giá trị để đo lường các lĩnh vực liên quan đến lạm dụng. Tuy nhiên, chúng tốn thời gian, đòi hỏi các quy trình mạnh mẽ, được ghi chép đầy đủ và có thể tái tạo. Chúng tôi thấy đặc biệt quan trọng là tập trung vào việc thiết lập các đường cơ sở chuyên gia tốt, đảm bảo kích thước thử nghiệm đủ và thực hiện suy luận thống kê cẩn thận để có được các tín hiệu có ý nghĩa từ các thử nghiệm. Chúng tôi đang khám phá các cách để mở rộng cơ sở hạ tầng của mình để chạy các loại thử nghiệm này.
    • Đánh giá nhiệm vụ tự động đã được chứng minh là cung cấp thông tin cho các mô hình mối đe dọa nơi các mô hình thực hiện các hành động một cách tự chủ. Tuy nhiên, xây dựng các môi trường ảo thực tế là một trong những phong cách đánh giá chuyên sâu về kỹ thuật hơn. Các nhiệm vụ như vậy cũng yêu cầu cơ sở hạ tầng an toàn và xử lý an toàn các tương tác mô hình, bao gồm đánh giá thủ công việc sử dụng công cụ khi nhiệm vụ liên quan đến internet mở, chặn các đầu ra có khả năng gây hại và cô lập các máy уязвимой để giảm phạm vi. Những cân nhắc này làm cho việc mở rộng quy mô các nhiệm vụ trở nên khó khăn.
    • Mặc dù ít nghiêm ngặt và có thể tái tạo hơn các phương pháp được mô tả ở trên, đánh giá rủi ro chuyên gia và xem xét hành vi của mô hình thông qua bản ghi cũng đã được chứng minh là có giá trị. Các phương pháp này cho phép khám phá các khả năng của mô hình một cách cởi mở hơn và giúp dễ dàng tìm kiếm ý kiến chuyên gia về mức độ phù hợp của các nhiệm vụ hoặc câu hỏi đánh giá khác nhau.
  • Có một số câu hỏi nghiên cứu mở mà các nhóm của chúng tôi sẽ tập trung trong những tháng tới để xây dựng một quy trình đánh giá đáng tin cậy. Chúng tôi hoan nghênh nhiều khám phá hơn trong các lĩnh vực này từ cộng đồng nghiên cứu rộng lớn hơn.

    • Chúng tôi mong muốn thu thập bằng chứng về rủi ro mô hình và chuẩn bị các biện pháp giảm thiểu phù hợp trước khi đạt đến các ngưỡng nguy hiểm. Điều này đòi hỏi phải ngoại suy từ bằng chứng hiện tại đến các mức rủi ro trong tương lai. Lý tưởng nhất, các “quy luật tỷ lệ” dẫn đến các năng lực nguy hiểm sẽ trơn tru, giúp có thể dự đoán khi nào các mô hình có thể phát triển các năng lực nguy hiểm. Trong tương lai, chúng tôi hy vọng sẽ có thể dự đoán chính xác mức độ có khả năng hơn một mô hình thế hệ tiếp theo sẽ có trong một lĩnh vực nhất định.
    • Các kỹ thuật có thể được sử dụng để giúp các mô hình hoàn thành các nhiệm vụ hiệu quả hơn, bao gồm đào tạo học tăng cường theo miền cụ thể, thiết kế nhanh và tinh chỉnh có giám sát. Điều này làm cho không thể đảm bảo rằng chúng tôi đang khơi gợi tất cả các khả năng mô hình có liên quan trong quá trình kiểm tra. Một quy trình kiểm tra tốt bao gồm một nỗ lực phối hợp để vượt qua các đánh giá và đầu tư vào các cải tiến về khơi gợi khả năng. Điều này rất quan trọng để mô phỏng các kịch bản nơi các tác nhân độc hại có nguồn lực tốt bỏ qua các biện pháp kiểm soát an ninh và giành được quyền truy cập vào trọng số mô hình. Tuy nhiên, không có sự phân biệt rõ ràng giữa việc cố gắng hết sức để khơi gợi một khả năng nguy hiểm trong một số mô hình và chỉ đơn giản là đào tạo một mô hình để có khả năng đó. Chúng tôi hy vọng sẽ đưa ra các tuyên bố chính xác và có nguyên tắc hơn về việc khơi gợi đủ sẽ trông như thế nào trong các phiên bản chính sách trong tương lai.
    • Có giá trị đáng kể trong việc làm cho quy trình đánh giá rủi ro của chúng tôi trở nên dễ hiểu bên ngoài. Do đó, chúng tôi đã nhắm đến việc chỉ định trước các kết quả kiểm tra mà chúng tôi nghĩ là biểu thị một mức rủi ro không thể chấp nhận được khi không được giảm thiểu. Các cam kết rõ ràng này giúp tránh áp lực sản xuất khuyến khích việc nới lỏng các tiêu chuẩn, mặc dù chúng có thể inevitable dẫn đến các ngưỡng hơi thô hoặc tùy ý. Chúng tôi muốn khám phá các cách để tổng hợp tốt hơn các nguồn bằng chứng khác nhau được mô tả ở trên trong khi vẫn duy trì tính dễ hiểu bên ngoài cho các cam kết có thể kiểm chứng. Tương tự, chúng tôi có thể khám phá xem có nên kết hợp các nguồn bằng chứng khác hay không, chẳng hạn như dự báo, thường thấy trong các lĩnh vực khác.

Tiêu chuẩn ASL-3

Các nhóm An ninh, Khoa học Căn chỉnh và Tin cậy và An toàn của chúng tôi đã tập trung vào việc phát triển tiêu chuẩn ASL-3. Mục tiêu của họ là thiết kế và thực hiện một tập hợp các biện pháp kiểm soát sẽ giảm thiểu đủ rủi ro trọng số mô hình bị đánh cắp bởi các tác nhân phi nhà nước hoặc các mô hình bị lạm dụng thông qua các bề mặt sản phẩm của chúng tôi. Tiêu chuẩn này sẽ đủ cho nhiều mô hình có năng lực mà ngay cả tỷ lệ lạm dụng thấp cũng có thể gây ra thảm họa. Tuy nhiên, nó sẽ không đủ để xử lý các năng lực cho phép các nhóm nhà nước hoặc các nhóm có sự hỗ trợ và nguồn lực đáng kể của nhà nước. Một số suy ngẫm chính là:

  • Các kế hoạch hiện tại của chúng tôi để đảm bảo các mô hình được sử dụng một cách an toàn và có trách nhiệm trong tất cả các bề mặt sản phẩm của chúng tôi (ví dụ: Vertex, Bedrock, Claude.ai) bao gồm việc mở rộng nghiên cứu về các mô hình phân loại để tự động phát hiện và phản ứng cũng như tăng cường tất cả các khía cạnh của các thông lệ tin cậy và an toàn truyền thống.

    • Đối với lạm dụng của con người, chúng tôi hy vọng một phương pháp tiếp cận phòng thủ chiều sâu sẽ hứa hẹn nhất. Điều này sẽ liên quan đến việc sử dụng kết hợp học tăng cường từ phản hồi của con người (RLHF) và AI Hiến pháp, các hệ thống phân loại phát hiện lạm dụng ở nhiều giai đoạn trong tương tác người dùng (ví dụ: lời nhắc của người dùng, hoàn thành mô hình và ở cấp độ hội thoại) và ứng phó sự cố và vá lỗi cho các cuộc vượt ngục. Phát triển một hệ thống đầu cuối thiết thực cũng sẽ yêu cầu cân bằng chi phí, trải nghiệm người dùng và tính mạnh mẽ, lấy cảm hứng từ các kiến trúc tin cậy và an toàn hiện có.
    • Như được mô tả trong Chính sách Mở rộng Có trách nhiệm, chúng tôi sẽ đánh giá lại hệ thống đầu cuối này trước khi triển khai để đảm bảo tính mạnh mẽ chống lại các cuộc tấn công tinh vi. Chúng tôi nhấn mạnh tầm quan trọng của việc gắn các nỗ lực giảm thiểu rủi ro trực tiếp với các mô hình mối đe dọa và nhận thấy rằng các mục tiêu giảm thiểu rủi ro này được cải thiện thông qua sự cộng tác chặt chẽ giữa các nhóm phát triển phương pháp đánh giá rủi ro của chúng tôi và các nhà nghiên cứu dẫn đầu các nỗ lực mô hình hóa và đánh giá mối đe dọa của chúng tôi.
  • Việc mở rộng chương trình an ninh của chúng tôi và phát triển một lộ trình toàn diện để phòng thủ chống lại nhiều loại tác nhân phi nhà nước đã đòi hỏi một nỗ lực dâng trào: khoảng 8% tất cả nhân viên Anthropic hiện đang làm việc trong các lĩnh vực liền kề an ninh và chúng tôi hy vọng tỷ lệ đó sẽ tăng thêm khi các mô hình trở nên có giá trị kinh tế hơn đối với những kẻ tấn công. Các mô hình mối đe dọa và mục tiêu an ninh được nêu rõ trong RSP đặc biệt có giá trị đối với nhóm an ninh của chúng tôi để giúp ưu tiên và thúc đẩy các thay đổi cần thiết.

    • Việc thực hiện mức độ bảo mật theo yêu cầu của tiêu chuẩn ASL-3 sẽ yêu cầu thay đổi mọi khía cạnh trong quy trình làm việc hàng ngày của nhân viên. Để thực hiện những thay đổi này một cách chu đáo, nhóm an ninh của chúng tôi đã đầu tư thời gian đáng kể vào việc xây dựng quan hệ đối tác với các nhóm, đặc biệt là các nhà nghiên cứu, để duy trì năng suất và áp dụng các biện pháp kiểm soát an ninh mạng hiện đại cho công cụ.
    • Mô hình mối đe dọa của chúng tôi giả định rằng xâm phạm thiết bị nội bộ là vectơ rủi ro cao nhất của chúng tôi. Với điều này, một trong những lĩnh vực trọng tâm chính của chúng tôi là thực hiện ủy quyền nhiều bên, kiểm soát truy cập có giới hạn thời gian để giảm rủi ro trọng số mô hình bị rò rỉ. Theo hệ thống này, nhân viên được cấp quyền truy cập tạm thời và chỉ thông qua tập hợp các quyền cần thiết nhỏ nhất. May mắn thay, Anthropic đã áp dụng văn hóa đánh giá ngang hàng trên các nhóm kỹ thuật phần mềm, nghiên cứu, truyền thông và tài chính, và do đó việc áp dụng các biện pháp kiểm soát nhiều bên khi chúng tôi tiếp cận cấp độ ASL-3 đã là một phần mở rộng được đón nhận của các chuẩn mực văn hóa hiện có này.
  • Trong một lĩnh vực phát triển nhanh như vậy, thường rất khó để xác định các biện pháp giảm thiểu rủi ro hoặc thậm chí các phương pháp chúng tôi sẽ sử dụng để đánh giá tính hiệu quả của chúng, trước. Chúng tôi muốn thực hiện các cam kết ràng buộc bất cứ khi nào có thể trong khi vẫn cho phép các mức độ tự do khi thông tin và tình huống mới phát sinh. Chúng tôi hy vọng rằng nó sẽ thiết thực nhất, cho cả tiêu chuẩn ASL-3 và các tiêu chuẩn trong tương lai, để cung cấp một bản phác thảo cấp cao về các biện pháp giảm thiểu dự kiến và đặt ra các tiêu chuẩn “chứng thực” rõ ràng mà chúng phải đáp ứng trước khi sử dụng. Ví dụ: với tiêu chuẩn an ninh của chúng tôi, chúng tôi có thể làm rõ mục tiêu phòng thủ chống lại các tác nhân phi nhà nước mà không cần chỉ định trước các biện pháp kiểm soát chi tiết và ghép nối điều này với một quy trình chứng thực hợp lý bao gồm danh sách kiểm soát chi tiết, đánh giá từ các chuyên gia không quan tâm và phê duyệt của hội đồng quản trị.

Cấu trúc Đảm bảo

Cuối cùng, các nhóm Mở rộng Có trách nhiệm, Kiểm tra Căng thẳng Căn chỉnh và Tuân thủ của chúng tôi đã tập trung vào việc khám phá các cấu trúc quản trị, điều phối và đảm bảo có thể. Chúng tôi dự định giới thiệu nhiều kiểm tra độc lập hơn theo thời gian và đang tìm cách thuê một Người quản lý Rủi ro để phát triển các cấu trúc này, dựa trên các thông lệ tốt nhất từ các ngành công nghiệp khác và nghiên cứu liên quan. Một số suy ngẫm chính là:

  • Tính chất phức tạp và đa chức năng của các luồng công việc được mô tả ở trên đòi hỏi mức độ điều phối trung tâm cao. Chúng tôi sẽ tiếp tục xây dựng một Nhóm Mở rộng Có trách nhiệm để quản lý mạng lưới phức tạp các luồng công việc và sự phụ thuộc. Giữa một loạt các ưu tiên cạnh tranh, sự ủng hộ mạnh mẽ của điều hành cũng rất cần thiết trong việc củng cố rằng việc xác định và giảm thiểu rủi ro từ các mô hình tiên phong là một ưu tiên của công ty, xứng đáng nhận được các nguồn lực đáng kể.

  • Có giá trị trong việc tạo ra một “tuyến phòng thủ thứ hai” – các nhóm có thể áp dụng một phương pháp tiếp cận đối nghịch hơn đối với các luồng công việc cốt lõi của chúng tôi. Nhóm Kiểm tra Căng thẳng Căn chỉnh của chúng tôi đã bắt đầu kiểm tra căng thẳng các đánh giá, can thiệp và thực hiện chính sách tổng thể của chúng tôi. Ví dụ: nhóm đã cung cấp các phản ánh về khả năng khơi gợi tiềm năng cùng với báo cáo đánh giá Claude 3 Opus của chúng tôi, đã được chia sẻ với Ban Giám đốc của chúng tôi và được tóm tắt trong báo cáo của chúng tôi cho Cục Công nghiệp và An ninh Bộ Thương mại Hoa Kỳ. Có thể có ý nghĩa khi xây dựng một chức năng kiểm toán nội bộ bespoke theo thời gian.

  • Ngoài việc cung cấp các cập nhật thường xuyên cho Ban Giám đốc của chúng tôi và Tổ chức Ủy thác Lợi ích Dài hạn, chúng tôi đã chia sẻ các báo cáo đánh giá và cập nhật hàng quý về tiến độ hướng tới các biện pháp giảm thiểu trong tương lai cho tất cả nhân viên. Khuyến khích nhân viên cảm thấy làm chủ RSP và chia sẻ các lĩnh vực mà họ muốn chúng tôi cải thiện chính sách đã vô cùng hữu ích, với nhân viên dựa trên nền tảng đa dạng để cung cấp những hiểu biết sâu sắc có giá trị. Chúng tôi cũng gần đây đã thực hiện một chính sách báo cáo không tuân thủ cho phép nhân viên báo cáo ẩn danh các mối quan tâm cho Cán bộ Mở rộng Có trách nhiệm của chúng tôi về việc thực hiện RSP của chúng tôi.

Đảm bảo các thế hệ mô hình tiên phong trong tương lai được đào tạo và triển khai có trách nhiệm sẽ yêu cầu đầu tư nghiêm túc từ cả Anthropic và những người khác trong toàn ngành và chính phủ. Chính sách Mở rộng Có trách nhiệm của chúng tôi đã là một điểm tập hợp mạnh mẽ với mục tiêu của nhiều nhóm trong những tháng qua kết nối trực tiếp trở lại với các luồng công việc chính ở trên. Sự tiến bộ mà chúng tôi đã đạt được trong việc vận hành an toàn trong giai đoạn này đòi hỏi sự tham gia đáng kể từ các nhóm trên khắp Anthropic và còn nhiều việc phải làm hơn nữa. Mục tiêu của chúng tôi trong việc chia sẻ những suy ngẫm này trước Hội nghị thượng đỉnh AI Seoul sắp tới là tiếp tục cuộc thảo luận về việc tạo ra các khuôn khổ chu đáo, dựa trên kinh nghiệm để quản lý rủi ro từ các mô hình tiên phong. Chúng tôi rất mong muốn thấy nhiều công ty áp dụng các khuôn khổ riêng của họ và chia sẻ kinh nghiệm của riêng họ, dẫn đến sự phát triển của các thông lệ tốt nhất được chia sẻ và thông báo cho các nỗ lực trong tương lai của chính phủ.

Recommended for You

Tạo lời nhắc tốt hơn trong bảng điều khiển nhà phát triển

Giới thiệu trình tạo lời nhắc trong bảng điều khiển nhà phát triển

Claude hiện đã có mặt ở Châu Âu

Claude hiện đã có mặt ở Châu Âu.