Bài phát biểu chuẩn bị của Dario Amodei tại Hội nghị thượng đỉnh An toàn AI về Chính sách Mở rộng Trách nhiệm của Anthropic

Bài phát biểu chuẩn bị của Dario Amodei tại Hội nghị thượng đỉnh An toàn AI về Chính sách Mở rộng Trách nhiệm của Anthropic

  • 9 min read
Bài phát biểu chuẩn bị của Dario Amodei tại Hội nghị thượng đỉnh An toàn AI về Chính sách Mở rộng Trách nhiệm của Anthropic
Bài phát biểu chuẩn bị của Dario Amodei tại Hội nghị thượng đỉnh An toàn AI về Chính sách Mở rộng Trách nhiệm của Anthropic

Lời phát biểu chuẩn bị của Dario Amodei tại Hội nghị An toàn AI về Chính sách Mở rộng Có trách nhiệm của Anthropic

Trước khi đi sâu vào Chính sách Mở rộng Có trách nhiệm (RSP) của Anthropic, cần giải thích một số thách thức độc đáo xung quanh việc đo lường rủi ro AI đã dẫn đến việc chúng tôi phát triển RSP. Điều quan trọng nhất cần hiểu về AI là tốc độ phát triển nhanh chóng của nó. Vài năm trước, các hệ thống AI hầu như không thể ghép lại một câu có nghĩa. Ngày nay, chúng có thể vượt qua các kỳ thi y khoa, viết thơ và kể chuyện cười. Sự tiến bộ nhanh chóng này cuối cùng được thúc đẩy bởi lượng điện toán có sẵn, vốn đang tăng gấp 8 lần mỗi năm và khó có khả năng chậm lại trong những năm tới. Tuy nhiên, xu hướng chung về sự cải thiện nhanh chóng là có thể dự đoán được, nhưng trên thực tế, rất khó để dự đoán khi nào AI sẽ có được các kỹ năng hoặc kiến thức cụ thể. Điều này không may bao gồm cả những kỹ năng nguy hiểm, chẳng hạn như khả năng chế tạo vũ khí sinh học. Do đó, chúng ta đang đối mặt với một số mối đe dọa tiềm ẩn liên quan đến AI, mặc dù tương đối hạn chế với các hệ thống hiện tại, nhưng có khả năng trở nên rất nghiêm trọng vào một thời điểm không xác định trong tương lai gần. Điều này rất khác với hầu hết các ngành công nghiệp khác: hãy tưởng tượng nếu mỗi mẫu xe hơi mới đều có cơ hội tự phát sinh một sức mạnh mới (và nguy hiểm), như khả năng kích hoạt tên lửa đẩy hoặc đạt tốc độ siêu thanh.

Chúng ta cần cả một phương pháp để thường xuyên giám sát các rủi ro mới nổi này và một quy trình để phản ứng thích hợp khi chúng xảy ra. Các chính sách mở rộng có trách nhiệm — ban đầu được đề xuất bởi Trung tâm Nghiên cứu Căn chỉnh (Alignment Research Center) — cố gắng đáp ứng nhu cầu này. Anthropic đã công bố RSP của mình vào tháng 9 và là công ty AI lớn đầu tiên làm như vậy. Nó có hai thành phần chính:

  • Đầu tiên, chúng tôi đã đưa ra một hệ thống gọi là mức độ an toàn AI (ASL), được mô phỏng lỏng theo hệ thống BSL được quốc tế công nhận để xử lý vật liệu sinh học. Mỗi cấp ASL có cấu trúc nếu-thì: Nếu một hệ thống AI thể hiện các khả năng nguy hiểm nhất định, thì chúng tôi sẽ không triển khai nó hoặc đào tạo các mô hình mạnh mẽ hơn, cho đến khi có các biện pháp bảo vệ nhất định.
  • Thứ hai, chúng tôi kiểm tra thường xuyên các khả năng nguy hiểm này theo các khoảng thời gian đều đặn dọc theo đường cong mở rộng điện toán. Điều này nhằm đảm bảo rằng chúng ta không mù quáng tạo ra các khả năng nguy hiểm mà không hề hay biết.

Trong hệ thống của chúng tôi, ASL-1 đại diện cho các mô hình có ít hoặc không có rủi ro — ví dụ, một AI chuyên dụng chơi cờ. ASL-2 đại diện cho tình hình hiện tại của chúng ta: các mô hình có nhiều rủi ro hiện tại, nhưng chưa thể hiện các khả năng nguy hiểm thực sự có thể dẫn đến các kết quả thảm khốc nếu áp dụng vào các lĩnh vực như sinh học hoặc hóa học. RSP của chúng tôi yêu cầu chúng tôi thực hiện các phương pháp thực hành tốt nhất hiện tại cho các mô hình ASL-2, bao gồm thẻ mô hình, kiểm thử từ bên ngoài và bảo mật mạnh mẽ.

ASL-3 là điểm mà các mô hình AI trở nên hữu ích về mặt hoạt động cho việc lạm dụng thảm khốc trong các lĩnh vực CBRN (Hóa học, Sinh học, Hạt nhân và Chất phóng xạ), theo định nghĩa của các chuyên gia trong các lĩnh vực đó và so với các khả năng và bằng chứng khái niệm hiện có. Khi điều này xảy ra, chúng tôi yêu cầu các biện pháp sau:

  • Các biện pháp bảo mật đặc biệt mạnh mẽ đến mức các tác nhân phi nhà nước không thể đánh cắp trọng số, và các tác nhân nhà nước sẽ phải bỏ ra nỗ lực đáng kể để làm như vậy.
  • Mặc dù (theo định nghĩa) có khả năng vốn có cung cấp thông tin làm tăng rủi ro CBRN về mặt hoạt động, các phiên bản triển khai của mô hình ASL-3 của chúng tôi không bao giờ được tạo ra thông tin như vậy, ngay cả khi được kiểm thử bởi các chuyên gia hàng đầu trong lĩnh vực này làm việc cùng với các kỹ sư AI. Điều này sẽ đòi hỏi các đột phá nghiên cứu, nhưng chúng tôi tin rằng đó là điều kiện cần thiết của sự an toàn.
  • ASL-4 phải được định nghĩa chặt chẽ vào thời điểm ASL-3 đạt được.

ASL-4 đại diện cho sự leo thang của các rủi ro lạm dụng thảm khốc từ ASL-3, và cũng bổ sung một rủi ro mới: mối quan ngại về các hệ thống AI tự hành thoát khỏi sự kiểm soát của con người và gây ra mối đe dọa đáng kể cho xã hội. Nói chung, ASL-4 sẽ được kích hoạt khi các hệ thống AI có khả năng tự hành ở mức gần con người, hoặc trở thành nguồn chính trên thế giới của ít nhất một mối đe dọa an ninh toàn cầu nghiêm trọng, chẳng hạn như vũ khí sinh học. Có khả năng ở ASL-4, chúng tôi sẽ yêu cầu hiểu biết chi tiết và chính xác về những gì đang diễn ra bên trong mô hình, để đưa ra một “lập luận khẳng định” rằng mô hình đó an toàn.

Tiếp theo, tôi sẽ đề cập ngắn gọn đến một số phương pháp thực hành và bài học kinh nghiệm chính của chúng tôi, mà chúng tôi hy vọng sẽ hữu ích cho người khác trong việc soạn thảo RSP. Thứ nhất, sự tham gia sâu sắc của ban lãnh đạo là rất quan trọng. Với tư cách là CEO, tôi cá nhân đã dành 10-20% thời gian của mình cho RSP trong 3 tháng — tôi đã viết nhiều bản nháp từ đầu, ngoài việc đưa ra và đề xuất hệ thống ASL. Một trong những người đồng sáng lập của tôi đã dành 50% thời gian để phát triển RSP trong 3 tháng. Cùng nhau, điều này đã gửi một tín hiệu có ý nghĩa đến nhân viên rằng đội ngũ lãnh đạo của Anthropic coi trọng vấn đề an toàn AI và cam kết mạnh mẽ với việc mở rộng có trách nhiệm ở tuyến đầu.

Thứ hai, hãy biến các quy trình được nêu trong RSP thành yêu cầu về sản phẩm và nghiên cứu, để chúng được tích hợp vào kế hoạch của công ty và thúc đẩy lộ trình của nhóm cũng như kế hoạch mở rộng. Đặt kỳ vọng rằng việc bỏ lỡ các thời hạn RSP sẽ ảnh hưởng trực tiếp đến khả năng của công ty trong việc tiếp tục đào tạo mô hình và cung cấp sản phẩm đúng hạn. Tại Anthropic, các nhóm như bảo mật, tin cậy và an toàn, kiểm thử, và diễn giải, đã phải tăng cường tuyển dụng đáng kể để có cơ hội hợp lý đạt được các biện pháp an toàn ASL-3 vào thời điểm chúng ta có các mô hình ASL-3.

Thứ ba, trách nhiệm giải trình là cần thiết. RSP của Anthropic là một chỉ thị chính thức của hội đồng quản trị, cuối cùng chịu trách nhiệm trước Quỹ Lợi ích Dài hạn (Long Term Benefit Trust) của chúng tôi, một hội đồng chuyên gia bên ngoài không có lợi ích tài chính nào đối với Anthropic. Về mặt hoạt động, chúng tôi sẽ đưa ra chính sách tố giác trước khi chúng tôi đạt đến ASL-3 và đã có một cán bộ chịu trách nhiệm đảm bảo tuân thủ RSP và báo cáo cho Quỹ Lợi ích Dài hạn của chúng tôi. Khi rủi ro tăng lên, chúng tôi kỳ vọng các hình thức trách nhiệm giải trình mạnh mẽ hơn sẽ cần thiết.

Cuối cùng, tôi muốn thảo luận về mối quan hệ giữa RSP và quy định. RSP không nhằm mục đích thay thế cho quy định, mà là một nguyên mẫu cho nó. Tôi không có ý rằng chúng tôi muốn RSP của Anthropic được ghi vào luật — RSP của chúng tôi chỉ là một nỗ lực đầu tiên để giải quyết một vấn đề khó khăn, và gần như chắc chắn là không hoàn hảo theo nhiều cách. Quan trọng là, khi chúng tôi bắt đầu thực hiện phiên bản đầu tiên này, chúng tôi mong đợi sẽ học hỏi được rất nhiều về cách triển khai hợp lý các cam kết như vậy. Hy vọng của chúng tôi là ý tưởng chung về RSP sẽ được hoàn thiện và cải thiện trên các công ty, và song song với đó, các chính phủ trên toàn thế giới — như những người có mặt trong phòng này — có thể lấy những yếu tố tốt nhất của mỗi bên và biến chúng thành các chế độ kiểm tra và kiểm toán được soạn thảo tốt với trách nhiệm giải trình và giám sát. Chúng tôi muốn khuyến khích một “cuộc đua lên đỉnh” trong các khuôn khổ kiểu RSP, nơi cả các công ty và quốc gia cùng xây dựng dựa trên ý tưởng của nhau, cuối cùng tạo ra một con đường để thế giới quản lý một cách khôn ngoan các rủi ro của AI mà không làm gián đoạn quá mức các lợi ích.

Chú thích cuối trang

  1. https://www.anthropic.com/news/frontier-threats-red-teaming-for-ai-safety

Recommended for You

Anthropic Ký cam kết của Nhà Trắng với Thanh niên Hoa Kỳ- Đầu tư vào Giáo dục AI

Anthropic Ký cam kết của Nhà Trắng với Thanh niên Hoa Kỳ- Đầu tư vào Giáo dục AI

Anthropic tham gia cùng Nhà Trắng và các tổ chức khác trong cam kết đầu tư vào giáo dục AI cho giới trẻ Mỹ, thúc đẩy tương lai của lực lượng lao động.

Anthropic bổ nhiệm Guillaume Princen làm Trưởng bộ phận EMEA và công bố hơn 100 vị trí mới trong khu vực

Anthropic bổ nhiệm Guillaume Princen làm Trưởng bộ phận EMEA và công bố hơn 100 vị trí mới trong khu vực

Anthropic chào đón Guillaume Princen đảm nhận vai trò Trưởng bộ phận EMEA, đồng thời công bố kế hoạch tuyển dụng mở rộng trong khu vực.