Vạch ra một con đường dẫn đến Trách nhiệm giải trình về AI

Anthropic thảo luận về tầm quan trọng của trách nhiệm giải trình trong AI, đề xuất các phương pháp để đảm bảo sự phát triển và triển khai có đạo đức.

  • 8 min read
Anthropic thảo luận về tầm quan trọng của trách nhiệm giải trình trong AI, đề xuất các phương pháp để đảm bảo sự phát triển và triển khai có đạo đức.

Lập Lộ Trình Hướng Tới Trách Nhiệm Giải Trình AI

Tuần này, Anthropic đã gửi phản hồi tới Yêu cầu Bình luận về Trách nhiệm Giải trình AI của Cơ quan Viễn thông và Thông tin Quốc gia (NTIA). Hôm nay, chúng tôi muốn chia sẻ các đề xuất của mình, vì chúng bao hàm một số đề xuất chính sách AI cốt lõi của Anthropic.

Hiện tại, không có quy trình đánh giá mạnh mẽ và toàn diện nào để đánh giá các hệ thống trí tuệ nhân tạo (AI) tiên tiến ngày nay, chứ chưa nói đến các hệ thống có năng lực cao hơn trong tương lai. Bản đệ trình của chúng tôi trình bày quan điểm của chúng tôi về các quy trình và cơ sở hạ tầng cần thiết để đảm bảo trách nhiệm giải trình của AI. Các đề xuất của chúng tôi xem xét vai trò tiềm năng của NTIA với tư cách là cơ quan điều phối đặt ra các tiêu chuẩn hợp tác với các cơ quan chính phủ khác như Viện Tiêu chuẩn và Công nghệ Quốc gia (NIST).

Trong các đề xuất của mình, chúng tôi tập trung vào các cơ chế trách nhiệm giải trình phù hợp với các mô hình AI đa năng, có năng lực cao. Cụ thể, chúng tôi đề xuất:

  • Tài trợ nghiên cứu để xây dựng các đánh giá tốt hơn

    • Tăng cường tài trợ cho nghiên cứu đánh giá mô hình AI. Việc phát triển các đánh giá nghiêm ngặt, tiêu chuẩn hóa là công việc khó khăn và tốn thời gian, đòi hỏi nguồn lực đáng kể. Tăng cường tài trợ, đặc biệt từ các cơ quan chính phủ, có thể giúp thúc đẩy tiến bộ trong lĩnh vực quan trọng này.
    • Yêu cầu các công ty trong thời gian ngắn phải tiết lộ phương pháp và kết quả đánh giá. Các công ty triển khai hệ thống AI nên bắt buộc phải đáp ứng một số yêu cầu tiết lộ liên quan đến việc đánh giá của họ, mặc dù các yêu cầu này không nhất thiết phải công khai nếu việc đó có thể làm tổn hại đến sở hữu trí tuệ (IP) hoặc thông tin bí mật. Sự minh bạch này có thể giúp các nhà nghiên cứu và nhà hoạch định chính sách hiểu rõ hơn về những thiếu sót tiềm ẩn trong các đánh giá hiện có.
    • Phát triển lâu dài một bộ tiêu chuẩn đánh giá ngành và các phương pháp hay nhất. Các cơ quan chính phủ như NIST có thể làm việc để thiết lập các tiêu chuẩn và tiêu chí đánh giá khả năng, hạn chế và rủi ro của các mô hình AI mà các công ty sẽ tuân thủ.
  • Tạo các đánh giá phản ứng theo rủi ro dựa trên khả năng của mô hình

    • Phát triển các đánh giá khả năng tiêu chuẩn cho hệ thống AI. Chính phủ nên tài trợ và tham gia vào việc phát triển các đánh giá nghiêm ngặt về khả năng và an toàn nhắm vào các rủi ro quan trọng từ AI tiên tiến, chẳng hạn như sự lừa dối và quyền tự chủ. Các đánh giá này có thể cung cấp một nền tảng dựa trên bằng chứng cho quy định có tỷ lệ tương ứng, phản ứng theo rủi ro.
    • Phát triển một ngưỡng rủi ro thông qua nghiên cứu và tài trợ sâu hơn về các đánh giá an toàn. Một khi ngưỡng rủi ro đã được thiết lập, chúng ta có thể yêu cầu đánh giá tất cả các mô hình dựa trên ngưỡng này.
      • Nếu một mô hình nằm dưới ngưỡng rủi ro này, các tiêu chuẩn an toàn hiện có có thể là đủ. Xác minh tuân thủ và triển khai.
      • Nếu một mô hình vượt quá ngưỡng rủi ro và các đánh giá an toàn cũng như các biện pháp giảm thiểu không đủ, hãy ngừng triển khai, tăng cường đáng kể việc giám sát và thông báo cho cơ quan quản lý. Xác định các biện pháp bảo vệ thích hợp trước khi cho phép triển khai.
  • Thiết lập đăng ký trước cho các đợt đào tạo AI lớn

    • Thiết lập một quy trình để các nhà phát triển AI báo cáo các đợt đào tạo lớn, đảm bảo rằng các cơ quan quản lý nhận thức được các rủi ro tiềm ẩn. Điều này bao gồm việc xác định người nhận phù hợp, thông tin yêu cầu và các biện pháp bảo vệ an ninh mạng, bảo mật, IP và quyền riêng tư phù hợp.
    • Thiết lập một sổ đăng ký bảo mật cho các nhà phát triển AI đang thực hiện các đợt đào tạo lớn để đăng ký trước thông tin chi tiết về mô hình với chính phủ quốc gia của quốc gia họ (ví dụ: thông số kỹ thuật mô hình, loại mô hình, cơ sở hạ tầng tính toán, ngày hoàn thành đào tạo dự kiến và kế hoạch an toàn) trước khi bắt đầu đào tạo. Dữ liệu đăng ký tổng hợp phải được bảo vệ ở các tiêu chuẩn và thông số kỹ thuật cao nhất hiện có.
  • Trao quyền cho các kiểm toán viên bên thứ ba có…

    • Kiến thức kỹ thuật – ít nhất một số kiểm toán viên sẽ cần có kinh nghiệm sâu về học máy;
    • Cẩn trọng về bảo mật – được định vị tốt để bảo vệ IP có giá trị, có thể gây ra mối đe dọa an ninh quốc gia nếu bị đánh cắp; và
    • Linh hoạt – có khả năng thực hiện các đánh giá mạnh mẽ nhưng nhẹ nhàng, phát hiện các mối đe dọa mà không làm suy yếu khả năng cạnh tranh của Hoa Kỳ.
  • Quy định kiểm thử tấn công (red teaming) bên ngoài trước khi phát hành mô hình

    • Quy định kiểm thử tấn công bên ngoài cho các hệ thống AI, thông qua một bên thứ ba tập trung (ví dụ: NIST) hoặc theo cách phi tập trung (ví dụ: thông qua quyền truy cập API của nhà nghiên cứu) để tiêu chuẩn hóa việc kiểm tra đối kháng các hệ thống AI. Điều này phải là điều kiện tiên quyết cho các nhà phát triển đang phát hành các hệ thống AI tiên tiến.
    • Thiết lập các tùy chọn kiểm thử tấn công bên ngoài chất lượng cao trước khi chúng trở thành điều kiện tiên quyết để phát hành mô hình. Điều này rất quan trọng vì tài năng kiểm thử tấn công hiện nay gần như hoàn toàn nằm trong các phòng thí nghiệm AI tư nhân.
  • Thúc đẩy nghiên cứu về khả năng diễn giải

    • Tăng cường tài trợ cho nghiên cứu về khả năng diễn giải. Cung cấp các khoản tài trợ và ưu đãi của chính phủ cho công việc về khả năng diễn giải tại các trường đại học, tổ chức phi lợi nhuận và công ty. Điều này sẽ cho phép thực hiện công việc có ý nghĩa trên các mô hình nhỏ hơn, thúc đẩy tiến bộ ngoài các phòng thí nghiệm tiên phong.
    • Nhận thức rằng các quy định yêu cầu mô hình có khả năng diễn giải hiện nay sẽ không khả thi, nhưng có thể khả thi trong tương lai tùy thuộc vào các tiến bộ nghiên cứu.
  • Cho phép hợp tác ngành về an toàn AI thông qua sự rõ ràng về luật chống độc quyền

    • Các cơ quan quản lý nên ban hành hướng dẫn về sự phối hợp an toàn của ngành AI được phép, có tính đến luật chống độc quyền hiện hành. Làm rõ cách các công ty tư nhân có thể hợp tác vì lợi ích công cộng mà không vi phạm luật chống độc quyền sẽ giảm bớt sự không chắc chắn về pháp lý và thúc đẩy các mục tiêu chung.

Chúng tôi tin rằng bộ đề xuất này sẽ đưa chúng ta đến gần hơn một cách đáng kể trong việc thiết lập một khuôn khổ hiệu quả cho trách nhiệm giải trình của AI. Việc này sẽ đòi hỏi sự hợp tác giữa các nhà nghiên cứu, phòng thí nghiệm AI, cơ quan quản lý, kiểm toán viên và các bên liên quan khác. Anthropic cam kết hỗ trợ các nỗ lực nhằm cho phép phát triển và triển khai an toàn các hệ thống AI. Đánh giá, kiểm thử tấn công, tiêu chuẩn, khả năng diễn giải và các nghiên cứu an toàn khác, kiểm toán và các biện pháp an ninh mạng mạnh mẽ đều là những hướng đi đầy hứa hẹn để giảm thiểu rủi ro của AI trong khi vẫn khai thác được lợi ích của nó.

Chúng tôi tin rằng AI có thể có những tác động mang tính chuyển đổi trong cuộc đời của chúng ta và chúng tôi muốn đảm bảo rằng những tác động này là tích cực. Việc tạo ra các cơ chế trách nhiệm giải trình và kiểm toán AI mạnh mẽ sẽ rất quan trọng để đạt được mục tiêu này. Chúng tôi biết ơn vì đã có cơ hội phản hồi Yêu cầu Bình luận này.

Bạn có thể đọc bản đệ trình đầy đủ của chúng tôi tại đây.


Hình ảnh

Recommended for You

Anthropic Ký cam kết của Nhà Trắng với Thanh niên Hoa Kỳ- Đầu tư vào Giáo dục AI

Anthropic Ký cam kết của Nhà Trắng với Thanh niên Hoa Kỳ- Đầu tư vào Giáo dục AI

Anthropic tham gia cùng Nhà Trắng và các tổ chức khác trong cam kết đầu tư vào giáo dục AI cho giới trẻ Mỹ, thúc đẩy tương lai của lực lượng lao động.

Anthropic bổ nhiệm Guillaume Princen làm Trưởng bộ phận EMEA và công bố hơn 100 vị trí mới trong khu vực

Anthropic bổ nhiệm Guillaume Princen làm Trưởng bộ phận EMEA và công bố hơn 100 vị trí mới trong khu vực

Anthropic chào đón Guillaume Princen đảm nhận vai trò Trưởng bộ phận EMEA, đồng thời công bố kế hoạch tuyển dụng mở rộng trong khu vực.