Thử nghiệm của bên thứ ba như một thành phần chính của chính sách AI
Anthropic thảo luận về vai trò quan trọng của thử nghiệm của bên thứ ba trong việc định hình và thực thi chính sách AI hiệu quả.
- 27 min read
Kiểm tra bởi bên thứ ba - Thành phần quan trọng của chính sách AI
Chúng tôi tin rằng ngành công nghiệp AI cần có các phương pháp kiểm tra hiệu quả bởi bên thứ ba đối với các hệ thống AI tiên tiến. Việc xây dựng một quy trình kiểm tra và các biện pháp can thiệp chính sách đi kèm, dựa trên những hiểu biết từ ngành, chính phủ và giới học thuật, là cách tốt nhất để ngăn chặn những tác hại tiềm ẩn cho xã hội - dù cố ý hay vô tình - từ các hệ thống AI.
Việc triển khai các hệ thống AI tạo sinh quy mô lớn như Claude đã cho chúng tôi thấy rằng cần có những nỗ lực để xây dựng một môi trường chính sách có khả năng ứng phó với năng lực của các mô hình AI mạnh mẽ nhất hiện nay, cũng như những mô hình có thể được phát triển trong tương lai. Trong bài viết này, chúng tôi sẽ thảo luận về hình thức kiểm tra của bên thứ ba, lý do tại sao nó cần thiết, và mô tả một số nghiên cứu mà chúng tôi đã thực hiện để đi đến lập trường chính sách này. Chúng tôi cũng sẽ thảo luận về cách các ý tưởng về kiểm tra liên quan đến các chủ đề khác trong chính sách AI, chẳng hạn như các mô hình có thể truy cập công khai và các vấn đề về “regulatory capture” (sự chi phối của ngành đối với cơ quan quản lý).
Tổng quan về chính sách
Các hệ thống AI tiên tiến hiện nay đòi hỏi một quy trình giám sát và kiểm tra bởi bên thứ ba để xác nhận tính an toàn của chúng. Đặc biệt, chúng ta cần sự giám sát này để hiểu và phân tích hành vi của mô hình liên quan đến các vấn đề như tính toàn vẹn bầu cử, phân biệt đối xử có hại và khả năng lạm dụng an ninh quốc gia. Chúng tôi cũng kỳ vọng rằng các hệ thống mạnh mẽ hơn trong tương lai sẽ yêu cầu sự giám sát sâu hơn - như đã thảo luận trong bài viết ‘Quan điểm cốt lõi về an toàn AI’ của chúng tôi, chúng tôi cho rằng có khả năng các phương pháp phát triển AI hiện tại có thể tạo ra các hệ thống có năng lực to lớn, và chúng tôi kỳ vọng rằng các hệ thống ngày càng mạnh mẽ hơn sẽ cần các quy trình kiểm tra mở rộng hơn. Một quy trình kiểm tra mạnh mẽ bởi bên thứ ba có vẻ là một cách tốt để bổ sung cho các quy định đặc thù ngành cũng như phát triển khả năng cho các phương pháp chính sách chung hơn.
Việc xây dựng một quy trình kiểm tra bởi bên thứ ba cho các hệ thống AI ngày nay dường như mang lại cho chúng ta một trong những công cụ tốt nhất để quản lý các thách thức của AI hiện tại, đồng thời cung cấp cơ sở hạ tầng mà chúng ta có thể sử dụng cho các hệ thống trong tương lai. Chúng tôi kỳ vọng rằng cuối cùng, một hình thức kiểm tra của bên thứ ba sẽ trở thành yêu cầu pháp lý để triển khai rộng rãi các mô hình AI, nhưng việc thiết kế quy trình này và xác định chính xác các tiêu chuẩn mà hệ thống AI nên được đánh giá là điều chúng ta sẽ cần phải lặp lại trong những năm tới - chưa rõ điều gì là phù hợp hoặc hiệu quả ngày hôm nay, và cách để biết điều đó là thông qua việc tạo mẫu quy trình này và thu thập bằng chứng về nó.
Một quy trình kiểm tra hiệu quả bởi bên thứ ba sẽ:
- Mang lại cho mọi người và các tổ chức niềm tin lớn hơn vào các hệ thống AI.
- Được phạm vi hóa chính xác, sao cho việc vượt qua các bài kiểm tra không trở thành gánh nặng quá lớn, gây bất lợi cho các công ty nhỏ.
- Chỉ áp dụng cho một tập hợp hẹp các hệ thống lớn nhất, đòi hỏi nhiều tài nguyên tính toán nhất; nếu được triển khai đúng cách, phần lớn các hệ thống AI sẽ không nằm trong phạm vi của quy trình kiểm tra này.
- Cung cấp phương tiện để các quốc gia và các nhóm quốc gia phối hợp với nhau thông qua việc phát triển các tiêu chuẩn chung và thử nghiệm các thỏa thuận Công nhận lẫn nhau.
Một quy trình như vậy sẽ có các thành phần chính sau đây [1]:
- Các bài kiểm tra hiệu quả và được tin cậy rộng rãi để đo lường hành vi và các tiềm năng lạm dụng của một hệ thống AI nhất định.
- Các bên thứ ba đáng tin cậy và hợp pháp có thể thực hiện các bài kiểm tra này và kiểm toán quy trình kiểm tra của công ty.
Tại sao chúng ta cần một quy trình kiểm tra hiệu quả?
Quy trình này là cần thiết bởi vì các hệ thống AI tiên tiến - đặc biệt là các mô hình tạo sinh quy mô lớn tiêu tốn nhiều tài nguyên tính toán - không phù hợp với các khuôn khổ sử dụng theo trường hợp cụ thể và theo ngành hiện nay. Các hệ thống này được thiết kế để trở thành các “máy mọi thứ” - Gemini, ChatGPT và Claude đều có thể được điều chỉnh cho vô số các trường hợp sử dụng hạ nguồn, và hành vi của các hệ thống hạ nguồn luôn thừa hưởng một phần năng lực và điểm yếu của hệ thống tiên tiến mà chúng dựa vào.
Các hệ thống này cực kỳ mạnh mẽ và hữu ích, nhưng chúng cũng tiềm ẩn rủi ro lạm dụng nghiêm trọng hoặc tai nạn do AI gây ra. Chúng tôi muốn giúp đưa ra một hệ thống giúp giảm đáng kể khả năng xảy ra các vụ lạm dụng hoặc tai nạn nghiêm trọng do công nghệ AI gây ra, đồng thời vẫn cho phép triển khai rộng rãi các khía cạnh mang lại lợi ích của nó. Ngoài mong muốn rõ ràng là ngăn chặn các tai nạn hoặc lạm dụng lớn vì lợi ích của chính nó, các sự cố lớn có khả năng dẫn đến các hành động điều chỉnh cực đoan, vội vàng, dẫn đến một tình huống “tồi tệ nhất của cả hai thế giới” nơi quy định vừa kìm hãm vừa không hiệu quả. Chúng tôi tin rằng vì nhiều lý do, việc chủ động thiết kế các quy định hiệu quả và được cân nhắc kỹ lưỡng sẽ tốt hơn.
Các hệ thống cũng có khả năng hiển thị các hành vi mới lạ, tự động có thể dẫn đến các tai nạn nghiêm trọng - ví dụ, các hệ thống có thể chèn các lỗ hổng bảo mật vào mã mà chúng được yêu cầu tạo ra hoặc, khi được yêu cầu thực hiện một nhiệm vụ phức tạp với nhiều bước, thực hiện một số hành động mâu thuẫn với ý định của con người. Mặc dù những hành vi này rất khó đo lường, việc phát triển các công cụ để đo lường chúng ngay hôm nay như một biện pháp bảo hiểm chống lại việc chúng biểu hiện trong các hệ thống được triển khai rộng rãi là điều đáng giá.
Tại Anthropic, chúng tôi đã triển khai các hệ thống tự quản trị mà chúng tôi tin rằng sẽ giảm đáng kể rủi ro lạm dụng hoặc tai nạn từ các công nghệ mà chúng tôi đã phát triển. Phương pháp chính của chúng tôi là Chính sách Mở rộng Trách nhiệm (RSP), cam kết chúng tôi kiểm tra các hệ thống tiên tiến của mình, như Claude, về các rủi ro lạm dụng và tai nạn, và chỉ triển khai các mô hình vượt qua các bài kiểm tra an toàn của chúng tôi. Nhiều nhà phát triển AI khác sau đó đã áp dụng hoặc đang áp dụng các khuôn khổ có nhiều điểm tương đồng đáng kể với RSP của Anthropic.
Tuy nhiên, mặc dù Anthropic đang đầu tư vào RSP của mình (và các tổ chức khác cũng đang làm tương tự), chúng tôi tin rằng loại hình kiểm tra này là chưa đủ vì nó dựa vào các quyết định tự quản trị của các đơn vị tư nhân riêng lẻ. Cuối cùng, việc kiểm tra sẽ cần được thực hiện theo cách được tin cậy rộng rãi, và nó sẽ cần được áp dụng cho tất cả mọi người phát triển các hệ thống tiên tiến. Cách tiếp cận kiểm tra toàn ngành này không có gì lạ - hầu hết các lĩnh vực kinh tế quan trọng đều được quy định thông qua các tiêu chuẩn an toàn sản phẩm và quy trình kiểm tra, bao gồm thực phẩm, y tế, ô tô và hàng không vũ trụ.
Một quy trình kiểm tra mạnh mẽ sẽ trông như thế nào?
Một quy trình kiểm tra hiệu quả bởi bên thứ ba có thể giúp xác định và ngăn chặn các rủi ro tiềm ẩn của các hệ thống AI. Nó sẽ yêu cầu:
- Một sự hiểu biết chung giữa ngành, chính phủ và giới học thuật về hình thức của một khuôn khổ kiểm tra an toàn AI - những gì nó nên và không nên bao gồm.
- Một giai đoạn ban đầu nơi các công ty thực hiện các lần chạy thử nghiệm để triển khai kiểm tra, đôi khi có sự giám sát của bên thứ ba, để đảm bảo các bài kiểm tra hoạt động, có tính khả thi và có thể được bên thứ ba xác nhận.
- Một quy trình kiểm tra hai giai đoạn: nên có một giai đoạn kiểm tra tự động, rất nhanh mà các công ty áp dụng cho hệ thống của họ. Giai đoạn này nên bao phủ một phạm vi rộng và ưu tiên tránh các kết quả âm tính giả. Nếu giai đoạn này phát hiện các vấn đề tiềm ẩn, nên có một bài kiểm tra thứ cấp kỹ lưỡng hơn, có thể sử dụng phương pháp khai thác do chuyên gia thực hiện.
- Tăng cường nguồn lực cho các bộ phận của chính phủ sẽ giám sát và xác nhận các bài kiểm tra - việc xây dựng và phân tích các bài kiểm tra là công việc chi tiết, tốn kém và kỹ thuật, do đó chính phủ sẽ cần tìm cách tài trợ cho các đơn vị thực hiện công việc này.
- Một bộ các bài kiểm tra bắt buộc được phạm vi hóa cẩn thận - chúng ta sẽ cần các bài kiểm tra cụ thể, bắt buộc theo luật khi có rõ ràng các yếu tố khuyến khích kém cho việc tự quản trị của ngành, và lợi ích an toàn công cộng từ sự giám sát của chính phủ vượt trội hơn gánh nặng pháp lý. Chúng ta nên đảm bảo đây là một bộ bài kiểm tra nhỏ, được phạm vi hóa tốt, nếu không chúng ta sẽ tạo ra các gánh nặng pháp lý và tăng khả năng bị “regulatory capture”.
- Một sự cân bằng hiệu quả giữa việc đảm bảo an toàn và sự dễ dàng trong việc thực hiện các bài kiểm tra này.
Khi nói đến các bài kiểm tra, chúng ta đã có thể xác định một lĩnh vực hiện nay mà việc kiểm tra bởi bên thứ ba có vẻ hữu ích và phát huy thế mạnh tự nhiên của các chính phủ: rủi ro an ninh quốc gia. Chúng ta nên xác định một bộ các khả năng AI mà nếu bị lạm dụng, có thể gây tổn hại đến an ninh quốc gia, sau đó kiểm tra hệ thống của chúng ta về các khả năng này. Các khả năng như vậy có thể bao gồm khả năng tăng tốc đáng kể việc tạo ra vũ khí sinh học hoặc thực hiện các cuộc tấn công mạng phức tạp. (Nếu hệ thống có khả năng này, thì điều đó sẽ dẫn đến việc chúng ta thay đổi cách triển khai mô hình - ví dụ, loại bỏ một số khả năng khỏi các mô hình được triển khai rộng rãi và/hoặc giới hạn một số khả năng của mô hình thông qua các chế độ ‘biết khách hàng của bạn’, và đảm bảo các cơ quan chính phủ liên quan nhận thức được rằng chúng ta có các hệ thống với các khả năng này.) Chúng tôi kỳ vọng có nhiều lĩnh vực mà xã hội cuối cùng sẽ yêu cầu các phương pháp kiểm tra hợp pháp bởi bên thứ ba, và an ninh quốc gia chỉ là một trong số đó.
Khi nói đến bên thứ ba thực hiện việc kiểm tra, sẽ có vô số bên và các bài kiểm tra sẽ được thực hiện vì nhiều lý do khác nhau, mà chúng tôi nêu ra ở đây:
- Các công ty tư nhân: Các công ty có thể ký hợp đồng với các công ty khác để xây dựng các bài kiểm tra và đánh giá cho hệ thống của họ, như chúng tôi đã làm với các công ty như Gryphon Scientific. Chúng ta cũng có thể hình dung các công ty thực hiện kiểm tra cho các công ty khác khi các bài kiểm tra đó được luật pháp quy định nhưng không do các cơ quan chính phủ thực hiện, tương tự như cách các công ty kế toán kiểm toán sổ sách của các công ty tư nhân.
- Các trường đại học: Ngày nay, nhiều nhà nghiên cứu tại nhiều cơ sở giáo dục đại học có quyền truy cập miễn phí hoặc được trợ cấp vào các mô hình do các phòng thí nghiệm AI phát triển; trong tương lai, chúng ta có thể hình dung một số tổ chức nghiên cứu này thực hiện các sáng kiến kiểm tra của riêng họ, một số trong đó có thể được giám sát hoặc nâng cao thông qua các cơ quan chính phủ.
- Chính phủ: Một số bài kiểm tra (chúng tôi nghi ngờ, một số lượng tương đối nhỏ) có thể được quy định theo luật và do các cơ quan chính phủ thực hiện - ví dụ, để kiểm tra các lạm dụng liên quan đến an ninh quốc gia của các hệ thống AI. Ở đây, các cơ quan chính phủ có thể tự thực hiện các bài kiểm tra.
Cuối cùng, chúng tôi kỳ vọng rằng việc kiểm tra bởi bên thứ ba sẽ được thực hiện bởi một hệ sinh thái đa dạng gồm nhiều tổ chức khác nhau, tương tự như cách an toàn sản phẩm được đạt được trong các lĩnh vực kinh tế khác ngày nay. Vì AI đa dụng, được thương mại hóa rộng rãi là một công nghệ tương đối mới, chúng tôi không nghĩ rằng cấu trúc của hệ sinh thái này rõ ràng ngày hôm nay và nó sẽ trở nên rõ ràng hơn thông qua tất cả các tác nhân trên thực hiện các thử nghiệm kiểm tra khác nhau. Chúng ta cần bắt đầu làm việc với quy trình kiểm tra này ngay hôm nay, vì sẽ mất nhiều thời gian để xây dựng.
Chúng tôi tin rằng chúng tôi - và các bên tham gia khác trong việc phát triển AI - sẽ cần thực hiện nhiều thử nghiệm kiểm tra để làm đúng điều này. Mức độ rủi ro là cao: nếu chúng ta đưa ra một phương pháp không đo lường chính xác sự an toàn nhưng dễ thực hiện, chúng ta có nguy cơ không làm được gì có ý nghĩa hoặc hữu ích. Nếu chúng ta đưa ra một phương pháp đo lường chính xác sự an toàn nhưng khó thực hiện, chúng ta có nguy cơ tạo ra một hệ sinh thái kiểm tra ưu ái các công ty có nhiều nguồn lực hơn, do đó làm giảm khả năng tham gia của các bên nhỏ hơn.
Cách Anthropic hỗ trợ các quy trình kiểm tra công bằng, hiệu quả
Trong tương lai, Anthropic sẽ thực hiện các hoạt động sau đây để hỗ trợ chính phủ trong việc phát triển các quy trình kiểm tra hiệu quả bởi bên thứ ba:
- Tạo mẫu quy trình kiểm tra thông qua việc triển khai RSP của chúng tôi và chia sẻ những gì chúng tôi học được.
- Kiểm tra đánh giá của bên thứ ba đối với hệ thống của chúng tôi thông qua các nhà thầu và đối tác chính phủ.
- Đào sâu công việc red teaming tiên tiến của chúng tôi để cung cấp cho chúng tôi và toàn ngành một cái nhìn rõ ràng hơn về các rủi ro của hệ thống AI và các biện pháp giảm thiểu chúng.
- Vận động các chính phủ tài trợ cho các cơ quan và tổ chức có thể giúp phát triển một quy trình kiểm tra hiệu quả bởi bên thứ ba (ví dụ: ở Hoa Kỳ, NIST, Viện An toàn AI Hoa Kỳ, Tài nguyên Nghiên cứu AI Quốc gia, việc sử dụng siêu máy tính của Bộ Năng lượng cho kiểm tra AI, v.v.).
- Khuyến khích các chính phủ xây dựng “Đám mây Nghiên cứu Quốc gia” của riêng họ (như Tài nguyên Nghiên cứu AI Quốc gia ở Hoa Kỳ) để họ có thể a) phát triển năng lực độc lập trong giới học thuật và chính phủ để xây dựng, nghiên cứu và kiểm tra các hệ thống AI tiên tiến, và b) làm việc về khoa học đánh giá các hệ thống AI, bao gồm cả những hệ thống do các công ty tư nhân như Anthropic phát triển.
Việc phát triển một quy trình kiểm tra và các biện pháp can thiệp chính sách đi kèm, dựa trên những hiểu biết từ ngành, chính phủ và giới học thuật, là cách tốt nhất để ngăn chặn những tác hại cho xã hội - dù cố ý hay vô tình - từ các hệ thống AI.
Kiểm tra liên kết với các ưu tiên chính sách rộng hơn của chúng tôi như thế nào
Mục tiêu chính sách tổng thể của chúng tôi là có sự giám sát phù hợp đối với lĩnh vực AI. Chúng tôi tin rằng điều này chủ yếu sẽ đạt được thông qua việc có một hệ sinh thái hiệu quả cho việc kiểm tra và đánh giá bởi bên thứ ba các hệ thống AI. Dưới đây là một số ý tưởng chính sách AI mà bạn có thể mong đợi chúng tôi vận động để hỗ trợ điều đó:
Tăng cường tài trợ cho việc kiểm tra và đánh giá AI trong chính phủ
- Các quy trình kiểm tra và đánh giá hiệu quả là điều kiện tiên quyết cần thiết cho bất kỳ hình thức chính sách AI hiệu quả nào. Chúng tôi nghĩ rằng các chính phủ nên thành lập và hỗ trợ các tổ chức phát triển đánh giá AI, cũng như tập hợp ngành, giới học thuật và các bên liên quan khác để thống nhất các tiêu chuẩn về an toàn của hệ thống AI. Tại Hoa Kỳ, chúng tôi đặc biệt ủng hộ tăng cường tài trợ cho NIST.
Hỗ trợ đánh giá AI tốt hơn thông qua cơ sở hạ tầng công cho nghiên cứu AI
- Chúng ta cần khẩn cấp tăng số lượng và phạm vi của những người tham gia vào việc kiểm tra và đánh giá các hệ thống AI, cả về các rủi ro hiện tại và tương lai. Do đó, điều quan trọng là các chính phủ phải tạo ra cơ sở hạ tầng thử nghiệm để giúp các nhà nghiên cứu học thuật kiểm tra và đánh giá các hệ thống AI tiên tiến, và phát triển các hệ thống tiên tiến của riêng họ cho các mục đích có lợi. Để biết thêm thông tin, hãy xem sự ủng hộ của chúng tôi đối với một đám mây nghiên cứu quốc gia của Hoa Kỳ thông qua Đạo luật CREATE AI và lời khai trước Thượng viện của chúng tôi.
Phát triển các bài kiểm tra cho các khả năng cụ thể, liên quan đến an ninh quốc gia
- Chúng ta nên biết liệu các hệ thống AI có thể được sử dụng theo những cách làm tăng cường hoặc (nếu được triển khai bởi một thực thể khác) làm suy yếu an ninh quốc gia hay không. Trong khi khu vực tư nhân và giới học thuật có thể phát triển phần lớn các bài kiểm tra, một số câu hỏi kiểm tra và đánh giá liên quan đến các khả năng an ninh quốc gia được phân loại, vì vậy chỉ một số chính phủ mới có thể đánh giá chúng một cách hiệu quả. Do đó, chúng tôi muốn hỗ trợ các nỗ lực của Chính phủ Hoa Kỳ trong việc phát triển các cách thức kiểm tra hệ thống AI về các khả năng liên quan đến an ninh quốc gia. Chúng tôi cũng sẽ tiếp tục công việc của mình để hiểu rõ hơn về khả năng của các hệ thống của chúng tôi.
Lập kế hoạch kịch bản và phát triển bài kiểm tra cho các hệ thống ngày càng tiên tiến
- Chính sách Mở rộng Trách nhiệm của chúng tôi được thiết kế để đi trước trong việc đánh giá và kiểm tra các khả năng trong tương lai, giả định của các hệ thống AI. Điều này nhằm đảm bảo chúng tôi có các bài kiểm tra liên quan để đánh giá và giảm thiểu tốt hơn các rủi ro tai nạn và lạm dụng từ các hệ thống AI ngày càng mạnh mẽ. Tuy nhiên, chúng tôi không khẳng định rằng RSP của chúng tôi phân định tất cả các bài kiểm tra cần được thực hiện đối với các mô hình ngày càng mạnh mẽ hơn. Khi AI tiến bộ do sức mạnh tính toán ngày càng tăng, một nhóm tác nhân rộng hơn nên làm việc để dự đoán các khả năng trong tương lai của hệ thống AI và phát triển các bài kiểm tra cho chúng.
Các khía cạnh của chính sách AI mà chúng tôi tin là quan trọng để thảo luận
Trong khi phát triển cách tiếp cận chính sách của mình, chúng tôi cũng nhận thấy mình liên tục quay trở lại một vài vấn đề cụ thể như các mô hình có thể truy cập công khai và “regulatory capture”. Chúng tôi đã trình bày suy nghĩ chính sách hiện tại của mình bên dưới nhưng nhận ra đây là những vấn đề phức tạp mà mọi người thường không đồng ý.
-
Các mô hình được phổ biến công khai và/hoặc mã nguồn mở: Khoa học tiến triển phần lớn nhờ vào nền văn hóa cởi mở và minh bạch xung quanh nghiên cứu. Điều này đặc biệt đúng trong lĩnh vực AI, nơi phần lớn cuộc cách mạng đang diễn ra hiện nay được xây dựng dựa trên việc công bố nghiên cứu và các mô hình như Transformer, BERT, Vision Transformers, v.v. Ngoài ra còn có một lịch sử lâu dài về các hệ thống mã nguồn mở và có thể truy cập công khai làm tăng cường độ bền của môi trường bảo mật bằng cách giúp nhiều người hơn thử nghiệm với công nghệ và xác định các điểm yếu tiềm ẩn của chúng.
Chúng tôi tin rằng phần lớn các hệ thống AI hiện nay (có lẽ là tất cả) đều an toàn để phổ biến công khai và sẽ an toàn để phổ biến rộng rãi trong tương lai. Tuy nhiên, chúng tôi tin rằng trong tương lai, có thể khó để dung hòa một nền văn hóa phổ biến hoàn toàn các hệ thống AI tiên tiến với một nền văn hóa an toàn xã hội.
Nếu - và “nếu” là một điểm quan trọng và chưa được giải quyết - các mô hình AI ngày càng có năng lực có thể dẫn đến các tác động bất lợi, hoặc giữ khả năng xảy ra các tai nạn thảm khốc, thì chúng ta sẽ cần điều chỉnh các chuẩn mực về những gì được phổ biến công khai ở cấp độ tiên tiến.
Cụ thể, chúng ta sẽ cần đảm bảo rằng các nhà phát triển AI phát hành hệ thống của họ theo cách cung cấp các đảm bảo mạnh mẽ về an toàn - ví dụ, nếu chúng tôi phát hiện một việc lạm dụng có ý nghĩa đối với mô hình của mình, chúng tôi có thể đặt các bộ phân loại để phát hiện và chặn các nỗ lực khai thác việc lạm dụng đó, hoặc chúng tôi có thể giới hạn khả năng tinh chỉnh hệ thống thông qua quy tắc ‘biết khách hàng của bạn’ cùng với các nghĩa vụ hợp đồng không được tinh chỉnh theo hướng lạm dụng cụ thể. So với điều đó, nếu ai đó muốn phát hành công khai trọng số của một mô hình có khả năng lạm dụng tương tự, họ sẽ cần phải vừa làm cứng mô hình chống lại việc lạm dụng đó (ví dụ, thông qua đào tạo RLHF hoặc RLAIF) vừa tìm cách làm cho mô hình này có khả năng chống lại các nỗ lực tinh chỉnh nó trên một tập dữ liệu cho phép lạm dụng đó. Chúng ta cũng sẽ cần thử nghiệm các quy trình tiết lộ, tương tự như cách cộng đồng bảo mật đã phát triển các chuẩn mực về việc thông báo trước về việc tiết lộ các lỗ hổng zero-day.
Mặc dù những gì chúng tôi đã mô tả về bản chất là rất tốn kém, chúng tôi cũng tin rằng điều đó là cần thiết - chúng ta phải làm mọi thứ có thể để tránh các hệ thống AI cho phép lạm dụng nghiêm trọng hoặc gây ra tai nạn lớn. Tuy nhiên, việc thực hiện bất kỳ hạn chế nào đối với việc phổ biến công khai các hệ thống AI phụ thuộc vào việc có sự đồng thuận rộng rãi về những gì là lạm dụng không thể chấp nhận được của hệ thống AI hoặc hành vi hệ thống.
Anthropic không phải là một bên trung lập ở đây - chúng tôi là một công ty chủ yếu phát triển các hệ thống độc quyền, và chúng tôi không có đủ uy tín để đưa ra tuyên bố ở đây về những gì nên hoặc không nên được chấp nhận trong các hệ thống được phổ biến công khai. Do đó, để giải quyết các câu hỏi về các mô hình mã nguồn mở, chúng tôi cần các bên thứ ba hợp pháp phát triển các phương pháp kiểm tra và đánh giá được chấp nhận rộng rãi là hợp pháp, chúng tôi cần các bên thứ ba này (hoặc các thực thể đáng tin cậy khác) xác định một bộ lạm dụng hệ thống AI hẹp và nghiêm trọng cũng như các hành vi hệ thống AI bất lợi, và chúng ta sẽ cần áp dụng các bài kiểm tra này cho các mô hình cả hai đều được kiểm soát (ví dụ: thông qua API) hoặc được phổ biến công khai (ví dụ: thông qua việc phát hành trọng số).
Việc kiểm tra bởi bên thứ ba các mô hình được phổ biến công khai và các mô hình độc quyền kín có thể tạo ra thông tin thiết yếu mà chúng ta cần để hiểu các thuộc tính an toàn của cảnh quan AI [2]. Nếu chúng ta không làm điều này, bạn có thể rơi vào tình huống mà một mô hình độc quyền hoặc một mô hình có thể truy cập công khai trực tiếp cho phép lạm dụng nghiêm trọng hoặc gây ra một tai nạn AI lớn - và nếu điều đó xảy ra, có thể có những tổn hại đáng kể cho con người và cũng có khả năng các quy định bất lợi được áp dụng cho lĩnh vực AI.
-
Regulatory capture (Sự chi phối của ngành đối với cơ quan quản lý): Bất kỳ hình thức chính sách nào cũng có thể bị “regulatory capture” bởi một thực thể đủ động lực và có nguồn lực dồi dào: ví dụ, một công ty AI có vốn hóa lớn. Một số ý tưởng chúng tôi thảo luận ở trên về các mô hình có thể truy cập công khai là những loại điều tự bản thân chúng dễ bị “regulatory capture”. Điều quan trọng là hệ sinh thái AI phải luôn mạnh mẽ và cạnh tranh - AI là một lĩnh vực phức tạp và cơ hội tốt nhất của nhân loại để làm đúng điều này có lẽ đến từ việc có một tập hợp đa dạng, rộng lớn các bên tham gia vào việc phát triển và giám sát nó.
Chúng tôi thường ủng hộ các sáng kiến kiểm tra và đo lường bởi bên thứ ba vì chúng dường như là loại cơ sở hạ tầng chính sách giúp chúng ta xác định và ngăn chặn các tác hại cụ thể cũng như xây dựng năng lực tồn tại độc lập với các công ty lớn. Do đó, chúng tôi nghĩ rằng việc tập trung vào phát triển năng lực kiểm tra bởi bên thứ ba có thể giảm rủi ro “regulatory capture” và tạo ra một sân chơi bình đẳng cho các nhà phát triển. Ngược lại, các tập đoàn do ngành dẫn đầu có thể có xu hướng ưu tiên các phương pháp liên quan đến chi phí tuân thủ cao đối với các công ty bất kể quy mô của họ - một phương pháp vốn ưu ái các doanh nghiệp lớn hơn có thể chi nhiều tiền hơn cho việc tuân thủ chính sách.
Tại sao chúng tôi thận trọng trong những gì chúng tôi ủng hộ về chính sách AI
Khi phát triển các lập trường chính sách của mình, chúng tôi giả định rằng các quy định có xu hướng tạo ra gánh nặng hành chính cho cả bên thực thi quy định (ví dụ: chính phủ) và bên bị điều chỉnh (ví dụ: các nhà phát triển AI). Do đó, chúng tôi nên ủng hộ các chính sách vừa có tính thực tế để thực thi vừa có tính khả thi để tuân thủ. Chúng tôi cũng lưu ý rằng các quy định có xu hướng tích lũy - một khi được thông qua, các quy định rất khó loại bỏ. Do đó, chúng tôi ủng hộ những gì chúng tôi coi là “chính sách khả dụng tối thiểu” để tạo ra một hệ sinh thái AI tốt, và chúng tôi sẽ cởi mở với phản hồi.
Tại sao chính sách AI lại quan trọng
Các hệ thống AI ngày nay và các hệ thống tương lai có sức mạnh to lớn và có khả năng mang lại lợi ích to lớn cho xã hội. Chúng tôi cũng tin rằng các hệ thống này có tiềm năng lạm dụng không nhỏ, hoặc có thể gây ra tai nạn nếu được triển khai kém. Mặc dù phần lớn công việc của chúng tôi mang tính kỹ thuật, chúng tôi đã đi đến niềm tin rằng việc kiểm tra là nền tảng cho sự an toàn của hệ thống của chúng tôi - đó không chỉ là cách chúng tôi hiểu rõ hơn về khả năng và thuộc tính an toàn của các mô hình của mình, mà còn là cách các bên thứ ba có thể xác nhận các tuyên bố mà chúng tôi đưa ra về hệ thống AI.
Chúng tôi tin rằng việc xây dựng một hệ sinh thái kiểm tra bởi bên thứ ba là một trong những cách tốt nhất để đưa nhiều thành phần xã hội hơn vào việc phát triển và giám sát các hệ thống AI. Chúng tôi hy vọng rằng bằng cách xuất bản bài viết này, chúng tôi đã có thể trình bày rõ hơn về lợi ích của việc kiểm tra bởi bên thứ ba cũng như phác thảo lập trường của chúng tôi để người khác phê bình và xây dựng dựa trên đó.
Chú thích
[1] Một số quốc gia cũng có thể thử nghiệm ’thị trường quy định’ nơi các nhà phát triển AI có thể mua và bán dịch vụ kiểm tra AI và cạnh tranh với nhau để cố gắng xây dựng và triển khai các hệ thống an toàn, hữu ích hơn một cách tuần tự.
[2] Ví dụ, nếu bạn phát hành công khai một mô hình AI, việc một bên thứ ba tinh chỉnh mô hình đó trên một tập dữ liệu do họ lựa chọn là tương đối dễ dàng. Tập dữ liệu như vậy có thể được thiết kế để tối ưu hóa cho một hành vi lạm dụng (ví dụ: lừa đảo hoặc tấn công mạng độc hại). Nếu bạn có thể phát triển công nghệ làm cho việc tinh chỉnh mô hình AI ra khỏi phân phối khả năng ban đầu của nó trở nên rất khó khăn, thì sẽ dễ dàng hơn để tự tin phát hành các mô hình mà không có khả năng làm tổn hại đến sự an toàn hạ nguồn.
Link bài viết gốc
- Tags:
- Ai
- Mar 25, 2024
- Www.anthropic.com