Một sáng kiến mới để phát triển các đánh giá mô hình của bên thứ ba

Một sáng kiến mới để phát triển các đánh giá mô hình của bên thứ ba

  • 16 min read
Một sáng kiến mới để phát triển các đánh giá mô hình của bên thứ ba
Một sáng kiến mới để phát triển các đánh giá mô hình của bên thứ ba

Sáng kiến mới để phát triển các đánh giá mô hình của bên thứ ba \ Anthropic

Một hệ sinh thái đánh giá mạnh mẽ, của bên thứ ba là rất quan trọng để đánh giá khả năng và rủi ro của AI, nhưng bối cảnh đánh giá hiện tại còn hạn chế. Phát triển các đánh giá chất lượng cao, liên quan đến an toàn vẫn còn nhiều thách thức và nhu cầu đang vượt quá nguồn cung. Để giải quyết vấn đề này, hôm nay chúng tôi giới thiệu một sáng kiến mới để tài trợ cho các đánh giá do các tổ chức bên thứ ba phát triển, những tổ chức có thể đo lường hiệu quả các khả năng nâng cao trong các mô hình AI. Khoản đầu tư của chúng tôi vào các đánh giá này nhằm nâng cao toàn bộ lĩnh vực an toàn AI, cung cấp các công cụ có giá trị mang lại lợi ích cho toàn bộ hệ sinh thái.

Trong bài đăng này, chúng tôi mô tả sáng kiến của mình để tìm nguồn cung cấp các đánh giá mới nhằm đo lường các khả năng mô hình nâng cao và vạch ra các động lực cũng như các loại đánh giá cụ thể mà chúng tôi đang ưu tiên.

Nếu bạn có đề xuất, hãy đăng ký thông qua mẫu đăng ký của chúng tôi.

Các lĩnh vực trọng tâm ưu tiên cao nhất của chúng tôi

Chúng tôi quan tâm đến việc tìm nguồn cung cấp ba lĩnh vực phát triển đánh giá chính, mà chúng tôi sẽ mô tả thêm trong bài đăng:

  1. Đánh giá Cấp độ An toàn AI
  2. Các chỉ số về khả năng nâng cao và an toàn
  3. Cơ sở hạ tầng, công cụ và phương pháp để phát triển đánh giá

Đánh giá Cấp độ An toàn AI

Chúng tôi đang tìm kiếm các đánh giá giúp chúng tôi đo lường Cấp độ An toàn AI (ASL) được xác định trong Chính sách Mở rộng Có trách nhiệm của chúng tôi. Các cấp độ này xác định các yêu cầu về an toàn và bảo mật cho các mô hình có khả năng cụ thể. Các đánh giá ASL mạnh mẽ là rất quan trọng để đảm bảo chúng tôi phát triển và triển khai các mô hình của mình một cách có trách nhiệm. Danh mục này bao gồm:

  • An ninh mạng — Các đánh giá đánh giá khả năng của các mô hình để hỗ trợ hoặc hành động tự chủ trong các hoạt động trên mạng ở cấp độ của các tác nhân đe dọa tinh vi. Chúng tôi tập trung vào các khía cạnh quan trọng của chuỗi tiêu diệt trên mạng, chẳng hạn như khám phá lỗ hổng, phát triển khai thác và di chuyển ngang. Chúng tôi đặc biệt quan tâm đến các khả năng mà nếu được tự động hóa và mở rộng quy mô, có thể gây ra rủi ro đáng kể cho cơ sở hạ tầng quan trọng và các hệ thống có giá trị kinh tế ở cấp độ tiếp cận các tác nhân đe dọa thường trực nâng cao. Các đánh giá hiệu quả trong lĩnh vực này có thể giống với các thử thách Capture The Flag (CTF) mới lạ mà không có các giải pháp có sẵn công khai. Các đánh giá hiện tại thường không đạt yêu cầu, quá đơn giản hoặc có các giải pháp dễ dàng truy cập trực tuyến.

  • Các rủi ro về hóa chất, sinh học, phóng xạ và hạt nhân (CBRN) — Chúng tôi đang ưu tiên các đánh giá đánh giá hai khả năng quan trọng: a) tiềm năng của các mô hình để tăng cường đáng kể khả năng của những người không có chuyên môn hoặc chuyên gia trong việc tạo ra các mối đe dọa CBRN và b) khả năng thiết kế các mối đe dọa CBRN mới, gây hại hơn. Một thách thức chính trong lĩnh vực này là đảm bảo rằng các đánh giá đo lường chính xác các rủi ro trong thế giới thực. Các đề xuất nên xem xét cẩn thận cách các đánh giá của họ nhắm mục tiêu vào các nút thắt nâng cấp chính xác hoặc các tiêu chí thiết kế nâng cao có thể dẫn đến các mối đe dọa CBRN thực sự, thảm khốc.

  • Tính tự chủ của mô hình — Các đánh giá đánh giá khả năng của các mô hình để hoạt động tự chủ, tập trung vào ba lĩnh vực chính:

  • Các rủi ro an ninh quốc gia khác — Các hệ thống AI có khả năng tác động đáng kể đến an ninh quốc gia, quốc phòng và các hoạt động tình báo của cả các tác nhân nhà nước và phi nhà nước. Chúng tôi cam kết phát triển một hệ thống cảnh báo sớm để xác định và đánh giá các rủi ro mới nổi phức tạp này. Do tính chất nhạy cảm của lĩnh vực này, chúng tôi mời các bên quan tâm gửi đơn đăng ký kèm theo đề xuất của bạn, bao gồm các điểm sau:

    • Xác định các mô hình đe dọa chi tiết và toàn diện về cách lạm dụng có thể được các tác nhân khác nhau tận dụng
    • Kết nối các mô hình đe dọa này với các chỉ số đánh giá ngắn gọn, có thể đo lường được
  • Thao túng xã hội — Các đánh giá đo lường mức độ các mô hình có thể khuếch đại các mối đe dọa liên quan đến thuyết phục, chẳng hạn như thông tin sai lệch và thao túng. Lĩnh vực này đặt ra hai thách thức đáng kể:

    • Phát triển một lý thuyết mạnh mẽ về cách các khả năng này leo thang các rủi ro trong thế giới thực vượt quá các đường cơ sở hiện tại
    • Cô lập và đánh giá đóng góp duy nhất của mô hình vào các rủi ro này
  • Các rủi ro không tương thích — Nghiên cứu của chúng tôi cho thấy rằng, trong một số trường hợp, các mô hình AI có thể học các mục tiêu và động cơ nguy hiểm, giữ lại chúng ngay cả sau khi huấn luyện an toàn và đánh lừa người dùng về các hành động được thực hiện để theo đuổi chúng. Các khả năng này, kết hợp với khả năng thuyết phục ở cấp độ con người và khả năng trên mạng của các mô hình AI hiện tại, làm tăng mối lo ngại của chúng tôi về các hành động tiềm tàng của các mô hình có khả năng hơn trong tương lai. Ví dụ: các mô hình trong tương lai có thể theo đuổi sự lừa dối tinh vi và khó phát hiện, bỏ qua hoặc phá hoại an ninh của một tổ chức, bằng cách khiến con người thực hiện các hành động mà họ sẽ không thực hiện hoặc trích xuất thông tin nhạy cảm. Chúng tôi đề xuất phát triển các đánh giá để theo dõi các khả năng như vậy.

Các chỉ số về khả năng nâng cao và an toàn

Ngoài các đánh giá ASL của chúng tôi, chúng tôi muốn phát triển các đánh giá đánh giá các khả năng mô hình nâng cao và các tiêu chí an toàn liên quan. Các chỉ số này sẽ cung cấp một sự hiểu biết toàn diện hơn về các điểm mạnh và rủi ro tiềm tàng của các mô hình của chúng tôi. Danh mục này bao gồm:

  • Khoa học nâng cao — Tiềm năng của AI để chuyển đổi nghiên cứu khoa học là rất lớn. Mặc dù các đánh giá như Google-Proof Q&A (GPQA) cung cấp một nền tảng vững chắc, nhưng chúng tôi tin rằng vẫn còn rất nhiều dư địa để phát triển. Chúng tôi đang tìm cách tài trợ cho sự phát triển của hàng chục nghìn câu hỏi đánh giá mới và các tác vụ đầu cuối sẽ thách thức ngay cả sinh viên tốt nghiệp. Các lĩnh vực trọng tâm của chúng tôi bao gồm:

    • Tổng hợp kiến thức (kết hợp thông tin chi tiết từ nhiều công trình)
    • Kiến thức ở cấp độ sau đại học vượt ra ngoài dữ liệu huấn luyện hiện có
    • Thực hiện dự án nghiên cứu đầu cuối tự chủ
    • Tạo giả thuyết và thiết kế mới
    • Khắc phục sự cố trong phòng thí nghiệm về các giao thức và quy trình vận hành tiêu chuẩn
    • Kiến thức ngầm (loại kiến thức chỉ có thể có được thông qua học việc trong phòng thí nghiệm)
    • Các tác vụ dài hạn liên quan đến rất nhiều quyết định để đạt được một kết quả thành công
    • Phân tích dữ liệu tự động
  • Tính có hại và từ chối — Chúng tôi cần tăng cường đánh giá khả năng của các bộ phân loại để chọn lọc phát hiện các đầu ra mô hình có khả năng gây hại, bao gồm:

    • Phân biệt giữa thông tin sử dụng kép và không sử dụng kép
    • Xác định chính xác các đầu ra liên quan đến CBRN thực sự có hại
    • Phát hiện các nỗ lực tự động hóa các sự cố trên mạng
  • Cải thiện các đánh giá đa ngôn ngữ — Điểm chuẩn khả năng thường không có sẵn trên hầu hết các ngôn ngữ trên thế giới. Chúng tôi muốn hỗ trợ các đánh giá khả năng hỗ trợ nhiều ngôn ngữ.

  • Các tác động xã hội — Các đánh giá cung cấp các đánh giá phức tạp, sắc thái, vượt ra ngoài các chỉ số bề mặt để tạo ra các đánh giá nghiêm ngặt nhắm mục tiêu vào các khái niệm như thành kiến có hại, phân biệt đối xử, quá phụ thuộc, phụ thuộc, gắn bó, ảnh hưởng tâm lý, tác động kinh tế, đồng nhất hóa và các tác động xã hội rộng lớn khác.

Cơ sở hạ tầng, công cụ và phương pháp để phát triển các đánh giá

Chúng tôi quan tâm đến việc tài trợ cho các công cụ và cơ sở hạ tầng giúp hợp lý hóa sự phát triển của các đánh giá chất lượng cao. Chúng sẽ rất quan trọng để đạt được thử nghiệm hiệu quả và hiệu quả hơn trên cộng đồng AI. Danh mục này bao gồm:

  • Nền tảng phát triển đánh giá Mẫu/Không cần mã — Tạo ra các đánh giá mạnh mẽ đòi hỏi chuyên môn sâu về chủ đề cũng như kinh nghiệm viết mã và AI. Chúng tôi đã phát hiện ra rằng đây là một sự kết hợp kỹ năng thực sự độc đáo. Chúng tôi muốn tài trợ cho sự phát triển của các nền tảng cho phép các chuyên gia về chủ đề không có kỹ năng viết mã phát triển các đánh giá mạnh mẽ có thể được xuất ở các định dạng thích hợp. Đây có thể là các công cụ giúp định dạng một đánh giá theo cấu trúc phù hợp, cũng như các công cụ cho phép lặp lại nhanh chóng và cung cấp phản hồi cho chuyên gia về chủ đề về việc liệu đánh giá mà họ đang phát triển có phải là một đánh giá mạnh mẽ hay không.

  • Các đánh giá để chấm điểm mô hình — Cải thiện khả năng của các mô hình để xem xét và chấm điểm một cách đáng tin cậy các đầu ra từ các mô hình khác bằng cách sử dụng các tiêu chí phức tạp sẽ mở ra các nút thắt trong hệ sinh thái hiện tại. Thách thức chính hiện tại là có một bộ thử nghiệm đủ đa dạng và phức tạp để đánh giá độ tin cậy của các mô hình với tư cách là người chấm điểm chất lượng cao. Để giải quyết vấn đề này, chúng tôi muốn khám phá sự phát triển của các bộ dữ liệu mở rộng trên các lĩnh vực đa dạng, trong đó mỗi bộ dữ liệu lý tưởng sẽ có các câu hỏi, nhiều câu trả lời mẫu, điểm “sự thật cơ bản” cho mỗi câu trả lời và tiêu chí theo đó câu trả lời đã được chấm điểm.

  • Thử nghiệm nâng cấp — Chúng tôi quan tâm đến việc thực hiện các đánh giá đo lường chính xác tác động của mô hình thông qua các thử nghiệm có đối chứng. Các thử nghiệm này sẽ so sánh hiệu suất tác vụ giữa các nhóm có và không có quyền truy cập mô hình. Tầm nhìn của chúng tôi là thường xuyên tiến hành các thử nghiệm quy mô lớn với sự tham gia của hàng nghìn người tham gia, cho phép chúng tôi định lượng cách các mô hình đóng góp vào kết quả nhanh hơn và tốt hơn. Tuy nhiên, có những nút thắt để thực hiện các thử nghiệm như vậy. Chúng tôi muốn hỗ trợ:

    • Sự phát triển của các mạng lưới quần thể nghiên cứu chất lượng cao, có động lực để hoàn thành các nhiệm vụ
    • Công cụ để dễ dàng chạy và phân tích các thử nghiệm

Các nguyên tắc của đánh giá tốt

Phát triển các đánh giá tuyệt vời là khó. Ngay cả một số nhà phát triển có kinh nghiệm nhất cũng rơi vào các cạm bẫy thông thường và ngay cả những đánh giá tốt nhất không phải lúc nào cũng biểu thị các rủi ro mà chúng tuyên bố đo lường. Dưới đây, chúng tôi liệt kê một số đặc điểm của các đánh giá tốt mà chúng tôi đã học được thông qua thử nghiệm và sai sót:

  1. Đủ khó: Các đánh giá phải phù hợp để đo lường các khả năng được liệt kê cho các cấp độ ASL-3 hoặc ASL-4 trong Chính sách Mở rộng Có trách nhiệm của chúng tôi và/hoặc hành vi ở cấp độ chuyên gia.

  2. Không có trong dữ liệu huấn luyện: Thông thường, các đánh giá kết thúc bằng việc đo lường khả năng ghi nhớ mô hình vì dữ liệu nằm trong bộ huấn luyện của nó. Nếu có thể và hữu ích, hãy đảm bảo mô hình chưa thấy đánh giá. Điều này giúp chỉ ra rằng đánh giá đang nắm bắt hành vi khái quát hóa vượt ra ngoài dữ liệu huấn luyện.

  3. Hiệu quả, có thể mở rộng, sẵn sàng sử dụng: Các đánh giá phải được tối ưu hóa để thực hiện hiệu quả, tận dụng tự động hóa ở những nơi có thể. Chúng phải dễ dàng triển khai bằng cơ sở hạ tầng hiện có với thiết lập tối thiểu.

  4. Khối lượng lớn nếu có thể: Mọi thứ khác đều bình đẳng, các đánh giá có 1.000 hoặc 10.000 tác vụ hoặc câu hỏi được ưu tiên hơn các đánh giá có 100 tác vụ. Tuy nhiên, các đánh giá chất lượng cao, khối lượng thấp cũng có giá trị.

  5. Chuyên môn về lĩnh vực: Nếu đánh giá là về hiệu suất của chuyên gia về một chủ đề cụ thể (ví dụ: khoa học), hãy đảm bảo sử dụng các chuyên gia về chủ đề để phát triển hoặc xem xét đánh giá.

  6. Tính đa dạng của các định dạng: Cân nhắc sử dụng các định dạng vượt ra ngoài nhiều lựa chọn, chẳng hạn như các đánh giá dựa trên tác vụ (ví dụ: xem mã có vượt qua một bài kiểm tra hay một cờ có bị bắt trong CTF hay không), các đánh giá được mô hình chấm điểm hoặc các thử nghiệm trên người.

  7. Các đường cơ sở của chuyên gia để so sánh: Thông thường, rất hữu ích khi so sánh hiệu suất của mô hình với hiệu suất của các chuyên gia về lĩnh vực đó.

  8. Tài liệu tốt và khả năng tái tạo: Chúng tôi khuyên bạn nên ghi lại chính xác cách đánh giá được phát triển và bất kỳ hạn chế hoặc cạm bẫy nào có khả năng xảy ra. Sử dụng các tiêu chuẩn như Inspect hoặc tiêu chuẩn METR nếu có thể.

  9. Bắt đầu nhỏ, lặp lại và mở rộng quy mô: Bắt đầu bằng cách chỉ viết một đến năm câu hỏi hoặc tác vụ, chạy mô hình trên đánh giá và đọc các bản ghi mô hình. Thông thường, bạn sẽ nhận ra đánh giá không nắm bắt được những gì bạn muốn kiểm tra hoặc nó quá dễ.

  10. Mô hình hóa mối đe dọa thực tế, liên quan đến an toàn: Các đánh giá an toàn lý tưởng nên có thuộc tính là nếu một mô hình đạt điểm cao, các chuyên gia sẽ tin rằng một sự cố lớn có thể xảy ra. Hầu hết thời gian, khi các mô hình hoạt động tốt, các chuyên gia đã nhận ra rằng hiệu suất cao trên phiên bản đánh giá đó là không đủ để khiến họ lo lắng.

Cách gửi đề xuất

Bạn có thể gửi đề xuất trên mẫu đăng ký của chúng tôi. Nếu có bất kỳ câu hỏi nào, vui lòng liên hệ với eval-initiative@anthropic.com.

Nhóm của chúng tôi sẽ xem xét các bài gửi trên cơ sở luân phiên và theo dõi các đề xuất đã chọn để thảo luận về các bước tiếp theo. Chúng tôi cung cấp một loạt các tùy chọn tài trợ phù hợp với nhu cầu và giai đoạn của từng dự án.

Kinh nghiệm của chúng tôi đã chỉ ra rằng việc tinh chỉnh một đánh giá thường đòi hỏi nhiều lần lặp lại. Bạn sẽ có cơ hội tương tác trực tiếp với các chuyên gia về lĩnh vực của chúng tôi từ Frontier Red Team, Finetuning, Trust & Safety và các nhóm liên quan khác. Các nhóm của chúng tôi có thể cung cấp hướng dẫn để giúp định hình các đánh giá của bạn để có tác động tối đa.

Chúng tôi hy vọng sáng kiến này đóng vai trò là chất xúc tác cho sự tiến bộ hướng tới một tương lai nơi đánh giá AI toàn diện là một tiêu chuẩn công nghiệp. Chúng tôi mời bạn tham gia cùng chúng tôi trong công việc quan trọng này và giúp định hình con đường phía trước.

Recommended for You

Các doanh nghiệp ưu tiên AI- Trường hợp cấp thiết cho các nền tảng AI có thể mở rộng, được kết nối

Các doanh nghiệp ưu tiên AI- Trường hợp cấp thiết cho các nền tảng AI có thể mở rộng, được kết nối

Các doanh nghiệp ưu tiên AI- Trường hợp cấp thiết cho các nền tảng AI có thể mở rộng, được kết nối

Giới thiệu Chương trình Tương lai Kinh tế Anthropic

Giới thiệu Chương trình Tương lai Kinh tế Anthropic