Củng cố Khung Khung An Toàn Tiền Tuyến của chúng tôi
Chúng tôi đang củng cố Khung An toàn Tiền tuyến (FSF) để giúp xác định và giảm thiểu các rủi ro nghiêm trọng từ các mô hình AI tiên tiến.
- 6 min read
Củng cố Khung An toàn Tiến bộ của chúng tôi - Google DeepMind
Chúng tôi đang mở rộng các lĩnh vực rủi ro và tinh chỉnh quy trình đánh giá rủi ro của mình.
Những đột phá về trí tuệ nhân tạo (AI) đang biến đổi cuộc sống hàng ngày của chúng ta, từ việc thúc đẩy toán học, sinh học và thiên văn học đến việc nhận ra tiềm năng của giáo dục cá nhân hóa. Khi chúng ta xây dựng các mô hình AI ngày càng mạnh mẽ, chúng tôi cam kết phát triển công nghệ của mình một cách có trách nhiệm và áp dụng phương pháp dựa trên bằng chứng để luôn đi trước những rủi ro mới nổi.
Hôm nay, chúng tôi công bố phiên bản thứ ba của Khung An toàn Tiến bộ (FSF) của mình — đây là cách tiếp cận toàn diện nhất của chúng tôi cho đến nay để xác định và giảm thiểu những rủi ro nghiêm trọng từ các mô hình AI tiên tiến. Bạn có thể đọc Khung An toàn Tiến bộ đầy đủ ở đây.
Bản cập nhật này dựa trên sự hợp tác liên tục của chúng tôi với các chuyên gia trong ngành, giới học thuật và chính phủ. Chúng tôi cũng đã kết hợp những bài học kinh nghiệm thu được từ việc triển khai các phiên bản trước và thực tiễn tốt nhất đang phát triển trong lĩnh vực an toàn AI tiên tiến.
Các cập nhật chính cho Khung An toàn Tiến bộ
Giải quyết rủi ro thao túng có hại
Với bản cập nhật này, chúng tôi đang giới thiệu Mức Khả năng Quan trọng (CCL)* tập trung vào thao túng có hại — cụ thể là các mô hình AI có khả năng thao túng mạnh mẽ có thể bị lạm dụng để thay đổi niềm tin và hành vi một cách có hệ thống và đáng kể trong các bối cảnh trọng yếu đã được xác định trong suốt quá trình tương tác với mô hình, dẫn đến thiệt hại bổ sung dự kiến ở quy mô nghiêm trọng.
Phần bổ sung này được xây dựng dựa trên và vận hành nghiên cứu mà chúng tôi đã thực hiện để xác định và đánh giá các cơ chế thúc đẩy thao túng từ AI tạo sinh. Trong tương lai, chúng tôi sẽ tiếp tục đầu tư vào lĩnh vực này để hiểu và đo lường tốt hơn những rủi ro liên quan đến thao túng có hại.
Điều chỉnh cách tiếp cận của chúng tôi đối với rủi ro lệch hướng
Chúng tôi cũng đã mở rộng Khung An toàn Tiến bộ để giải quyết các tình huống trong tương lai, trong đó các mô hình AI bị lệch hướng có thể cản trở khả năng của người vận hành trong việc chỉ đạo, sửa đổi hoặc ngừng hoạt động của chúng.
Mặc dù phiên bản trước của Khung An toàn Tiến bộ bao gồm một cách tiếp cận thăm dò tập trung vào CCL lý luận công cụ (tức là các mức cảnh báo cụ thể khi một mô hình AI bắt đầu suy nghĩ một cách lừa dối), nhưng với bản cập nhật này, chúng tôi hiện cung cấp thêm các giao thức cho nghiên cứu và phát triển máy học của chúng tôi. CCL tập trung vào các mô hình có thể đẩy nhanh nghiên cứu và phát triển AI đến mức độ tiềm ẩn gây mất ổn định.
Ngoài những rủi ro lạm dụng phát sinh từ những khả năng này, còn có những rủi ro lệch hướng xuất phát từ tiềm năng của mô hình đối với hành động không định hướng ở các mức khả năng này, và việc tích hợp có khả năng của các mô hình như vậy vào các quy trình phát triển và triển khai AI.
Để giải quyết những rủi ro do CCL gây ra, chúng tôi tiến hành đánh giá trường hợp an toàn trước khi ra mắt bên ngoài khi đạt được CCL có liên quan. Điều này bao gồm việc thực hiện các phân tích chi tiết chứng minh cách giảm thiểu rủi ro xuống mức có thể quản lý được. Đối với nghiên cứu và phát triển máy học tiên tiến CCL, việc triển khai nội bộ quy mô lớn cũng có thể gây rủi ro, vì vậy chúng tôi hiện đang mở rộng cách tiếp cận này để bao gồm cả việc triển khai như vậy.
Nâng cao quy trình đánh giá rủi ro của chúng tôi
Khung An toàn Tiến bộ của chúng tôi được thiết kế để giải quyết những rủi ro tương xứng với mức độ nghiêm trọng của chúng. Chúng tôi đã nâng cao các định nghĩa CCL của mình để xác định cụ thể những mối đe dọa quan trọng cần các chiến lược quản lý và giảm thiểu nghiêm ngặt nhất. Chúng tôi tiếp tục áp dụng các biện pháp giảm thiểu an toàn và bảo mật trước khi đạt đến ngưỡng CCL cụ thể và như một phần của phương pháp phát triển mô hình tiêu chuẩn của chúng tôi.
Cuối cùng, trong bản cập nhật này, chúng tôi đã đi sâu hơn vào quy trình đánh giá rủi ro của mình. Xây dựng dựa trên các đánh giá cảnh báo sớm cốt lõi của chúng tôi, chúng tôi mô tả cách chúng tôi tiến hành các đánh giá toàn diện bao gồm việc xác định rủi ro có hệ thống, phân tích toàn diện các khả năng của mô hình và xác định rõ ràng tính chấp nhận được của rủi ro.
Thúc đẩy cam kết của chúng tôi đối với an toàn tiên tiến
Bản cập nhật mới nhất này đối với Khung An toàn Tiến bộ của chúng tôi thể hiện cam kết liên tục của chúng tôi trong việc áp dụng phương pháp khoa học và dựa trên bằng chứng để theo dõi và luôn đi trước những rủi ro của AI khi khả năng tiến tới AGI. Bằng cách mở rộng các lĩnh vực rủi ro và tăng cường quy trình đánh giá rủi ro của mình, chúng tôi đặt mục tiêu đảm bảo rằng AI mang tính chuyển đổi mang lại lợi ích cho nhân loại, đồng thời giảm thiểu những tác hại tiềm tàng.
Khung An toàn Tiến bộ của chúng tôi sẽ tiếp tục phát triển dựa trên nghiên cứu mới, đầu vào của các bên liên quan và bài học kinh nghiệm từ việc triển khai. Chúng tôi vẫn cam kết làm việc cùng nhau trong ngành, giới học thuật và chính phủ.
Con đường dẫn đến AGI có lợi không chỉ đòi hỏi những đột phá về kỹ thuật mà còn cả những khung vững chắc để giảm thiểu rủi ro dọc đường. Chúng tôi hy vọng rằng Khung An toàn Tiến bộ được cập nhật của chúng tôi sẽ đóng góp một cách có ý nghĩa vào nỗ lực chung này.
*(Chú thích)Chúng tôi đã xây dựng Khung An toàn Tiến bộ xung quanh các ngưỡng khả năng được gọi là Mức Khả năng Quan trọng (CCL). Đây là các mức khả năng mà nếu không có các biện pháp giảm thiểu, các mô hình hoặc hệ thống AI tiên tiến có thể gây ra rủi ro gia tăng về thiệt hại nghiêm trọng.)