Tăng cường Khung An toàn Biên giới của chúng tôi
Trách nhiệm & An toàn
- 4 min read
Google DeepMind tăng cường Khung An toàn Biên giới (Frontier Safety Framework)
Hôm nay, chúng tôi xuất bản phiên bản thứ ba của Khung An toàn Biên giới (FSF) – cách tiếp cận toàn diện nhất của chúng tôi cho đến nay để xác định và giảm thiểu các rủi ro nghiêm trọng từ các mô hình AI tiên tiến. Cập nhật này mở rộng các lĩnh vực rủi ro của chúng tôi và tinh chỉnh quy trình đánh giá rủi ro của chúng tôi.
AI mang lại những tiến bộ vượt bậc trong nhiều lĩnh vực, từ khoa học, toán học đến giáo dục cá nhân hóa. Google DeepMind cam kết phát triển công nghệ AI một cách có trách nhiệm, và phiên bản cập nhật của FSF là một phần trong cam kết đó, nhằm xác định và giảm thiểu các rủi ro tiềm ẩn từ các mô hình AI tiên tiến.
Các Cập nhật Chính cho Khung An toàn Biên giới
Giải quyết rủi ro thao túng có hại
Bản cập nhật mới bổ sung Lĩnh vực Năng lực Quan trọng (CCL) tập trung vào thao túng có hại. CCL này đề cập đến các mô hình AI có khả năng thao túng mạnh mẽ, có thể bị lạm dụng để thay đổi một cách có hệ thống và đáng kể niềm tin và hành vi của con người trong các bối cảnh có rủi ro cao. Điều này nhằm ứng phó với những rủi ro phát sinh từ các nghiên cứu mới nhất về cơ chế thao túng trong AI tạo sinh.
Thích ứng với rủi ro sai lệch
Khung an toàn giờ đây đã mở rộng để giải quyết các kịch bản tiềm ẩn trong tương lai, nơi các mô hình AI sai lệch có thể can thiệp vào khả năng kiểm soát, sửa đổi hoặc ngừng hoạt động của chúng. Bên cạnh các cảnh báo về lý luận mang tính công cụ (ví dụ: cảnh báo khi mô hình có hành vi lừa dối), phiên bản này còn bổ sung các quy trình cho các CCL học máy tiên tiến, tập trung vào các mô hình có thể đẩy nhanh nghiên cứu và phát triển AI đến mức độ gây mất ổn định.
Google DeepMind cũng nhấn mạnh việc áp dụng các biện pháp an toàn và bảo mật trước khi đạt đến ngưỡng CCL và như một phần của quy trình phát triển mô hình tiêu chuẩn.
Tinh chỉnh quy trình đánh giá rủi ro
Khung an toàn được thiết kế để xử lý các rủi ro theo tỷ lệ tương ứng với mức độ nghiêm trọng của chúng. Các định nghĩa CCL đã được tinh chỉnh nhằm xác định các mối đe dọa quan trọng đòi hỏi các chiến lược quản trị và giảm thiểu nghiêm ngặt nhất. Quy trình đánh giá rủi ro toàn diện bao gồm việc xác định rủi ro một cách có hệ thống, phân tích chi tiết khả năng của mô hình và đưa ra các quyết định rõ ràng về mức độ chấp nhận được của rủi ro.
Nâng cao Cam kết về An toàn Biên giới
Bản cập nhật mới nhất của Khung An toàn Biên giới thể hiện cam kết tiếp tục theo đuổi phương pháp khoa học và dựa trên bằng chứng để theo dõi và đi trước các rủi ro AI khi khả năng của chúng ngày càng nâng cao. Google DeepMind tin rằng việc mở rộng các lĩnh vực rủi ro và củng cố quy trình đánh giá rủi ro sẽ giúp đảm bảo rằng AI mang lại lợi ích cho nhân loại trong khi giảm thiểu tối đa tác hại tiềm ẩn.
Khung an toàn này sẽ tiếp tục được cải tiến dựa trên nghiên cứu mới, ý kiến đóng góp từ các bên liên quan và kinh nghiệm thực tế. Google DeepMind nhấn mạnh tầm quan trọng của sự hợp tác giữa các ngành công nghiệp, học viện và chính phủ trong việc hướng tới AGI (Trí tuệ Nhân tạo Tổng quát) có lợi.
Tìm hiểu thêm:
Chú thích:
- CCL (Critical Capability Level - Lĩnh vực Năng lực Quan trọng): Các cấp độ năng lực mà tại đó, nếu không có biện pháp giảm thiểu, các mô hình hoặc hệ thống AI biên giới có thể gây ra rủi ro làm hại nghiêm trọng.
Link bài viết gốc
- Tags:
- Ai
- September 2025
- Deepmind.google