Gemma Scope 2- giúp cộng đồng an toàn AI hiểu sâu hơn về hành vi phức tạp của mô hình ngôn ngữ
Trách nhiệm & An toàn
- 6 min read
Gemma Scope 2: Giúp cộng đồng AI Safety hiểu sâu hơn về hành vi phức tạp của mô hình ngôn ngữ
Thông báo về Gemma Scope 2, một bộ công cụ diễn giải toàn diện, mở, dành cho toàn bộ dòng Gemma 3 nhằm đẩy nhanh nghiên cứu về an toàn AI.
Gemma Scope 2: Giúp cộng đồng AI Safety hiểu sâu hơn về hành vi phức tạp của mô hình ngôn ngữ
Thông báo về Gemma Scope 2, một bộ công cụ diễn giải toàn diện, mở, dành cho toàn bộ dòng Gemma 3 nhằm đẩy nhanh nghiên cứu về an toàn AI.
19 tháng 12, 2025
Trách nhiệm & An toàn
Tác giả: Nhóm Diễn giải Mô hình Ngôn ngữ
Nghe bài viết
Các Mô hình Ngôn ngữ Lớn (LLM) có khả năng thực hiện những kỳ tích suy luận đáng kinh ngạc, nhưng quy trình ra quyết định nội bộ của chúng phần lớn vẫn còn là một bí ẩn. Nếu một hệ thống không hoạt động như mong đợi, việc thiếu khả năng hiển thị vào hoạt động nội bộ của nó có thể khiến việc xác định chính xác lý do hành vi của nó trở nên khó khăn. Năm ngoái, chúng tôi đã thúc đẩy khoa học về diễn giải với Gemma Scope, một bộ công cụ được thiết kế để giúp các nhà nghiên cứu hiểu hoạt động bên trong của Gemma 2, bộ sưu tập mô hình mở, nhẹ của chúng tôi.
Hôm nay, chúng tôi phát hành Gemma Scope 2: một bộ công cụ diễn giải toàn diện, mở cho tất cả các kích thước mô hình Gemma 3, từ 270 triệu đến 27 tỷ tham số. Các công cụ này có thể cho phép chúng tôi truy tìm các rủi ro tiềm ẩn trên toàn bộ “bộ não” của mô hình.
Theo hiểu biết của chúng tôi, đây là bản phát hành nguồn mở lớn nhất từ trước đến nay về các công cụ diễn giải của một phòng thí nghiệm AI. Việc sản xuất Gemma Scope 2 liên quan đến việc lưu trữ khoảng 110 Petabyte dữ liệu, cũng như đào tạo hơn 1 nghìn tỷ tham số.
Khi AI tiếp tục phát triển, chúng tôi mong muốn cộng đồng nghiên cứu AI sử dụng Gemma Scope 2 để gỡ lỗi các hành vi mô hình mới nổi, sử dụng các công cụ này để kiểm toán và gỡ lỗi các tác nhân AI tốt hơn, và cuối cùng là đẩy nhanh việc phát triển các biện pháp can thiệp an toàn thực tế và mạnh mẽ chống lại các vấn đề như bẻ khóa, ảo giác và xu nịnh.
Bản demo Gemma Scope 2 tương tác của chúng tôi đã sẵn sàng để dùng thử, được cung cấp bởi Neuronpedia.
Những điểm mới trong Gemma Scope 2
Nghiên cứu diễn giải nhằm mục đích hiểu hoạt động bên trong và các thuật toán đã học của các mô hình AI. Khi AI ngày càng mạnh mẽ và phức tạp hơn, diễn giải là yếu tố quan trọng để xây dựng AI an toàn và đáng tin cậy.
Giống như phiên bản tiền nhiệm, Gemma Scope 2 hoạt động như một kính hiển vi cho dòng mô hình ngôn ngữ Gemma. Bằng cách kết hợp bộ tự mã hóa thưa (SAE) và bộ chuyển mã, nó cho phép các nhà nghiên cứu nhìn vào bên trong mô hình, xem chúng đang suy nghĩ về điều gì và cách những suy nghĩ này được hình thành và kết nối với hành vi của mô hình. Đổi lại, điều này cho phép nghiên cứu sâu hơn về các vụ bẻ khóa hoặc các hành vi AI khác liên quan đến an toàn, như sự khác biệt giữa lý luận được truyền đạt của mô hình và trạng thái nội bộ của nó.
Mặc dù Gemma Scope ban đầu cho phép nghiên cứu trong các lĩnh vực an toàn quan trọng, như ảo giác mô hình, xác định bí mật mà mô hình biết và đào tạo các mô hình an toàn hơn, Gemma Scope 2 hỗ trợ nghiên cứu tham vọng hơn nữa thông qua các nâng cấp đáng kể:
- Phạm vi phủ sóng đầy đủ ở quy mô lớn: Chúng tôi cung cấp một bộ công cụ đầy đủ cho toàn bộ dòng Gemma 3 (lên đến 27 tỷ tham số), rất cần thiết để nghiên cứu các hành vi mới nổi chỉ xuất hiện ở quy mô lớn, chẳng hạn như những hành vi đã được mô hình C2S Scale kích thước 27 tỷ tham số phát hiện trước đây, giúp khám phá một con đường mới tiềm năng trong liệu pháp ung thư. Mặc dù Gemma Scope 2 không được đào tạo trên mô hình này, nhưng đây là một ví dụ về loại hành vi mới nổi mà các công cụ này có thể hiểu được.
- Các công cụ tinh chỉnh hơn để giải mã các hành vi nội bộ phức tạp: Gemma Scope 2 bao gồm SAE và bộ chuyển mã được đào tạo trên mọi lớp của dòng mô hình Gemma 3 của chúng tôi. Bộ chuyển mã bỏ qua và bộ chuyển mã đa lớp giúp dễ dàng giải mã các phép tính và thuật toán nhiều bước trải dài khắp mô hình.
- Kỹ thuật đào tạo nâng cao: Chúng tôi sử dụng các kỹ thuật tiên tiến, đặc biệt là kỹ thuật đào tạo Matryoshka, giúp SAE phát hiện các khái niệm hữu ích hơn và khắc phục một số lỗi được phát hiện trong Gemma Scope.
- Công cụ phân tích hành vi chatbot: Chúng tôi cũng cung cấp các công cụ diễn giải nhắm mục tiêu vào các phiên bản Gemma 3 được tinh chỉnh cho các trường hợp sử dụng trò chuyện. Các công cụ này cho phép phân tích các hành vi phức tạp, nhiều bước, chẳng hạn như bẻ khóa, cơ chế từ chối và tính trung thực của chuỗi suy nghĩ.
Thúc đẩy lĩnh vực này
Bằng cách phát hành Gemma Scope 2, chúng tôi mong muốn cho phép cộng đồng nghiên cứu an toàn AI thúc đẩy lĩnh vực này tiến lên bằng cách sử dụng một bộ công cụ diễn giải tiên tiến. Mức độ truy cập mới này rất quan trọng để giải quyết các vấn đề an toàn trong thế giới thực chỉ xuất hiện ở các LLM lớn, hiện đại.
Tìm hiểu thêm về Gemma Scope
- Tải xuống Gemma Scope 2
- Xem mô hình của chúng tôi trên Neuronpedia
- Đọc báo cáo kỹ thuật của chúng tôi
- Thử hướng dẫn Colab của chúng tôi
- Xem trang Gemma Scope của chúng tôi
Bài viết liên quan
Gemma Scope: giúp cộng đồng an toàn làm sáng tỏ hoạt động bên trong của các mô hình ngôn ngữ
Tháng 7 năm 2024 - Mô hình - Tìm hiểu thêm
Link bài viết gốc
- Tags:
- Ai
- December 2025
- Deepmind.google