Hướng tới An toàn do Cộng đồng Quản lý

November 10, 2025
6 min read

Hướng tới An Toàn Cộng Đồng Quản Trị

Tuần trước, OpenAI đã ra mắt gpt-oss-safeguard, một mô hình suy luận an toàn với trọng số mở, được thiết kế để cho phép các nhà phát triển “tự mang chính sách an toàn của mình”. Đây là một bước tiến có ý nghĩa: các công cụ an toàn đang rời khỏi các kho lưu trữ “hộp đen” của các phòng thí nghiệm lớn và đi vào tay của toàn bộ hệ sinh thái.

Đây là tin tốt. Nhưng đó chỉ là khởi đầu cho những gì một hệ sinh thái an toàn lành mạnh đòi hỏi.

Trong một bài đăng blog trước đó, Giada đã lập luận rằng thiết kế AI có trách nhiệm phải tránh sự gia trưởng và thay vào đó coi người dùng và những người xây dựng như những đối tác. Minh bạch, tham gia và các biện pháp bảo vệ do cộng đồng thúc đẩy không phải là những nguyên tắc “có thì tốt”, mà là những điều kiện tiên quyết để xây dựng lòng tin trong một thế giới mà các tác nhân hội thoại ngày càng trung gian cho cảm xúc, kiến thức và việc ra quyết định.

Việc phát hành mới của OpenAI đã đưa một phần của ngăn xếp an toàn theo hướng đó: người dùng có thể kiểm tra suy luận, lặp lại các chính sách và điều chỉnh các biện pháp kiểm soát theo ngữ cảnh.

Các công cụ tự chúng thì mở, nhưng các chính sách và ví dụ cơ bản hướng dẫn các hệ thống an toàn của OpenAI thì không. Đó là một sự khác biệt quan trọng: tính minh bạch đã đạt đến lớp kỹ thuật, nhưng chưa đến lớp quy chuẩn. Tuy nhiên, việc làm cho cơ sở hạ tầng suy luận công khai là một bước tiến có ý nghĩa hướng tới các công cụ an toàn được chia sẻ.

Vậy chúng ta nên nhìn nhận khoảnh khắc này như thế nào? Nó xuất hiện cùng với một hệ sinh thái ngày càng tăng các nỗ lực an toàn mở, bao gồm các sáng kiến xây dựng cộng đồng như ROOST. Tại Hugging Face, chúng tôi rất vui khi được hợp tác với họ và giúp xây dựng cơ sở hạ tầng an toàn chung một cách cởi mở.

Một bước tiến đáng hoan nghênh hướng tới các công cụ an toàn được chia sẻ

Bằng cách phát hành các mô hình an toàn trọng số mở, OpenAI đã ngầm thừa nhận điều mà cộng đồng mã nguồn mở đã bày tỏ trong nhiều năm: an toàn không thể mở rộng quy mô nếu nó vẫn là độc quyền.

Các hệ thống hoạt động riêng tư không thể phản ánh sự đa dạng của các rủi ro và giá trị trong thế giới thực. Tệ hơn nữa, sự thiếu minh bạch sẽ sinh ra sự mong manh. Khi chỉ một số ít tác nhân thiết kế các quy tắc, các điểm mù sẽ trở thành hệ thống, và các biện pháp bảo vệ thất bại theo những cách mà người dùng không thể nhìn thấy, phản đối hoặc sửa chữa.

Việc phát hành này đánh dấu một sự thay đổi đáng chú ý khỏi mô hình đó, cung cấp cho các nhà phát triển một công cụ có thể thích ứng với các mối đe fen ngày càng phát triển, có thể kiểm tra được suy luận của nó, có thể cập nhật mà không cần đào tạo lại, và do nhà phát triển kiểm soát thay vì do một chính sách được tích hợp vào mô hình. Đây là những lựa chọn thiết kế có ý nghĩa. Chúng phù hợp với các nguyên tắc đổi mới mở và thừa nhận rằng an toàn không phải là một khối đồng nhất mà là một cuộc thương lượng phụ thuộc vào ngữ cảnh.

Xây dựng lớp tiếp theo: an toàn mở, quản trị chia sẻ

Chúng ta nên coi việc ra mắt này không phải là một kết thúc, mà là một sự khởi đầu. Để làm cho sự thay đổi này trở nên thực tế, chúng ta cần:

các tiêu chuẩn an toàn mở được đồng phát triển với các nhà nghiên cứu và cộng đồng
các hệ thống phân loại rủi ro và phúc lợi được chia sẻ, không phải các kho chính sách riêng tư
các khuôn khổ đánh giá bao gồm các tác hại xã hội và quan hệ
quản trị đa bên liên quan vượt ra ngoài sự giám sát của doanh nghiệp
các đăng ký công khai các biện pháp bảo vệ do cộng đồng phát triển
các quy trình thử nghiệm có sự tham gia, không chỉ là thử nghiệm đỏ của chuyên gia

Các nguyên tắc này đòi hỏi sự thử nghiệm thực tế với các hệ thống và cộng đồng thực. Các mối quan hệ đối tác như mối quan hệ đang hình thành xung quanh ROOST, và các sự kiện như cuộc thi hackathon vào tuần tới, tạo không gian cho công việc này: các sandbox chung nơi các nhà nghiên cứu, nhà phát triển và các tác nhân xã hội dân sự có thể kiểm tra các giả định về an toàn, thiết kế bằng hành động và cùng nhau xây dựng cơ sở hạ tầng mà một hệ sinh thái AI dân chủ sẽ yêu cầu.

Sử dụng mô hình

Các mô hình gpt-oss-safeguard có trọng số mở và được cấp phép theo Apache-2.0, có nghĩa là bạn có thể kiểm tra, điều chỉnh và triển khai chúng một cách tự do. Để bắt đầu, hãy truy cập trang mô hình: https://huggingface.co/openai/gpt-oss-safeguard-20b. Bạn có thể định nghĩa các chính sách an toàn của mình theo định dạng được mô tả bởi OpenAI. Trên thực tế, điều này có nghĩa là bạn cung cấp chính sách an toàn bằng văn bản của mình dưới dạng thông điệp hệ thống, và nội dung cần đánh giá là đầu vào của người dùng. Sau đó, mô hình sẽ suy luận qua chính sách, áp dụng các định nghĩa bạn đã đặt và trả về một phân loại với lý do tùy chọn.

Kết luận

Xây dựng AI an toàn không phải là một cuộc thi để cung cấp nhiều công cụ nhất, cũng không phải là một cuộc chạy nước rút để tuyên bố vấn đề quản trị đã được giải quyết. Đó là một công việc đều đặn, tập thể: điều chỉnh công nghệ với các kỳ vọng xã hội thông qua các tiêu chuẩn rõ ràng, các quy trình mở và các cấu trúc có thể tin cậy theo thời gian.

AI Today - SkyAI