Thực thi chính sách tùy chỉnh với khả năng suy luận- Ứng dụng AI nhanh hơn, an toàn hơn

Thực thi chính sách tùy chỉnh với khả năng suy luận- Ứng dụng AI nhanh hơn, an toàn hơn

  • 12 min read
Thực thi chính sách tùy chỉnh với khả năng suy luận- Ứng dụng AI nhanh hơn, an toàn hơn
Thực thi chính sách tùy chỉnh với khả năng suy luận- Ứng dụng AI nhanh hơn, an toàn hơn

Triển khai Chính sách Tùy chỉnh có Lý luận: Ứng dụng AI Nhanh hơn, An toàn hơn

Các mô hình phân loại an toàn thường chỉ áp dụng một chính sách chung duy nhất để chặn nội dung rõ ràng là độc hại, độc tố và các nỗ lực “bẻ khóa”. Điều này có thể hiệu quả cho các danh mục chung chung, nhưng các ứng dụng thực tế đòi hỏi sự linh hoạt hơn. Các cơ chế an toàn nội dung chung chung có thể gặp khó khăn khi các quy tắc đòi hỏi sự tinh tế hoặc ngữ cảnh đóng vai trò quan trọng.

Hãy xem xét một chatbot thương mại điện tử cần tránh các chủ đề nhạy cảm về văn hóa như tôn giáo hoặc chính trị. Một bot hỗ trợ viễn thông cần chặn các yêu cầu thông tin cá nhân nhận dạng (PII), ngăn chặn việc tư vấn thanh toán trái phép và dừng các chỉ dẫn kỹ thuật không an toàn, chẳng hạn như vô hiệu hóa tường lửa. Các ứng dụng y tế cũng đối mặt với những thách thức tương tự về tuân thủ HIPAA và tránh các lời khuyên y tế chưa được xác minh. Những yêu cầu này không thể được giải quyết bằng một chính sách “một kích thước phù hợp với tất cả”, và các nhà phát triển thường phải dựa vào kỹ thuật nhắc lệnh cứng nhắc hoặc các bộ quy tắc thủ công dễ bị lỗi khi độ phức tạp tăng lên.

Đây là lý do tại sao NVIDIA đã giới thiệu Nemotron Content Safety Reasoning, một mô hình được thiết kế để kết hợp sự linh hoạt của khả năng lý luận với tốc độ cần thiết cho môi trường sản xuất. Trong bài viết này, chúng ta sẽ khám phá lý do tại sao khả năng lý luận lại quan trọng đối với an toàn AI, điều gì làm cho mô hình này trở nên độc đáo, cách nó được xây dựng và các bằng chứng về hiệu suất của nó.

Tại sao Lý luận lại Quan trọng đối với An toàn Nội dung

Các bộ phân loại tĩnh gắn nhãn nội dung là an toàn hoặc không an toàn, nhưng chúng gặp khó khăn với các chính sách đặc thù cho từng lĩnh vực. Các nhà phát triển cần khả năng an toàn nội dung thích ứng động – cho dù đó là tránh so sánh đối thủ cạnh tranh, hạn chế một số lời khuyên pháp lý nhất định hay chặn các chủ đề nhạy cảm ở các khu vực cụ thể.

Các mô hình an toàn dựa trên lý luận giải quyết vấn đề này bằng cách diễn giải các chính sách theo ngữ cảnh thay vì dựa vào logic cố định. Chúng phân tích ý định, áp dụng các quy tắc tinh tế và phát hiện các vi phạm tinh vi mà các mô hình chung chung bỏ sót. Sự linh hoạt này làm cho khả năng lý luận trở nên cần thiết để thực thi các chính sách phức tạp, đang phát triển mà không cần đào tạo lại. Thách thức là hiệu suất: các mô hình lý luận truyền thống tạo ra các chuỗi suy nghĩ dài, làm tăng độ trễ khiến việc triển khai thời gian thực trở nên không khả thi. Các nhà phát triển cần lợi ích của lý luận mà không phải gánh chịu chi phí.

NVIDIA Nemotron Content Safety Reasoning

Nemotron Content Safety Reasoning cung cấp khả năng kiểm duyệt an toàn và chủ đề động, theo chính sách cho các ứng dụng được hỗ trợ bởi LLM, cho phép các tổ chức thực thi cả các chính sách tiêu chuẩn và hoàn toàn tùy chỉnh tại thời điểm suy luận – mà không cần đào tạo lại. Nó kết hợp khả năng lý luận tinh tế, nhận biết ngữ cảnh với hiệu suất độ trễ thấp, mang đến cho các nhà phát triển một giải pháp linh hoạt và mạnh mẽ để điều chỉnh đầu ra của AI với các yêu cầu riêng của họ.

Không giống như các rào cản tĩnh dựa vào các bộ quy tắc cứng nhắc hoặc thậm chí các mô hình an toàn chung dựa vào chính sách an toàn toàn cầu được xác định trước, mô hình này diễn giải các chính sách tinh tế một cách động, thích ứng trên các khu vực địa lý, ngành công nghiệp và lĩnh vực. Sự linh hoạt này đi kèm với hiệu suất sẵn sàng cho sản xuất – khả năng lý luận được tối ưu hóa mang lại các quyết định trong một câu, tránh các hình phạt độ trễ điển hình của các mô hình lý luận. Các nhà phát triển có thể định nghĩa chính sách bằng ngôn ngữ tự nhiên, tải chúng vào mô hình và thực thi chúng ngay lập tức. Cho dù đó là chatbot, tác nhân AI hay ứng dụng hướng tới khách hàng, Nemotron Content Safety Reasoning kết hợp khả năng lý luận nhận biết ngữ cảnh với hiệu suất độ trễ thấp để giữ cho AI phù hợp với các yêu cầu riêng.

NVIDIA đã đầu tư lâu dài vào các công nghệ mở cho an toàn và rào cản LLM. NeMo Guardrails là một trong những framework mã nguồn mở đầu tiên tích hợp an toàn vào các ứng dụng AI, bổ sung bởi các tập dữ liệu đào tạo được chia sẻ và các bài báo nghiên cứu để thúc đẩy tính minh bạch và khả năng tái tạo. NVIDIA cũng đã phát hành các mô hình Nemotron chuyên dụng cho an toàn nội dung, kiểm soát chủ đề và phát hiện bẻ khóa. Các điểm cuối mô hình này cũng có sẵn dưới dạng NVIDIA NIM™ để triển khai dễ dàng trên mọi hệ thống tăng tốc GPU.

Cách hoạt động

Mô hình Nemotron Content Safety Reasoning chấp nhận ba đầu vào: một chính sách định nghĩa nội dung được phép và không được phép, lời nhắc của người dùng và tùy chọn là phản hồi của trợ lý. Nó dự đoán xem tương tác có tuân thủ chính sách hay không và cung cấp lý do ngắn gọn. Mô hình được đào tạo cho suy luận chế độ kép, cho phép các nhà phát triển bật hoặc tắt các dấu vết lý luận. Điều này cho phép các nhà phát triển lựa chọn giữa sự linh hoạt tối đa (lý luận bật) và độ trễ tối thiểu (lý luận tắt).

Quy trình đào tạo của chúng tôi bao gồm bốn giai đoạn chính:

Chưng cất dấu vết lý luận và tinh chỉnh giám sát. Ở giai đoạn đầu, chúng tôi sử dụng các mô hình lý luận mạnh mẽ (ví dụ: DeepSeek-R1-0528, Qwen3-32B và gpt-oss-120b) để trích xuất một tập dữ liệu các dấu vết lý luận nhằm quyết định xem lời nhắc của người dùng hay phản hồi của trợ lý có độc hại theo một hệ thống phân loại an toàn tiêu chuẩn hay không. Trong trường hợp của chúng tôi, chúng tôi đã sử dụng Nemotron Content Safety Dataset V2 cùng với chính sách an toàn cơ bản của nó. Chúng tôi đã quan sát thấy rằng ở giai đoạn này, việc cung cấp nhãn sự thật cơ bản cũng rất quan trọng, vì ngay cả các mô hình lý luận mạnh mẽ cũng có thể bị phân loại sai đối với một số lời nhắc an toàn. Sử dụng các dấu vết lý luận được trích xuất, chúng tôi đã đào tạo một mô hình nhỏ hơn, bắt đầu từ Gemma-3-4b-it , sử dụng Supervised Fine-tuning (SFT) để hoạt động như một mô hình rào cản lý luận. Mô hình cuối cùng được đào tạo dựa trên dấu vết lý luận từ Qwen3-32B, nhưng chúng tôi đã phát hành toàn bộ tập dữ liệu trên Hugging Face (xem Nemotron Content Safety Reasoning Dataset).

Tinh chỉnh nhận biết độ khó. Trong các thử nghiệm của chúng tôi, chúng tôi đã quan sát thấy rằng các mô hình rào cản lý luận được đào tạo chỉ cần một phần nhỏ dữ liệu đào tạo so với các mô hình không lý luận. Do đó, chúng tôi đã có thể đào tạo một mô hình rào cản lý luận ban đầu trên một tập con gồm 5.000 mẫu ngẫu nhiên và dự đoán nhãn cho phần còn lại của tập đào tạo gốc. Sử dụng một cách tiếp cận tương tự như lấy mẫu tốt nhất trong N, chúng tôi coi các mẫu khó là những mẫu không phải lúc nào cũng được mô hình dự đoán chính xác (quá dễ) hoặc luôn được dự đoán sai (rất có thể là chú thích nhiễu). Chỉ một phần nhỏ các mẫu có thể được trích xuất bằng quy trình này, và việc chạy SFT liên tục trên dữ liệu này tiếp tục cải thiện hiệu suất của mô hình.

Cải thiện hiệu quả thông qua lý luận rút ngắn và chế độ kép. Các mô hình rào cản cần phải nhanh chóng, vì chúng thường được sử dụng bổ sung cho LLM chính để đảm bảo tương tác tuân theo chính sách mong muốn. Để cải thiện hiệu quả của mô hình Nemotron Content Safety Reasoning, chúng tôi đã trích xuất các bản tóm tắt một câu cho các chuỗi lý luận để giới hạn số lượng token đầu ra và cải thiện độ trễ. Chúng tôi đã quan sát thấy rằng quy trình này không làm giảm hiệu quả của mô hình. Đồng thời, đào tạo ở chế độ kép với lý luận bật/tắt cải thiện hiệu suất của chế độ lý luận tắt, có thể được sử dụng cho các tác vụ an toàn chung chung.

Điều chỉnh chính sách tùy chỉnh. Mặc dù các mô hình rào cản lý luận đạt được hiệu suất tốt hơn trên các chính sách an toàn tùy chỉnh ngay cả khi chỉ được đào tạo trên các tập dữ liệu an toàn tiêu chuẩn, chúng tôi đã quan sát thấy rằng việc bổ sung các chính sách bổ sung sẽ cải thiện độ mạnh mẽ và hiệu suất tổng thể. Trong trường hợp của chúng tôi, vì chúng tôi muốn mô hình của mình hoạt động cho cả kiểm duyệt chủ đề và hội thoại cùng với kiểm duyệt an toàn, chúng tôi đã đào tạo mô hình trên tập dữ liệu kiểm duyệt chủ đề được NVIDIA giới thiệu vào năm ngoái, có tên là CantTalkAboutThis. Chúng tôi mở rộng tập dữ liệu này với các dấu vết lý luận, sau đó thêm chúng vào dữ liệu an toàn chung trước khi áp dụng SFT.

Điểm chuẩn: Lý luận Siêu Hiệu quả & Triển khai Chính sách Động

Mô hình Nemotron Content Safety Reasoning cung cấp khả năng lý luận chính sách chính xác chỉ trong một câu – nhanh hơn tới 40% so với các mô hình lý luận an toàn truyền thống. Nó hỗ trợ các chính sách tùy chỉnh và đang phát triển tại thời điểm suy luận mà không cần đào tạo lại và đạt được kết quả mạnh mẽ với ít ví dụ đào tạo hơn. Các điểm chuẩn cho thấy:

  • Độ chính xác của chính sách tùy chỉnh cao hơn so với các mô hình tương đương.
  • Cải thiện độ trễ gấp 2–3 lần so với các mô hình lý luận lớn hơn.
  • Hiệu suất sẵn sàng cho sản xuất trên GPU với VRAM 8GB trở lên.
  • Hoạt động Chế độ kép:
    • Lý luận Tắt: Chế độ độ trễ thấp cho phân loại tiêu chuẩn, nhanh chóng. Điều này rất hiệu quả cho an toàn chung chung.
    • Lý luận Bật: Chế độ nâng cao cung cấp dấu vết lý luận rõ ràng cho các quyết định của nó, cải thiện hiệu suất trên các chính sách tùy chỉnh phức tạp hoặc mới.

Việc đánh giá tập trung vào việc đánh giá hiệu suất của mô hình lý luận và điều tra chi phí độ trễ. Chúng tôi đã sử dụng cả tập dữ liệu an toàn chung và an toàn tùy chỉnh để đánh giá hiệu quả của mô hình với các chính sách rào cản khác nhau. Đối với an toàn chung chung, chúng tôi tính toán điểm F1 độc hại của lời nhắc và phản hồi cho một hỗn hợp các tập dữ liệu sử dụng các chính sách an toàn tương tự: WildguardMix-Test, Aegis (Nemotron Content Safety) 2.0 Test, OpenAI Moderation, ToxicChat, XSTest, SimpleSafetyTests và JailbreakBench. Đối với an toàn tùy chỉnh, chúng tôi đã chọn tập dữ liệu CoSApien và Dyanguardrail vì chúng chứa các chính sách tùy chỉnh và lời nhắc người dùng thực tế hơn. Chúng tôi đang so sánh Nemotron Content Safety Reasoning cả về F1 độc hại và độ trễ với các mô hình rào cản an toàn mã nguồn mở hàng đầu: Nemotron Content Safety v2, mô hình rào cản phân loại Alternative 7B và hai mô hình lý luận rào cản MoE Alternative 20B và 120B.

Kết quả điểm chuẩn đầy đủ và các nghiên cứu về sự triệt tiêu có sẵn trong bài báo Findings of EMNLP 2025 của chúng tôi. Vui lòng tham khảo thẻ dữ liệu mô hình để biết chi tiết về các tập dữ liệu đào tạo và đánh giá.

Bắt đầu: chính sách của bạn, tốc độ của bạn, quyền kiểm soát của bạn

Các hệ thống AI trong thế giới thực cần có tính năng an toàn hoặc “hàng rào bảo vệ” thích ứng với các nguyên tắc thương hiệu, yêu cầu quy định và các quy tắc lĩnh vực đang phát triển. Hãy nghĩ về một trợ lý trong xe hơi phải tuân thủ các chính sách an toàn và thương hiệu nghiêm ngặt – giới hạn phản hồi cho điều hướng và giải trí trong khi tránh so sánh hoặc chứng thực đối thủ cạnh tranh. Những tình huống này đòi hỏi sự linh hoạt và tốc độ, và đó chính xác là những gì mô hình Nemotron Content Safety dựa trên lý luận này cung cấp. Hãy truy cập mô hình và tập dữ liệu cần thiết cho việc đào tạo và đánh giá trên Hugging Face ngay hôm nay:

  • Nemotron Content Safety Reasoning 4B
  • Nemotron Content Safety Reasoning Dataset

Tất cả các tạo tác được xuất bản theo Thỏa thuận Cấp phép Mở của NVIDIA, cho phép sửa đổi và phân phối lại. Mặc dù việc đo điểm chuẩn độ trễ đã được thực hiện trên GPU H100, mô hình có yêu cầu VRAM nhỏ giúp nó có thể sử dụng trên bất kỳ GPU nào có hơn 8GB VRAM. Cuối cùng, Nemotron Content Safety Reasoning được hỗ trợ bởi tất cả các bộ công cụ suy luận chính (Hugging Face Inference, vLLM, TensorRT-LLM, SGLang). Vì mô hình là một Gemma-3-4B-it được tinh chỉnh, bất kỳ công cụ suy luận nào hỗ trợ nó đều có thể được sử dụng.

Recommended for You

Chúng tôi đã nhận được Claude để tinh chỉnh một LLM mã nguồn mở

Chúng tôi đã nhận được Claude để tinh chỉnh một LLM mã nguồn mở

Chúng tôi đã nhận được Claude để tinh chỉnh một LLM mã nguồn mở

SARLO-80- Bộ dữ liệu quang học ngôn ngữ SAR Slant Toàn cầu với Độ phân giải 80 cm

SARLO-80- Bộ dữ liệu quang học ngôn ngữ SAR Slant Toàn cầu với Độ phân giải 80 cm

SARLO-80- Bộ dữ liệu quang học ngôn ngữ SAR Slant Toàn cầu với Độ phân giải 80 cm