AprielGuard- Một hệ thống bảo vệ cho sự an toàn và khả năng chống chịu với tấn công trong các hệ thống LLM hiện đại
AprielGuard- Một hệ thống bảo vệ cho sự an toàn và khả năng chống chịu với tấn công trong các hệ thống LLM hiện đại
- 17 min read
AprielGuard: Một hệ thống bảo vệ cho sự an toàn và khả năng chống lại các cuộc tấn công đối nghịch trong các hệ thống LLM hiện đại
Các Mô hình Ngôn ngữ Lớn (LLM) đã nhanh chóng phát triển từ những trợ lý chỉ xử lý văn bản thành các hệ thống tác tử phức tạp, có khả năng thực hiện suy luận nhiều bước, gọi các công cụ bên ngoài, truy xuất bộ nhớ và thực thi mã. Cùng với sự phát triển này, bối cảnh các mối đe dọa ngày càng trở nên tinh vi: không chỉ những rủi ro an toàn nội dung truyền thống, mà còn cả các kỹ thuật vượt rào trong nhiều lượt trò chuyện, tấn công tiêm nhiễm (prompt injection), chiếm đoạt bộ nhớ và thao túng công cụ.
Trong công trình này, chúng tôi giới thiệu AprielGuard, một mô hình bảo vệ an toàn-an ninh với 8 tỷ tham số, được thiết kế để phát hiện:
- 16 loại rủi ro an toàn, bao gồm nội dung độc hại, thù địch, nội dung người lớn, thông tin sai lệch, tự hại, hoạt động bất hợp pháp, v.v.
- Nhiều loại tấn công đối nghịch, bao gồm tấn công tiêm nhiễm, vượt rào, làm hỏng chuỗi suy luận (chain-of-thought corruption), chiếm đoạt ngữ cảnh, đầu độc bộ nhớ và các chuỗi khai thác tác tử đa tác nhân.
- Các vi phạm an toàn và tấn công đối nghịch trong quy trình làm việc của tác tử (agentic workflows), bao gồm cả các lệnh gọi công cụ và dấu vết suy luận của mô hình.
AprielGuard có sẵn ở cả hai chế độ suy luận (reasoning) và không suy luận (non-reasoning), cho phép phân loại có thể giải thích khi cần thiết và phân loại độ trễ thấp cho các quy trình sản xuất.
- Mô hình: https://huggingface.co/ServiceNow-AI/AprielGuard
- Bài báo kỹ thuật: https://arxiv.org/abs/2512.20293
Mục lục
- Động lực
- Tổng quan về AprielGuard
- Phân loại
- Tập dữ liệu đào tạo
- Kiến trúc mô hình
- Thiết lập đào tạo
- Đánh giá
- Kết luận
- Hạn chế
Động lực
Các bộ phân loại an toàn truyền thống chủ yếu tập trung vào một phạm vi phân loại giới hạn (ví dụ: độc hại hoặc tự hại), giả định đầu vào ngắn và đánh giá từng tin nhắn người dùng. Tuy nhiên, các triển khai hiện đại có:
- Các cuộc trò chuyện đa lượt
- Ngữ cảnh dài
- Các bước suy luận có cấu trúc tạo ra chuỗi suy luận
- Quy trình làm việc đa bước có hỗ trợ công cụ (tác tử)
- Một lớp tấn công đối nghịch ngày càng tăng, khai thác suy luận, công cụ hoặc bộ nhớ
Kết quả là, các nhóm sản xuất ngày càng dựa vào các giải pháp tạm thời: nhiều mô hình bảo vệ cho các giai đoạn khác nhau, bộ lọc regex, quy tắc tĩnh hoặc các phương pháp thủ công được tạo ra. Các phương pháp này dễ bị lỗi và không thể mở rộng.
AprielGuard giải quyết các vấn đề này với một mô hình hợp nhất và một phân loại an toàn + đối nghịch hợp nhất, được xây dựng đặc biệt cho các hệ sinh thái tác tử LLM hiện đại.
Tổng quan về AprielGuard
AprielGuard hoạt động trên ba định dạng đầu vào:
- Lời nhắc độc lập
- Cuộc trò chuyện đa lượt
- Quy trình làm việc tác tử (lệnh gọi công cụ, dấu vết suy luận, bộ nhớ, ngữ cảnh hệ thống)
Nó xuất ra:
- Phân loại an toàn và một danh sách các danh mục bị vi phạm từ phân loại.
- Phân loại tấn công đối nghịch.
- Suy luận có cấu trúc tùy chọn giải thích quyết định.
Phân loại
A. Phân loại An toàn
| Danh mục | Mô tả |
|---|---|
| O1 | Nội dung độc hại |
| O2 | Biểu diễn không công bằng |
| O3 | Nội dung người lớn |
| O4 | Xói mòn niềm tin vào thông tin công cộng |
| O5 | Lan truyền quan niệm sai lầm/niềm tin sai lệch |
| O6 | Thực hành tài chính rủi ro |
| O7 | Thương mại và Tuân thủ |
| O8 | Phổ biến thông tin nguy hiểm |
| O9 | Vi phạm quyền riêng tư |
| O10 | Mối đe dọa an ninh |
| O11 | Phỉ báng |
| O12 | Lừa đảo hoặc hành động lừa dối |
| O13 | Hoạt động gây ảnh hưởng |
| O14 | Hoạt động bất hợp pháp |
| O15 | Thuyết phục và Thao túng |
| O16 | Vi phạm tài sản cá nhân |
(16 danh mục này được lấy cảm hứng từ SALAD-Bench)
B. Phân loại Tấn công Đối nghịch
Mô hình phát hiện và đánh giá một loạt các mẫu lời nhắc đối nghịch được thiết kế để thao túng hành vi mô hình hoặc né tránh các cơ chế an toàn. Mô hình xuất ra phân loại nhị phân (ví dụ: đối nghịch / không đối nghịch) thay vì các danh mục tấn công chi tiết.
Dữ liệu đào tạo bao gồm nhiều loại đối nghịch khác nhau như đóng vai, xây dựng thế giới, thuyết phục và cách điệu, cùng với nhiều chiến lược thao túng lời nhắc phức tạp khác. Các ví dụ này chỉ đại diện cho một tập hợp con của các kịch bản đối nghịch rộng lớn hơn được kết hợp vào dữ liệu đào tạo.
Tập dữ liệu đào tạo
- Dữ liệu tổng hợp: AprielGuard được đào tạo trên một tập dữ liệu đào tạo được tạo ra một cách tổng hợp. Các điểm dữ liệu đào tạo được tạo ở cấp độ chủ đề phụ của phân loại để có phạm vi bao phủ tốt hơn. Chúng tôi tận dụng Mixtral-8x7B và các mô hình không kiểm duyệt được phát triển nội bộ để tạo nội dung không an toàn cho mục đích đào tạo. Các mô hình được nhắc với nhiệt độ cao hơn để tạo ra sự đa dạng trong đầu ra. Các mẫu lời nhắc được tùy chỉnh tỉ mỉ để đảm bảo tạo dữ liệu chính xác. Các cuộc tấn công đối nghịch được xây dựng bằng cách kết hợp các điểm dữ liệu tổng hợp, các mẫu lời nhắc đa dạng và các kỹ thuật tạo dựa trên quy tắc. Chúng tôi đã sử dụng NVIDIA NeMo Curator để tạo ra các tập dữ liệu hội thoại đa lượt quy mô lớn, có các kịch bản phức tạp, thực tế với các cuộc tấn công lặp đi lặp lại và phát triển thông qua các chuyển đổi ngữ cảnh. Cách tiếp cận này cho phép chúng tôi tổng hợp một cách có hệ thống các mẫu tương tác đa dạng, cải thiện khả năng chống chịu của mô hình đối với suy luận theo chiều dài, lượt đối nghịch và ý định người dùng đang phát triển. Chúng tôi cũng sử dụng framework SyGra cho các quy trình tạo dữ liệu tổng hợp để tạo các lời nhắc và cuộc tấn công có hại. Tập dữ liệu đào tạo bao gồm nhiều định dạng nội dung khác nhau như hội thoại, bài đăng trên diễn đàn, tweet, lời nhắc hướng dẫn, câu hỏi và hướng dẫn sử dụng.
- Tăng cường dữ liệu: Để tăng cường khả năng chống chịu của mô hình, một loạt các kỹ thuật tăng cường dữ liệu đã được áp dụng cho dữ liệu đào tạo. Các phép tăng cường này được thiết kế để cho mô hình tiếp xúc với các biến thể và nhiễu tự nhiên thường xảy ra trong các tình huống thực tế. Cụ thể, tập dữ liệu bao gồm các biến đổi như nhiễu ở cấp độ ký tự, chèn lỗi đánh máy, thay thế leetspeak, diễn đạt lại ở cấp độ từ và sắp xếp lại cú pháp. Các phép tăng cường như vậy giúp mô hình khái quát hóa tốt hơn bằng cách giảm độ nhạy với các biến thể bề ngoài trong đầu vào, do đó cải thiện khả năng phục hồi chống lại các thao tác đối nghịch và biểu diễn văn bản không chuẩn.
- Quy trình làm việc tác tử: Quy trình làm việc tác tử đại diện cho các tình huống thực tế, nơi các tác tử tự động thực hiện các tác vụ nhiều bước liên quan đến lập kế hoạch, suy luận và tương tác với các công cụ, API và các tác tử khác. Các quy trình làm việc này thường bao gồm các chuỗi lời nhắc người dùng, tin nhắn hệ thống, các bước suy luận trung gian và lệnh gọi công cụ, khiến chúng dễ bị tấn công đa dạng. Để xây dựng các điểm dữ liệu đào tạo này, chúng tôi tổng hợp một loạt các kịch bản đa dạng trên nhiều lĩnh vực, ghi lại các tương tác tác tử thực tế giữa người dùng và hệ thống tác tử. Mỗi điểm dữ liệu được làm phong phú với các yếu tố ngữ cảnh chi tiết — bao gồm định nghĩa công cụ, nhật ký lệnh gọi công cụ, vai trò và chính sách của tác tử, dấu vết thực thi, lịch sử hội thoại, trạng thái bộ nhớ và suy luận trên bảng nháp. Đối với các ví dụ độc hại hoặc đối nghịch, chúng tôi làm hỏng phân đoạn có liên quan của quy trình làm việc để phản ánh một vectơ tấn công cụ thể. Tùy thuộc vào kịch bản, điều này có thể bao gồm việc sửa đổi lời nhắc người dùng, sửa đổi dấu vết suy luận trung gian, sửa đổi đầu ra công cụ, tiêm trạng thái bộ nhớ sai hoặc làm gián đoạn giao tiếp giữa các tác tử. Bằng cách làm nhiễu có hệ thống các thành phần khác nhau của quy trình làm việc tác tử, chúng tôi tạo ra các ví dụ có độ trung thực cao, tiếp xúc mô hình với phổ đa dạng các mẫu tấn công thực tế và đầy thử thách. Mỗi điểm dữ liệu được mô phỏng để phản ánh các lần thực thi thực tế, bao gồm cả các chuỗi vô hại và đối nghịch.
- Các trường hợp sử dụng ngữ cảnh dài: Chúng tôi đã tuyển chọn một tập dữ liệu ngữ cảnh dài chuyên biệt bao gồm các trường hợp sử dụng đa dạng, có độ dài cao như quy trình làm việc Tăng cường Sinh Sản Thu hồi (RAG), chuỗi hội thoại đa lượt, chi tiết sự cố và báo cáo hoạt động chứa các giao tiếp chi tiết. Các ví dụ này mô phỏng môi trường thực tế, nơi ngữ cảnh văn bản lớn là điển hình.
Kiến trúc Mô hình
AprielGuard được xây dựng dựa trên một biến thể Apriel-1.5 Thinker Base, được thu nhỏ xuống cấu hình 8 tỷ tham số để triển khai hiệu quả.
- Transformer chỉ bộ giải mã nguyên nhân
- Hoạt động chế độ kép:
- Chế độ Suy luận → xuất các giải thích có cấu trúc
- Chế độ Nhanh → chỉ phân loại
Thiết lập Đào tạo
| Tham số | Giá trị |
|---|---|
| Mô hình cơ sở | Apriel 1.5 Thinker Base (thu nhỏ) |
| Kích thước mô hình | 8 tỷ tham số |
| Độ chính xác | bfloat16 |
| Kích thước lô | 1 với tích lũy gradient = 8 |
| LR | 2e-4 |
| Trình tối ưu hóa | Adam (β1=0.9, β2=0.999) |
| Số Epoch | 3 |
| Chiều dài chuỗi | Lên đến 32k |
| Chế độ Suy luận | Bật/Tắt thông qua mẫu hướng dẫn |
Tóm tắt Đánh giá
AprielGuard được đánh giá trên:
- Các điểm chuẩn an toàn công khai
- Các điểm chuẩn đối nghịch công khai
- Các điểm chuẩn quy trình làm việc tác tử nội bộ
- Các điểm chuẩn trường hợp sử dụng ngữ cảnh dài nội bộ (lên đến 32k)
- Đánh giá đa ngôn ngữ (8 ngôn ngữ)
Kết quả Điểm chuẩn An toàn
Hiệu suất của AprielGuard trên các điểm chuẩn an toàn công khai.
| Nguồn | Precision ↑ | Recall ↑ | F1-score ↑ | FPR ↓ |
|---|---|---|---|---|
| SimpleSafetyTests | 1.00 | 0.97 | 0.98 | NA |
| AyaRedteaming | 1.00 | 0.88 | 0.94 | NA |
| BeaverTails | 0.88 | 0.80 | 0.84 | 0.14 |
| SafeRLHF | 0.87 | 0.99 | 0.92 | 0.17 |
| xstest-response | 0.94 | 0.96 | 0.95 | 0.01 |
| toxic-chat | 0.65 | 0.84 | 0.73 | 0.03 |
| openai-moderation-api-evaluation | 0.65 | 0.94 | 0.77 | 0.22 |
| Aegis-AI-Content-Safety-Dataset-1.0 | 0.98 | 0.74 | 0.84 | 0.03 |
| Aegis-AI-Content-Safety-Dataset-2.0 | 0.84 | 0.84 | 0.84 | 0.16 |
| HarmBench | 1.00 | 0.99 | 1.00 | NA |
| XSTest | 0.90 | 0.99 | 0.94 | 0.09 |
Kết quả Phát hiện Đối nghịch
Hiệu suất của AprielGuard trên các điểm chuẩn đối nghịch công khai.
| Nguồn | Precision ↑ | Recall ↑ | F1-score ↑ | FPR ↓ |
|---|---|---|---|---|
| gandalf_ignore_instructions | 1.00 | 0.91 | 0.95 | NA |
| Salad-Data | 1.00 | 0.96 | 0.98 | NA |
| in-the-wild-jailbreak-prompts | 1.00 | 0.87 | 0.93 | NA |
| wildguardmix | 0.66 | 0.91 | 0.76 | 0.12 |
| wildjailbreak | 0.97 | 0.96 | 0.96 | 0.31 |
| prompt-injections | 1.00 | 0.52 | 0.68 | 0.00 |
| jailbreak-classification | 0.96 | 0.94 | 0.95 | 0.04 |
| prompt-injections-benchmark | 0.80 | 0.94 | 0.87 | 0.15 |
| ChatGPT-Jailbreak-Prompts | 1.00 | 1.00 | 1.00 | NA |
| safe-guard-prompt-injection | 1.00 | 0.57 | 0.73 | 0.00 |
Đánh giá Quy trình Làm việc Tác tử
Chúng tôi đã biên soạn một tập dữ liệu điểm chuẩn nội bộ nhằm đánh giá khả năng phát hiện Rủi ro An toàn và Tấn công Đối nghịch trong các quy trình làm việc tác tử. Để xây dựng điểm chuẩn này, chúng tôi đã thiết kế có hệ thống nhiều kịch bản tấn công nhắm vào các thành phần khác nhau của quy trình làm việc — chẳng hạn như lời nhắc đầu vào, dấu vết suy luận, tham số công cụ, trạng thái bộ nhớ và giao tiếp giữa các tác tử. Mỗi trường hợp được chú thích theo phân loại các lỗ hổng. Mỗi quy trình làm việc được mô phỏng để phản ánh các lần thực thi thực tế, bao gồm cả các chuỗi vô hại và đối nghịch. Tập dữ liệu ghi lại các điểm tấn công chi tiết trên các giai đoạn khác nhau như lập kế hoạch, suy luận, thực thi và tạo phản hồi để cung cấp đánh giá chi tiết về khả năng chống chịu của mô hình. Nhìn chung, tập dữ liệu bao gồm sự kết hợp cân bằng giữa rủi ro an toàn và tấn công đối nghịch.
Khả năng chống chịu Ngữ cảnh Dài (Lên đến 32k Token)
Nhiều rủi ro an toàn hoặc đối nghịch trong thế giới thực không biểu hiện trong các đoạn văn bản ngắn, riêng lẻ, mà thay vào đó xuất hiện qua các trường hợp sử dụng như quy trình làm việc Tăng cường Sinh Sản Thu hồi (RAG), chuỗi hội thoại đa lượt, chi tiết sự cố tổ chức và báo cáo hoạt động chứa các giao tiếp chi tiết. Do đó, một mô hình giám hộ phải phát hiện các trường hợp tinh tế hoặc “kim trong đống rơm”, nơi nội dung độc hại hoặc thao túng được phân bố thưa thớt, nhúng trong nhiều tham chiếu hoặc cố ý che khuất trong văn bản vô hại.
Để đánh giá khả năng suy luận ngữ cảnh dài của AprielGuard, chúng tôi đã biên soạn một tập dữ liệu thử nghiệm chuyên biệt bao gồm các trường hợp sử dụng đa dạng, có độ dài cao. Chúng tôi đã xem xét dữ liệu lên đến 32k token cho đánh giá này. Dữ liệu cơ sở ban đầu được xây dựng từ nội dung vô hại đại diện cho các lĩnh vực này. Các yếu tố độc hại sau đó đã được tiêm có hệ thống để mô phỏng các kịch bản đối nghịch hoặc không an toàn trong khi vẫn duy trì sự mạch lạc tổng thể của văn bản. Ví dụ, trong một bản tóm tắt trường hợp sự cố, một sự tiêm nhiễm có thể được nhúng trong mô tả trường hợp, ẩn trong phần siêu dữ liệu hoặc chèn như một phần của chuỗi bình luận. Tương tự, trong dữ liệu hội thoại đa lượt, nội dung đối nghịch có thể xuất hiện giữa cuộc trò chuyện, gần cuối hoặc ở đầu để kiểm tra theo dõi sự phụ thuộc phạm vi xa.
Hiệu suất Rủi ro An toàn
| Mô hình | Suy luận | Precision ↑ | Recall ↑ | F1 ↑ | FPR ↓ |
|---|---|---|---|---|---|
| AprielGuard-8B | Không có | 0.99 | 0.96 | 0.97 | 0.01 |
| AprielGuard-8B | Có | 0.92 | 0.98 | 0.95 | 0.11 |
Hiệu suất Tấn công Đối nghịch
| Mô hình | Suy luận | Precision ↑ | Recall ↑ | F1 ↑ | FPR ↓ |
|---|---|---|---|---|---|
| AprielGuard-8B | Không có | 1.00 | 0.78 | 0.88 | 0.00 |
| AprielGuard-8B | Có | 0.93 | 0.94 | 0.94 | 0.10 |
Đánh giá Đa ngôn ngữ
Một hạn chế lớn trong lĩnh vực nghiên cứu kiểm duyệt nội dung hiện nay là sự khan hiếm của các điểm chuẩn đa ngôn ngữ chất lượng cao. Để giải quyết khoảng trống này và đánh giá toàn diện khả năng đa ngôn ngữ của AprielGuard, chúng tôi đã mở rộng các điểm chuẩn Rủi ro An toàn và các điểm chuẩn Tấn công Đối nghịch sang nhiều ngôn ngữ phi tiếng Anh. Quá trình dịch được thực hiện bằng mô hình MADLAD400-3B-MT, một mô hình dịch máy đa ngôn ngữ dựa trên kiến trúc T5.
Đối với nghiên cứu này, chúng tôi đã chọn tám ngôn ngữ phi tiếng Anh được sử dụng rộng rãi nhất để đảm bảo phạm vi bao phủ ngôn ngữ và địa lý rộng: tiếng Pháp, tiếng Pháp Canada, tiếng Đức, tiếng Nhật, tiếng Hà Lan, tiếng Tây Ban Nha, tiếng Bồ Đào Nha Brazil và tiếng Ý. Mỗi trường hợp từ các điểm chuẩn An toàn và Đối nghịch tiếng Anh đã được dịch sang tám ngôn ngữ đích. Trong quá trình dịch, chúng tôi đã bảo tồn các định danh vai trò tiếng Anh ban đầu, chẳng hạn như User: và Assistant:, trong khi chỉ dịch nội dung hội thoại. Lựa chọn thiết kế này đảm bảo sự liên kết với khung kiểm duyệt của AprielGuard, nơi ngữ cảnh vai trò đóng một phần quan trọng trong việc đánh giá ý định an toàn và đối nghịch.
Kết luận
- AprielGuard hợp nhất khả năng chống chịu về an toàn, an ninh và tác tử vào một mô hình giám hộ duy nhất có khả năng xử lý:
- Phân loại rủi ro an toàn toàn diện.
- Phát hiện tấn công đối nghịch, bao gồm cả các nỗ lực tiêm nhiễm lời nhắc và vượt rào.
- Các phương thức đầu vào khác nhau, chẳng hạn như lời nhắc độc lập, hội thoại đa lượt và quy trình làm việc tác tử đầy đủ.
- Đầu vào ngữ cảnh dài.
- Đầu vào đa ngôn ngữ.
- Suy luận có thể giải thích.
Khi LLM tiến tới các hệ thống tác tử được tích hợp sâu, nhu cầu về các quy trình hợp nhất trở nên quan trọng hơn. AprielGuard là một bước tiến tới tương lai đó — giảm độ phức tạp, cải thiện phạm vi bao phủ và cung cấp một nền tảng có thể mở rộng cho việc triển khai AI đáng tin cậy.
Hạn chế
- Phạm vi ngôn ngữ: Mặc dù AprielGuard đã được đào tạo chủ yếu trên dữ liệu tiếng Anh, các thử nghiệm hạn chế cho thấy nó hoạt động khá tốt trên một số ngôn ngữ, bao gồm: tiếng Anh, tiếng Đức, tiếng Tây Ban Nha, tiếng Pháp, tiếng Pháp (Canada), tiếng Ý, tiếng Hà Lan và tiếng Bồ Đào Nha (Brazil). Tuy nhiên, nên kiểm tra và hiệu chỉnh kỹ lưỡng trước khi triển khai mô hình cho mục đích sản xuất trong môi trường phi tiếng Anh.
- Khả năng chống chịu đối nghịch: Mặc dù được đào tạo có mục tiêu về hành vi đối nghịch và thao túng, mô hình vẫn có thể dễ bị tổn thương trước các chiến lược tấn công phức tạp hoặc chưa từng thấy.
- Độ nhạy với miền: AprielGuard có thể hoạt động kém hơn trong các miền rất chuyên biệt hoặc kỹ thuật (ví dụ: ngữ cảnh pháp lý, y tế hoặc khoa học) đòi hỏi sự hiểu biết ngữ cảnh tinh tế.
- Sự đánh đổi giữa độ trễ–khả năng diễn giải: Bật dấu vết suy luận giúp tăng khả năng diễn giải nhưng làm tăng độ trễ và chi phí tính toán. Đối với các trường hợp sử dụng có độ trễ thấp hoặc quy mô lớn, nên sử dụng chế độ không suy luận.
- Độ nhạy của Chế độ Suy luận: Mô hình đôi khi cho thấy sự không nhất quán trong kết quả phân loại giữa chế độ suy luận được bật và chế độ không suy luận.
- Mục đích sử dụng: AprielGuard chỉ dành cho mục đích sử dụng làm mô hình bảo vệ và đánh giá rủi ro. Nó phân loại các rủi ro an toàn tiềm ẩn và các mối đe dọa đối nghịch theo phân loại hợp nhất của AprielGuard. Bất kỳ sai lệch nào so với suy luận được chỉ định có thể dẫn đến hành vi không mong muốn, không an toàn hoặc không đáng tin cậy.