Chia sẻ các công cụ bảo vệ mã nguồn mở mới và những tiến bộ trong bảo mật và quyền riêng tư của AI

April 30, 2025
6 min read

Chia sẻ các công cụ bảo vệ mã nguồn mở mới và những tiến bộ trong bảo mật và quyền riêng tư AI

Hôm nay, chúng tôi phát hành các công cụ bảo vệ Llama mới cho cộng đồng AI mã nguồn mở.

Chúng tôi cung cấp các giải pháp hỗ trợ AI mới để giúp cộng đồng phòng thủ chủ động phát hiện và bảo vệ cơ sở hạ tầng, hệ thống và dịch vụ quan trọng trước các cuộc tấn công đang diễn ra.

Chúng tôi cũng giới thiệu công nghệ mới cho phép các yêu cầu liên quan đến AI được xử lý riêng tư.

Các công cụ bảo vệ Llama mới nhất cho cộng đồng mã nguồn mở

Chúng tôi cam kết cung cấp cho các nhà phát triển các công cụ và tài nguyên tốt nhất có thể để xây dựng các ứng dụng AI an toàn. Các nhà phát triển có thể truy cập các công cụ Bảo vệ Llama mới nhất của chúng tôi để sử dụng khi xây dựng với Llama bằng cách truy cập trang Llama Protections, Hugging Face hoặc GitHub của Meta.

Llama Guard 4: Llama Guard 4 là bản cập nhật cho công cụ Llama Guard có thể tùy chỉnh của chúng tôi, đóng vai trò là biện pháp bảo vệ thống nhất trên các phương thức, hỗ trợ bảo vệ cho việc hiểu văn bản và hình ảnh. Llama Guard 4 cũng có sẵn trên Llama API mới của chúng tôi, API này đang được ra mắt dưới dạng bản xem trước giới hạn.
LlamaFirewall: Chúng tôi giới thiệu LlamaFirewall, một công cụ bảo vệ an ninh để giúp xây dựng các hệ thống AI an toàn. LlamaFirewall có thể điều phối giữa các mô hình bảo vệ và hoạt động với bộ công cụ bảo vệ của chúng tôi để phát hiện và ngăn chặn các rủi ro của hệ thống AI, chẳng hạn như tấn công bằng prompt injection (lệnh tiêm), mã không an toàn và tương tác plug-in LLM rủi ro. Để biết thêm chi tiết về công cụ này, vui lòng tham khảo bài nghiên cứu về LlamaFirewall.
Llama Prompt Guard 2: Prompt Guard 2 86M, một bản cập nhật cho mô hình phân loại Llama Prompt Guard của chúng tôi, cải thiện hiệu suất trong việc phát hiện tấn công jailbreak (vượt rào) và prompt injection. Chúng tôi cũng giới thiệu Prompt Guard 2 22M, một phiên bản nhỏ hơn, nhanh hơn có thể giảm độ trễ và chi phí tính toán với sự đánh đổi hiệu suất tối thiểu lên đến 75% so với mô hình 86M của chúng tôi.

Giúp cộng đồng phòng thủ tận dụng AI trong các hoạt động bảo mật

Tại Meta, chúng tôi sử dụng AI để tăng cường hệ thống bảo mật và phòng thủ trước các cuộc tấn công mạng tiềm ẩn. Chúng tôi đã nghe từ cộng đồng rằng họ muốn truy cập vào các công cụ hỗ trợ AI để giúp họ làm điều tương tự. Đó là lý do tại sao chúng tôi chia sẻ các bản cập nhật để giúp các tổ chức đánh giá hiệu quả của các hệ thống AI trong các hoạt động bảo mật và công bố Chương trình Llama Defenders cho các đối tác được chọn. Chúng tôi tin rằng đây là một nỗ lực quan trọng để cải thiện tính mạnh mẽ của các hệ thống phần mềm khi các mô hình AI có khả năng hơn trở nên khả dụng.

CyberSec Eval 4: Bộ benchmark (chuẩn đo) an ninh mạng mã nguồn mở được cập nhật của chúng tôi, CyberSecEval 4 bao gồm các công cụ mới—CyberSOC Eval và AutoPatchBench—để đánh giá khả năng phòng thủ của hệ thống AI.
- CyberSOC Eval: Được phát triển với CrowdStrike, framework này đo lường hiệu quả của hệ thống AI trong các trung tâm điều hành bảo mật. Hôm nay, chúng tôi đang công bố chuẩn đo này và sẽ sớm phát hành nó.
- AutoPatchBench: Một benchmark mới đánh giá khả năng của Llama và các hệ thống AI khác để tự động vá các lỗ hổng bảo mật trong mã gốc trước khi chúng có thể bị khai thác. Tìm hiểu thêm trên Engineering at Meta Blog.
Chương trình Llama Defenders: Chúng tôi đang khởi động Chương trình Llama Defenders để giúp các tổ chức đối tác và nhà phát triển có quyền truy cập vào nhiều giải pháp AI mở, truy cập sớm và khép kín khác nhau để giải quyết các nhu cầu bảo mật khác nhau.
- Công cụ Phân loại Tài liệu Nhạy cảm Tự động: Một công cụ chúng tôi sử dụng nội bộ tại Meta, công cụ này tự động áp dụng các nhãn phân loại bảo mật cho các tài liệu nội bộ của một tổ chức để giúp ngăn chặn truy cập và phân phối trái phép, hoặc để lọc ra các tài liệu nhạy cảm khỏi việc triển khai RAG của hệ thống AI. Tìm hiểu thêm trên GitHub.
- Llama Generated Audio Detector & Llama Audio Watermark Detector: Được thiết kế để phát hiện nội dung do AI tạo ra, các công cụ này sẽ giúp các tổ chức phát hiện các mối đe dọa do AI tạo ra, chẳng hạn như lừa đảo, gian lận và các nỗ lực phishing. Khi ra mắt, chúng tôi đang hợp tác với ZenDesk, Bell Canada và AT&T để tích hợp các công cụ này vào hệ thống của họ. Nếu bạn quan tâm đến việc tìm hiểu thêm, các tổ chức khác có thể yêu cầu thông tin bằng cách truy cập trang web Chương trình Llama Defenders.

Xây dựng công nghệ mới để cho phép xử lý riêng tư cho các yêu cầu AI

Chúng tôi đang chia sẻ cái nhìn đầu tiên về Xử lý Riêng tư, công nghệ mới của chúng tôi sẽ giúp người dùng WhatsApp tận dụng các khả năng AI cho những việc như tóm tắt các tin nhắn chưa đọc hoặc tinh chỉnh chúng, đồng thời giữ cho tin nhắn ở chế độ riêng tư để Meta hoặc WhatsApp không thể truy cập chúng. Thông tin thêm về cách tiếp cận bảo mật của chúng tôi để xây dựng công nghệ này, bao gồm mô hình mối đe dọa hướng dẫn cách chúng tôi xác định và phòng thủ trước các vectơ tấn công tiềm năng, có thể được tìm thấy trên blog Engineering của chúng tôi. Chúng tôi đang làm việc với cộng đồng bảo mật để kiểm tra và cải thiện kiến trúc của mình, đồng thời sẽ tiếp tục xây dựng và củng cố Xử lý Riêng tư một cách công khai, phối hợp với các nhà nghiên cứu, trước khi chúng tôi ra mắt nó trong sản phẩm.

Hướng tới tương lai

Chúng tôi hy vọng rằng bộ bản cập nhật AI được chia sẻ ở đây sẽ giúp các nhà phát triển xây dựng với Llama dễ dàng hơn, giúp các tổ chức tăng cường các hoạt động bảo mật của họ và cho phép các đảm bảo về quyền riêng tư mạnh mẽ hơn cho một số trường hợp sử dụng AI nhất định. Chúng tôi mong muốn tiếp tục công việc này và chia sẻ nhiều hơn nữa trong tương lai.

AI Today - SkyAI