Trách nhiệm & An toàn. Nâng cao các biện pháp bảo vệ an ninh của Gemini

Chúng tôi đã biến Gemini 2.5 trở thành dòng mô hình an toàn nhất của chúng tôi cho đến nay.

  • 7 min read
Trách nhiệm & An toàn. Nâng cao các biện pháp bảo vệ an ninh của Gemini
Chúng tôi đã biến Gemini 2.5 trở thành dòng mô hình an toàn nhất của chúng tôi cho đến nay.

Tăng Cường Các Biện Pháp Bảo Vệ An Ninh Của Gemini

Chúng tôi đã tạo ra Gemini 2.5, dòng mô hình an toàn nhất từ trước đến nay.

Hãy tưởng tượng bạn yêu cầu tác nhân AI của mình tóm tắt các email mới nhất của bạn — một nhiệm vụ có vẻ đơn giản. Gemini và các mô hình ngôn ngữ lớn (LLM) khác liên tục được cải thiện trong việc thực hiện các nhiệm vụ như vậy, bằng cách truy cập thông tin như tài liệu, lịch hoặc trang web bên ngoài của chúng ta. Nhưng điều gì sẽ xảy ra nếu một trong những email đó chứa các hướng dẫn độc hại ẩn, được thiết kế để đánh lừa AI chia sẻ dữ liệu cá nhân hoặc lạm dụng quyền của nó?

Tấn công chèn lệnh gián tiếp (Indirect prompt injection) đặt ra một thách thức an ninh mạng thực sự, trong đó các mô hình AI đôi khi phải vật lộn để phân biệt giữa các hướng dẫn chính hãng của người dùng và các lệnh điều khiển được nhúng trong dữ liệu mà chúng truy xuất. Sách trắng mới của chúng tôi, Lessons from Defending Gemini Against Indirect Prompt Injections, trình bày kế hoạch chiến lược của chúng tôi để giải quyết các cuộc tấn công chèn lệnh gián tiếp khiến các công cụ AI có tính chất tác nhân (agentic), được hỗ trợ bởi các mô hình ngôn ngữ lớn tiên tiến, trở thành mục tiêu cho các cuộc tấn công như vậy.

Cam kết của chúng tôi là xây dựng không chỉ các tác nhân AI có khả năng mà còn an toàn, có nghĩa là chúng tôi liên tục làm việc để hiểu cách Gemini có thể phản ứng với các cuộc tấn công chèn lệnh gián tiếp và làm cho nó kiên cường hơn trước chúng.

<picture class="picture gdm-video-embed__poster" aria-hidden="true">
  <source
  media="(min-width: 600px)"
  type="image/webp"
  width="616"
  height="456"
  srcset="https://lh3.googleusercontent.com/6DMMibPnFveVrXEkMLQYREX0It2hY4m2dgmPxixJsy6JuHv5NpTZeT9BI1H6GIMqYrHsV9gZiv6GHWCze1iZ1ygcoQ9C7AfGaDeOlwjrgDrInAq3mg=w616-rw 1x, https://lh3.googleusercontent.com/6DMMibPnFveVrXEkMLQYREX0It2hY4m2dgmPxixJsy6JuHv5NpTZeT9BI1H6GIMqYrHsV9gZiv6GHWCze1iZ1ygcoQ9C7AfGaDeOlwjrgDrInAq3mg=w1232-rw 2x"
/><source
  
  type="image/webp"
  width="528"
  height="391"
  srcset="https://lh3.googleusercontent.com/6DMMibPnFveVrXEkMLQYREX0It2hY4m2dgmPxixJsy6JuHv5NpTZeT9BI1H6GIMqYrHsV9gZiv6GHWCze1iZ1ygcoQ9C7AfGaDeOlwjrgDrInAq3mg=w528-rw 1x, https://lh3.googleusercontent.com/6DMMibPnFveVrXEkMLQYREX0It2hY4m2dgmPxixJsy6JuHv5NpTZeT9BI1H6GIMqYrHsV9gZiv6GHWCze1iZ1ygcoQ9C7AfGaDeOlwjrgDrInAq3mg=w1056-rw 2x"
/>
  <img alt="" class="picture__image" height="456" loading="lazy" role="presentation" src="https://lh3.googleusercontent.com/6DMMibPnFveVrXEkMLQYREX0It2hY4m2dgmPxixJsy6JuHv5NpTZeT9BI1H6GIMqYrHsV9gZiv6GHWCze1iZ1ygcoQ9C7AfGaDeOlwjrgDrInAq3mg=w616" width="616">
</picture>


    <template>
      <video class="gdm-video-embed__player" muted playsinline loop width="1030" height="764"><source src="/api/blob/website/media/Prompt-Injection-Protection-Figure1-250518-r01.mp4" type="video/mp4">

Đánh Giá Các Chiến Lược Phòng Thủ Cơ Bản

Các cuộc tấn công chèn lệnh gián tiếp rất phức tạp và đòi hỏi sự cảnh giác liên tục và nhiều lớp phòng thủ. Nhóm Nghiên cứu Bảo mật và Quyền riêng tư của Google DeepMind chuyên bảo vệ các mô hình AI của chúng tôi khỏi các cuộc tấn công có chủ ý, độc hại. Cố gắng tìm các lỗ hổng này theo cách thủ công rất chậm và không hiệu quả, đặc biệt khi các mô hình phát triển nhanh chóng. Đó là một trong những lý do chúng tôi xây dựng một hệ thống tự động để không ngừng thăm dò các biện pháp phòng thủ của Gemini.

Sử Dụng Red-Teaming Tự Động Để Làm Cho Gemini An Toàn Hơn

Một phần cốt lõi trong chiến lược bảo mật của chúng tôi là red teaming tự động (ART), trong đó nhóm Gemini nội bộ của chúng tôi liên tục tấn công Gemini theo những cách thực tế để khám phá những điểm yếu bảo mật tiềm ẩn trong mô hình. Sử dụng kỹ thuật này, cùng với các nỗ lực khác được trình bày chi tiết trong sách trắng của chúng tôi, đã giúp tăng đáng kể tỷ lệ bảo vệ của Gemini chống lại các cuộc tấn công chèn lệnh gián tiếp trong quá trình sử dụng công cụ, làm cho Gemini 2.5 trở thành dòng mô hình an toàn nhất của chúng tôi cho đến nay.

Chúng tôi đã thử nghiệm một số chiến lược phòng thủ do cộng đồng nghiên cứu đề xuất, cũng như một số ý tưởng của riêng chúng tôi:

<picture class="picture">
  <source
  media="(min-width: 1024px)"
  type="image/webp"
  width="1070"
  height="484"
  srcset="https://lh3.googleusercontent.com/8JLQDWNr4_jo8xsxZYHHicuib2QT7VOBJ76r8AAUsHYCgZ2s1FZAa4-9lAjCj1N-JNsFcplafCt6CBS5OU_Ijuz6CNXq3ZnY3sMweg0xOdgaltlgmg=w1070-rw 1x, https://lh3.googleusercontent.com/8JLQDWNr4_jo8xsxZYHHicuib2QT7VOBJ76r8AAUsHYCgZ2s1FZAa4-9lAjCj1N-JNsFcplafCt6CBS5OU_Ijuz6CNXq3ZnY3sMweg0xOdgaltlgmg=w2140-rw 2x"
/><source
  media="(min-width: 600px)"
  type="image/webp"
  width="928"
  height="420"
  srcset="https://lh3.googleusercontent.com/8JLQDWNr4_jo8xsxZYHHicuib2QT7VOBJ76r8AAUsHYCgZ2s1FZAa4-9lAjCj1N-JNsFcplafCt6CBS5OU_Ijuz6CNXq3ZnY3sMweg0xOdgaltlgmg=w928-rw 1x, https://lh3.googleusercontent.com/8JLQDWNr4_jo8xsxZYHHicuib2QT7VOBJ76r8AAUsHYCgZ2s1FZAa4-9lAjCj1N-JNsFcplafCt6CBS5OU_Ijuz6CNXq3ZnY3sMweg0xOdgaltlgmg=w1856-rw 2x"
/><source
  
  type="image/webp"
  width="528"
  height="239"
  srcset="https://lh3.googleusercontent.com/8JLQDWNr4_jo8xsxZYHHicuib2QT7VOBJ76r8AAUsHYCgZ2s1FZAa4-9lAjCj1N-JNsFcplafCt6CBS5OU_Ijuz6CNXq3ZnY3sMweg0xOdgaltlgmg=w528-rw 1x, https://lh3.googleusercontent.com/8JLQDWNr4_jo8xsxZYHHicuib2QT7VOBJ76r8AAUsHYCgZ2s1FZAa4-9lAjCj1N-JNsFcplafCt6CBS5OU_Ijuz6CNXq3ZnY3sMweg0xOdgaltlgmg=w1056-rw 2x"
/>
  <img alt="" class="picture__image" height="484" loading="lazy" src="https://lh3.googleusercontent.com/8JLQDWNr4_jo8xsxZYHHicuib2QT7VOBJ76r8AAUsHYCgZ2s1FZAa4-9lAjCj1N-JNsFcplafCt6CBS5OU_Ijuz6CNXq3ZnY3sMweg0xOdgaltlgmg=w1070" width="1070">
</picture>

Điều Chỉnh Đánh Giá Cho Các Cuộc Tấn Công Thích Ứng

Các biện pháp giảm thiểu cơ bản cho thấy triển vọng chống lại các cuộc tấn công cơ bản, không thích ứng, giảm đáng kể tỷ lệ thành công của cuộc tấn công. Tuy nhiên, các tác nhân độc hại ngày càng sử dụng các cuộc tấn công thích ứng được thiết kế đặc biệt để phát triển và thích ứng với ART nhằm phá vỡ hệ thống phòng thủ đang được thử nghiệm.

Các biện pháp phòng thủ cơ bản thành công như Spotlighting hoặc Tự phản ánh trở nên kém hiệu quả hơn nhiều trước các cuộc tấn công thích ứng học cách đối phó và vượt qua các phương pháp phòng thủ tĩnh.

Phát hiện này minh họa một điểm quan trọng: dựa vào các biện pháp phòng thủ chỉ được thử nghiệm chống lại các cuộc tấn công tĩnh mang lại cảm giác an toàn sai lầm. Để bảo mật mạnh mẽ, điều quan trọng là phải đánh giá các cuộc tấn công thích ứng phát triển để đáp ứng với các biện pháp phòng thủ tiềm năng.

Xây Dựng Khả Năng Chống Chịu Vốn Có Thông Qua Làm Cứng Mô Hình

Mặc dù các biện pháp phòng thủ bên ngoài và các biện pháp bảo vệ ở cấp hệ thống rất quan trọng, nhưng việc tăng cường khả năng vốn có của mô hình AI để nhận biết và bỏ qua các hướng dẫn độc hại được nhúng trong dữ liệu cũng rất quan trọng. Chúng tôi gọi quy trình này là ’làm cứng mô hình'.

Chúng tôi đã tinh chỉnh Gemini trên một tập dữ liệu lớn gồm các tình huống thực tế, trong đó ART tạo ra các cuộc tấn công chèn lệnh gián tiếp hiệu quả nhắm vào thông tin nhạy cảm. Điều này đã dạy Gemini bỏ qua hướng dẫn nhúng độc hại và tuân theo yêu cầu ban đầu của người dùng, do đó chỉ cung cấp phản hồi an toàn chính xác mà nó nên đưa ra. Điều này cho phép mô hình hiểu một cách tự nhiên cách xử lý thông tin bị xâm phạm phát triển theo thời gian như một phần của các cuộc tấn công thích ứng.

Việc làm cứng mô hình này đã tăng cường đáng kể khả năng của Gemini trong việc xác định và bỏ qua các hướng dẫn được chèn, giảm tỷ lệ thành công của cuộc tấn công. Và quan trọng là, không ảnh hưởng đáng kể đến hiệu suất của mô hình đối với các tác vụ bình thường.

Điều quan trọng cần lưu ý là ngay cả với việc làm cứng mô hình, không có mô hình nào hoàn toàn miễn nhiễm. Những kẻ tấn công quyết tâm vẫn có thể tìm thấy những lỗ hổng mới. Do đó, mục tiêu của chúng tôi là làm cho các cuộc tấn công trở nên khó khăn hơn, tốn kém hơn và phức tạp hơn nhiều đối với đối thủ.

Thực Hiện Cách Tiếp Cận Toàn Diện Để Bảo Mật Mô Hình

Bảo vệ các mô hình AI chống lại các cuộc tấn công như chèn lệnh gián tiếp đòi hỏi “phòng thủ chiều sâu” – sử dụng nhiều lớp bảo vệ, bao gồm làm cứng mô hình, kiểm tra đầu vào/đầu ra (như bộ phân loại) và các biện pháp bảo vệ ở cấp hệ thống. Chống lại các cuộc tấn công chèn lệnh gián tiếp là một cách quan trọng để chúng tôi thực hiện các nguyên tắc và hướng dẫn bảo mật tác nhân (agentic) của mình để phát triển các tác nhân một cách có trách nhiệm.

Bảo vệ các hệ thống AI tiên tiến chống lại các mối đe dọa cụ thể, đang phát triển như chèn lệnh gián tiếp là một quá trình liên tục. Nó đòi hỏi phải theo đuổi đánh giá liên tục và thích ứng, cải thiện các biện pháp phòng thủ hiện có và khám phá các biện pháp phòng thủ mới, đồng thời xây dựng khả năng phục hồi vốn có vào chính các mô hình. Bằng cách xếp lớp các biện pháp phòng thủ và học hỏi liên tục, chúng ta có thể cho phép các trợ lý AI như Gemini tiếp tục vừa cực kỳ hữu ích vừa đáng tin cậy.

Để tìm hiểu thêm về các biện pháp phòng thủ mà chúng tôi đã tích hợp vào Gemini và khuyến nghị của chúng tôi về việc sử dụng các cuộc tấn công thích ứng, đầy thách thức hơn để đánh giá tính mạnh mẽ của mô hình, vui lòng tham khảo sách trắng GDM, Lessons from Defending Gemini Against Indirect Prompt Injections.

Recommended for You

Các mô hình. Gemini 2.5- Các mô hình thông minh nhất của chúng tôi đang ngày càng trở nên tốt hơn

Các mô hình. Gemini 2.5- Các mô hình thông minh nhất của chúng tôi đang ngày càng trở nên tốt hơn

Gemini 2.5 Pro tiếp tục được các nhà phát triển yêu thích với tư cách là mô hình tốt nhất để viết mã và 2.5 Flash thậm chí còn tốt hơn với bản cập nhật mới. Chúng tôi đang mang đến những khả năng mới cho các mô hình của mình, bao gồm...

Các mô hình. Giới thiệu bản xem trước Gemma 3n- AI mạnh mẽ, hiệu quả, ưu tiên thiết bị di động

Các mô hình. Giới thiệu bản xem trước Gemma 3n- AI mạnh mẽ, hiệu quả, ưu tiên thiết bị di động

Gemma 3n là một mô hình mở tiên tiến được thiết kế để mang lại AI đa phương thức nhanh chóng trên các thiết bị, với hiệu suất được tối ưu hóa, tính linh hoạt độc đáo với mô hình 2 trong 1 và khả năng hiểu đa phương thức mở rộng...