Làm thế nào đội đỏ của OpenAI biến tác nhân ChatGPT thành một pháo đài AI

Đội đỏ của OpenAI có kế hoạch biến tác nhân ChatGPT thành một pháo đài AI.

July 19, 2025
12 min read

Làm thế nào đội đỏ của OpenAI biến tác nhân ChatGPT thành một pháo đài AI — Đội đỏ của OpenAI có kế hoạch biến tác nhân ChatGPT thành một pháo đài AI.

Cách đội đỏ của OpenAI biến ChatGPT Agent thành một pháo đài AI

Bạn muốn có những thông tin chi tiết thông minh hơn trong hộp thư đến của mình? Đăng ký nhận bản tin hàng tuần của chúng tôi để chỉ nhận những gì quan trọng đối với các nhà lãnh đạo AI, dữ liệu và bảo mật doanh nghiệp. Đăng ký ngay

Trong trường hợp bạn bỏ lỡ, hôm qua OpenAI đã ra mắt một tính năng mới mạnh mẽ cho ChatGPT, cùng với đó là một loạt các rủi ro và hậu quả bảo mật mới.

Tính năng mới này, được gọi là “ChatGPT Agent”, là một chế độ tùy chọn mà người dùng trả phí ChatGPT có thể tham gia bằng cách nhấp vào “Công cụ” trong hộp nhập lời nhắc và chọn “chế độ agent”, tại thời điểm đó, họ có thể yêu cầu ChatGPT đăng nhập vào email và các tài khoản web khác của họ; viết và trả lời email; tải xuống, sửa đổi và tạo tệp; và thực hiện một loạt các tác vụ khác thay mặt họ, một cách tự động, giống như một người thật sử dụng máy tính với thông tin đăng nhập của họ.

Rõ ràng, điều này cũng đòi hỏi người dùng phải tin tưởng rằng ChatGPT Agent sẽ không làm bất cứ điều gì có vấn đề hoặc xấu xa, hoặc làm rò rỉ dữ liệu và thông tin nhạy cảm của họ. Nó cũng gây ra rủi ro lớn hơn cho người dùng và người sử dụng lao động của họ so với ChatGPT thông thường, vốn không thể đăng nhập vào tài khoản web hoặc sửa đổi tệp trực tiếp.

Keren Gu, một thành viên của nhóm Nghiên cứu An toàn tại OpenAI, đã bình luận trên X rằng “chúng tôi đã kích hoạt các biện pháp bảo vệ mạnh nhất của mình cho ChatGPT Agent. Đây là mô hình đầu tiên chúng tôi phân loại là có khả năng Cao trong sinh học & hóa học theo Khuôn khổ Chuẩn bị của chúng tôi. Đây là lý do tại sao điều đó quan trọng - và những gì chúng tôi đang làm để giữ cho nó an toàn."

Chuỗi Tác Động AI Trở Lại San Francisco - Ngày 5 tháng 8

Giai đoạn tiếp theo của AI đã đến - bạn đã sẵn sàng chưa? Tham gia cùng các nhà lãnh đạo từ Block, GSK và SAP để có cái nhìn độc quyền về cách các tác nhân tự trị đang định hình lại quy trình làm việc của doanh nghiệp - từ việc ra quyết định theo thời gian thực đến tự động hóa đầu cuối.

Đảm bảo vị trí của bạn ngay bây giờ - không gian có hạn: https://bit.ly/3GuuPLF

Vậy OpenAI đã xử lý tất cả các vấn đề bảo mật này như thế nào?

Nhiệm vụ của đội đỏ

Nhìn vào thẻ hệ thống ChatGPT Agent của OpenAI, “đội đỏ” do công ty thuê để thử nghiệm tính năng này đã phải đối mặt với một nhiệm vụ đầy thách thức: cụ thể, 16 nhà nghiên cứu bảo mật có bằng tiến sĩ đã được giao 40 giờ để thử nghiệm nó.

Thông qua thử nghiệm có hệ thống, đội đỏ đã phát hiện ra bảy lỗ hổng khai thác phổ quát có thể xâm phạm hệ thống, tiết lộ các lỗ hổng quan trọng trong cách các tác nhân AI xử lý các tương tác trong thế giới thực.

Tiếp theo là thử nghiệm bảo mật mở rộng, phần lớn dựa trên hoạt động của đội đỏ. Mạng lưới đội đỏ đã gửi 110 cuộc tấn công, từ các cuộc tấn công bằng cách tiêm lời nhắc đến các nỗ lực trích xuất thông tin sinh học. Mười sáu vượt quá ngưỡng rủi ro nội bộ. Mỗi phát hiện đã cung cấp cho các kỹ sư OpenAI những hiểu biết sâu sắc mà họ cần để viết và triển khai các bản sửa lỗi trước khi ra mắt.

Kết quả tự nói lên điều đó trong kết quả được công bố trong thẻ hệ thống. ChatGPT Agent đã xuất hiện với những cải tiến bảo mật đáng kể, bao gồm hiệu suất 95% trước các cuộc tấn công hướng dẫn không liên quan của trình duyệt trực quan và các biện pháp bảo vệ sinh học và hóa học mạnh mẽ.

Đội đỏ đã phơi bày bảy lỗ hổng khai thác phổ quát

Mạng lưới đội đỏ của OpenAI bao gồm 16 nhà nghiên cứu có bằng tiến sĩ liên quan đến an toàn sinh học, những người đã cùng nhau gửi 110 nỗ lực tấn công trong giai đoạn thử nghiệm. Mười sáu vượt quá ngưỡng rủi ro nội bộ, tiết lộ các lỗ hổng cơ bản trong cách các tác nhân AI xử lý các tương tác trong thế giới thực. Nhưng bước đột phá thực sự đến từ quyền truy cập chưa từng có của UK AISI vào chuỗi lý luận nội bộ và văn bản chính sách của ChatGPT Agent. Phải thừa nhận rằng đó là thông tin tình báo mà những kẻ tấn công thông thường sẽ không bao giờ có được.

Trong hơn bốn vòng thử nghiệm, UK AISI đã buộc OpenAI phải thực hiện bảy lỗ hổng khai thác phổ quát có khả năng xâm phạm bất kỳ cuộc trò chuyện nào:

Các vectơ tấn công buộc OpenAI phải hành động

Đánh giá của FAR.AI đã công khai chỉ trích cách tiếp cận của OpenAI. Mặc dù 40 giờ thử nghiệm chỉ tiết lộ ba lỗ hổng khai thác một phần, nhưng họ đã xác định rằng các cơ chế an toàn hiện tại chủ yếu dựa vào việc giám sát trong quá trình lý luận và sử dụng công cụ, mà các nhà nghiên cứu coi là một điểm thất bại tiềm ẩn nếu bị xâm phạm.

Làm thế nào hoạt động của đội đỏ đã giúp biến các lỗ hổng của ChatGPT thành một pháo đài

Phản ứng của OpenAI đối với kết quả của đội đỏ đã định nghĩa lại toàn bộ các phân đoạn của kiến trúc ChatGPT Agent. Một trong nhiều sáng kiến được thực hiện bao gồm xây dựng một kiến trúc kiểm tra hai lớp giám sát 100% lưu lượng sản xuất theo thời gian thực, đạt được những cải tiến có thể đo lường được sau đây:

Cải thiện bảo mật sau khi phát hiện của đội đỏ

Kiến trúc hoạt động như sau:

Tầng thứ nhất: Một bộ phân loại nhanh với khả năng thu hồi 96% gắn cờ nội dung đáng ngờ
Tầng thứ hai: Một mô hình lý luận với khả năng thu hồi 84% phân tích các tương tác được gắn cờ để tìm các mối đe dọa thực tế

Nhưng các biện pháp phòng thủ kỹ thuật chỉ kể một phần của câu chuyện. OpenAI đã đưa ra những lựa chọn bảo mật khó khăn thừa nhận rằng một số hoạt động AI yêu cầu các hạn chế đáng kể để thực hiện tự động một cách an toàn.

Dựa trên các lỗ hổng được phát hiện, OpenAI đã triển khai các biện pháp đối phó sau trên mô hình của họ:

Kích hoạt Chế độ Xem: Khi ChatGPT Agent truy cập các ngữ cảnh nhạy cảm như tài khoản ngân hàng hoặc email, hệ thống sẽ đóng băng tất cả hoạt động nếu người dùng điều hướng đi. Đây là phản ứng trực tiếp đối với các nỗ lực khai thác dữ liệu được phát hiện trong quá trình thử nghiệm.
Tính năng Bộ nhớ Bị Tắt: Mặc dù là một chức năng cốt lõi, bộ nhớ hoàn toàn bị tắt khi ra mắt để ngăn chặn các cuộc tấn công làm rò rỉ dữ liệu gia tăng mà các thành viên đội đỏ đã chứng minh.
Hạn chế Thiết bị đầu cuối: Truy cập mạng bị giới hạn chỉ cho các yêu cầu GET, chặn các lỗ hổng thực thi lệnh mà các nhà nghiên cứu đã khai thác.
Giao thức Khắc phục Nhanh: Một hệ thống mới vá các lỗ hổng trong vòng vài giờ sau khi phát hiện - được phát triển sau khi các thành viên đội đỏ chỉ ra tốc độ lây lan của các lỗ hổng khai thác.

Chỉ riêng trong quá trình thử nghiệm trước khi ra mắt, hệ thống này đã xác định và giải quyết 16 lỗ hổng quan trọng mà các thành viên đội đỏ đã phát hiện ra.

Cuộc gọi cảnh tỉnh về rủi ro sinh học

Các thành viên đội đỏ đã tiết lộ khả năng ChatGPT Agent có thể bị xâm phạm và dẫn đến rủi ro sinh học lớn hơn. Mười sáu người tham gia có kinh nghiệm từ Mạng lưới đội đỏ, mỗi người có bằng tiến sĩ liên quan đến an toàn sinh học, đã cố gắng trích xuất thông tin sinh học nguy hiểm. Các bài nộp của họ tiết lộ rằng mô hình có thể tổng hợp các tài liệu đã xuất bản về việc sửa đổi và tạo ra các mối đe dọa sinh học.

Để đáp ứng các phát hiện của các thành viên đội đỏ, OpenAI đã phân loại ChatGPT Agent là “Khả năng cao” đối với các rủi ro sinh học và hóa học, không phải vì họ tìm thấy bằng chứng xác thực về khả năng vũ khí hóa, mà là một biện pháp phòng ngừa dựa trên các phát hiện của đội đỏ. Điều này đã kích hoạt:

Bộ phân loại an toàn luôn bật quét 100% lưu lượng
Một bộ phân loại theo chủ đề đạt được khả năng thu hồi 96% cho nội dung liên quan đến sinh học
Một màn hình lý luận với khả năng thu hồi 84% cho nội dung vũ khí hóa
Một chương trình tiền thưởng lỗi sinh học để khám phá lỗ hổng liên tục

Những gì đội đỏ đã dạy OpenAI về bảo mật AI

110 bài nộp tấn công đã tiết lộ các mẫu buộc phải thay đổi cơ bản trong triết lý bảo mật của OpenAI. Chúng bao gồm những điều sau:

Sự bền bỉ hơn sức mạnh: Kẻ tấn công không cần các lỗ hổng khai thác tinh vi, tất cả những gì chúng cần là thêm thời gian. Các thành viên đội đỏ đã chỉ ra cách các cuộc tấn công gia tăng, kiên nhẫn cuối cùng có thể xâm phạm hệ thống.

Ranh giới tin cậy là hư cấu: Khi tác nhân AI của bạn có thể truy cập Google Drive, duyệt web và thực thi mã, các vành đai bảo mật truyền thống sẽ tan rã. Các thành viên đội đỏ đã khai thác những khoảng trống giữa các khả năng này.

Giám sát không phải là tùy chọn: Việc phát hiện ra rằng việc giám sát dựa trên lấy mẫu đã bỏ lỡ các cuộc tấn công quan trọng đã dẫn đến yêu cầu bao phủ 100%.

Tốc độ quan trọng: Các chu kỳ vá lỗi truyền thống được đo bằng tuần là vô giá trị trước các cuộc tấn công tiêm lời nhắc có thể lan truyền ngay lập tức. Giao thức khắc phục nhanh vá các lỗ hổng trong vòng vài giờ.

OpenAI đang giúp tạo ra một đường cơ sở bảo mật mới cho AI Doanh nghiệp

Đối với các CISO đánh giá việc triển khai AI, các khám phá của đội đỏ thiết lập các yêu cầu rõ ràng:

Bảo vệ có thể định lượng: Tỷ lệ phòng thủ 95% của ChatGPT Agent chống lại các vectơ tấn công được ghi lại đặt ra tiêu chuẩn ngành. Sắc thái của nhiều thử nghiệm và kết quả được xác định trong thẻ hệ thống giải thích bối cảnh về cách họ thực hiện điều này và là tài liệu bắt buộc phải đọc cho bất kỳ ai liên quan đến bảo mật mô hình.
Khả năng hiển thị hoàn chỉnh: Giám sát lưu lượng 100% không còn là khát vọng nữa. Kinh nghiệm của OpenAI minh họa lý do tại sao nó là bắt buộc vì các đội đỏ có thể dễ dàng che giấu các cuộc tấn công ở bất cứ đâu.
Phản hồi nhanh chóng: Giờ, không phải tuần, để vá các lỗ hổng được phát hiện.
Ranh giới được thực thi: Một số hoạt động (như truy cập bộ nhớ trong các tác vụ nhạy cảm) phải bị tắt cho đến khi được chứng minh là an toàn.

Thử nghiệm của UK AISI đã chứng minh đặc biệt mang tính hướng dẫn. Tất cả bảy cuộc tấn công phổ quát mà họ xác định đã được vá trước khi ra mắt, nhưng quyền truy cập đặc quyền của họ vào các hệ thống nội bộ đã tiết lộ các lỗ hổng mà cuối cùng sẽ được những kẻ thù quyết tâm khám phá.

“Đây là một thời điểm then chốt cho công việc Chuẩn bị của chúng tôi,” Gu viết trên X. “Trước khi chúng tôi đạt đến khả năng Cao, Chuẩn bị là về phân tích khả năng và lên kế hoạch bảo vệ. Giờ đây, đối với Agent và các mô hình có khả năng hơn trong tương lai, các biện pháp bảo vệ Chuẩn bị đã trở thành một yêu cầu hoạt động.”

Đội đỏ là cốt lõi để xây dựng các mô hình AI an toàn hơn, bảo mật hơn

Bảy lỗ hổng khai thác phổ quát được các nhà nghiên cứu khám phá và 110 cuộc tấn công từ mạng lưới đội đỏ của OpenAI đã trở thành lò luyện kim rèn nên ChatGPT Agent.

Bằng cách tiết lộ chính xác cách các tác nhân AI có thể được vũ khí hóa, các đội đỏ đã buộc phải tạo ra hệ thống AI đầu tiên mà bảo mật không chỉ là một tính năng. Nó là nền tảng.

Kết quả của ChatGPT Agent chứng minh hiệu quả của hoạt động của đội đỏ: chặn 95% các cuộc tấn công trình duyệt trực quan, bắt 78% các nỗ lực khai thác dữ liệu, giám sát mọi tương tác.

Trong cuộc chạy đua vũ trang AI đang tăng tốc, các công ty tồn tại và phát triển mạnh mẽ sẽ là những công ty coi các đội đỏ của họ là kiến trúc sư cốt lõi của nền tảng thúc đẩy nó đến giới hạn của sự an toàn và bảo mật.

AI Today - SkyAI