Xây dựng AI cho những người bảo vệ mạng

Bài viết này khám phá cách AI có thể được sử dụng để tăng cường khả năng phòng thủ mạng.

  • 16 min read
Xây dựng AI cho những người bảo vệ mạng
Bài viết này khám phá cách AI có thể được sử dụng để tăng cường khả năng phòng thủ mạng.

Xây dựng AI cho người bảo vệ mạng

Các mô hình AI hiện hữu ích cho các tác vụ an ninh mạng trong thực tế, không chỉ trên lý thuyết. Khi nghiên cứu và kinh nghiệm chứng minh tính hữu dụng của AI tiên tiến như một công cụ cho những kẻ tấn công mạng, chúng tôi đã đầu tư vào việc cải thiện khả năng của Claude để giúp những người bảo vệ phát hiện, phân tích và khắc phục các lỗ hổng trong mã và các hệ thống đã triển khai. Công việc này cho phép Claude Sonnet 4.5 ngang bằng hoặc vượt trội hơn Opus 4.1, mô hình tiên tiến của chúng tôi được phát hành chỉ hai tháng trước đó, trong việc khám phá các lỗ hổng mã và các kỹ năng an ninh mạng khác. Việc áp dụng và thử nghiệm AI sẽ là chìa khóa để những người bảo vệ có thể theo kịp.

Chúng tôi tin rằng hiện tại chúng ta đang ở một bước ngoặt cho tác động của AI đối với an ninh mạng.

Trong vài năm qua, nhóm của chúng tôi đã cẩn thận theo dõi các khả năng liên quan đến an ninh mạng của các mô hình AI. Ban đầu, chúng tôi thấy các mô hình không đặc biệt mạnh mẽ đối với các khả năng nâng cao và có ý nghĩa. Tuy nhiên, trong khoảng một năm trở lại đây, chúng tôi đã nhận thấy một sự thay đổi. Ví dụ:

Trong cuộc thi AI Cyber Challenge của DARPA mùa hè này, các đội đã sử dụng LLM (bao gồm Claude) để xây dựng “hệ thống lý luận mạng” kiểm tra hàng triệu dòng mã để tìm các lỗ hổng cần vá. Ngoài các lỗ hổng được chèn vào, các đội còn tìm thấy (và đôi khi vá) các lỗ hổng không tổng hợp, chưa từng được khám phá trước đây. Vượt ra ngoài bối cảnh cạnh tranh, các phòng thí nghiệm tiên tiến khác hiện đang áp dụng các mô hình để khám phá và báo cáo các lỗ hổng mới.

Đồng thời, như một phần trong công việc Bảo vệ của chúng tôi, chúng tôi đã tìm thấy và ngăn chặn những kẻ đe dọa trên nền tảng của riêng mình, những kẻ đã tận dụng AI để mở rộng quy mô hoạt động của chúng. Nhóm Bảo vệ của chúng tôi gần đây đã phát hiện (và ngăn chặn) một trường hợp “tấn công cảm xúc,” trong đó một tội phạm mạng đã sử dụng Claude để xây dựng một kế hoạch tống tiền dữ liệu quy mô lớn mà trước đây sẽ cần một đội ngũ người. Safeguards cũng đã phát hiện và chống lại việc sử dụng Claude trong ngày càng các hoạt động gián điệp phức tạp, bao gồm cả việc nhắm mục tiêu vào cơ sở hạ tầng viễn thông quan trọng, bởi một tác nhân thể hiện các đặc điểm phù hợp với các hoạt động APT của Trung Quốc.

Tất cả các bằng chứng này khiến chúng ta nghĩ rằng chúng ta đang ở một bước ngoặt quan trọng trong hệ sinh thái mạng, và tiến trình từ đây có thể trở nên khá nhanh hoặc việc sử dụng có thể tăng lên khá nhanh chóng.

Do đó, bây giờ là một thời điểm quan trọng để tăng tốc việc sử dụng AI phòng thủ để bảo mật mã và cơ sở hạ tầng. Chúng ta không nên nhường lợi thế mạng có được từ AI cho những kẻ tấn công và tội phạm. Mặc dù chúng tôi sẽ tiếp tục đầu tư vào việc phát hiện và ngăn chặn những kẻ tấn công độc hại, nhưng chúng tôi nghĩ rằng giải pháp có khả năng mở rộng nhất là xây dựng các hệ thống AI trao quyền cho những người bảo vệ môi trường kỹ thuật số của chúng ta—như các nhóm bảo mật bảo vệ doanh nghiệp và chính phủ, các nhà nghiên cứu an ninh mạng và những người duy trì phần mềm nguồn mở quan trọng.

Trong quá trình chuẩn bị cho việc phát hành Claude Sonnet 4.5, chúng tôi đã bắt đầu làm điều đó.

Claude Sonnet 4.5: nhấn mạnh các kỹ năng mạng

Khi LLM tăng về quy mô, “khả năng mới nổi"—các kỹ năng không rõ ràng trong các mô hình nhỏ hơn và không nhất thiết là mục tiêu rõ ràng của quá trình đào tạo mô hình—xuất hiện. Thật vậy, khả năng của Claude để thực hiện các tác vụ an ninh mạng như tìm và khai thác các lỗ hổng phần mềm trong các thử thách Capture-the-Flag (CTF) là sản phẩm phụ của việc phát triển các trợ lý AI hữu ích nói chung.

Nhưng chúng tôi không muốn chỉ dựa vào tiến trình mô hình chung để trang bị tốt hơn cho những người bảo vệ. Do tính cấp bách của thời điểm này trong quá trình phát triển của AI và an ninh mạng, chúng tôi đã dành các nhà nghiên cứu để làm cho Claude giỏi hơn về các kỹ năng chính như khám phá và vá lỗ hổng mã.

Kết quả của công việc này được phản ánh trong Claude Sonnet 4.5. Nó có thể so sánh hoặc vượt trội hơn Claude Opus 4.1 về nhiều khía cạnh của an ninh mạng trong khi cũng ít tốn kém hơn và nhanh hơn.

Bằng chứng từ các đánh giá

Trong quá trình xây dựng Sonnet 4.5, chúng tôi đã có một nhóm nghiên cứu nhỏ tập trung vào việc tăng cường khả năng của Claude để tìm các lỗ hổng trong cơ sở mã, vá chúng và kiểm tra các điểm yếu trong cơ sở hạ tầng bảo mật đã triển khai được mô phỏng. Chúng tôi đã chọn những điều này vì chúng phản ánh các nhiệm vụ quan trọng đối với các tác nhân phòng thủ. Chúng tôi cố tình tránh các cải tiến rõ ràng có lợi cho công việc tấn công—chẳng hạn như khai thác nâng cao hoặc viết phần mềm độc hại. Chúng tôi hy vọng sẽ cho phép các mô hình tìm thấy mã không an toàn trước khi triển khai và tìm và sửa các lỗ hổng trong mã đã triển khai. Tất nhiên, có rất nhiều nhiệm vụ bảo mật quan trọng khác mà chúng tôi không tập trung vào; ở cuối bài đăng này, chúng tôi sẽ trình bày chi tiết về các hướng đi trong tương lai.

Để kiểm tra hiệu quả của nghiên cứu của chúng tôi, chúng tôi đã chạy các đánh giá tiêu chuẩn ngành về các mô hình của mình. Chúng cho phép so sánh rõ ràng giữa các mô hình, đo lường tốc độ tiến bộ của AI và—đặc biệt trong trường hợp các đánh giá mới, được phát triển bên ngoài—cung cấp một số liệu tốt để đảm bảo rằng chúng tôi không chỉ dạy cho các bài kiểm tra của riêng mình.

Khi chúng tôi chạy các đánh giá này, một điều nổi bật là tầm quan trọng của việc chạy chúng nhiều lần. Ngay cả khi nó tốn kém về mặt tính toán đối với một tập hợp lớn các nhiệm vụ đánh giá, nó vẫn nắm bắt tốt hơn hành vi của một kẻ tấn công hoặc người bảo vệ có động cơ đối với bất kỳ vấn đề thực tế cụ thể nào. Làm như vậy cho thấy hiệu suất ấn tượng không chỉ từ Claude Sonnet 4.5, mà còn từ các mô hình cũ hơn vài thế hệ.

Cybench

Một trong những đánh giá mà chúng tôi đã theo dõi trong hơn một năm là Cybench, một điểm chuẩn được lấy từ các thử thách cạnh tranh CTF.1 Trong đánh giá này, chúng tôi thấy sự cải thiện vượt bậc từ Claude Sonnet 4.5, không chỉ so với Claude Sonnet 4, mà thậm chí còn so với các mô hình Claude Opus 4 và 4.1. Có lẽ nổi bật nhất là, Sonnet 4.5 đạt được xác suất thành công cao hơn khi chỉ thực hiện một lần thử cho mỗi nhiệm vụ so với Opus 4.1 khi thực hiện mười lần thử cho mỗi nhiệm vụ. Các thử thách là một phần của đánh giá này phản ánh các quy trình làm việc hơi phức tạp, kéo dài. Ví dụ: một thử thách liên quan đến việc phân tích lưu lượng mạng, trích xuất phần mềm độc hại từ lưu lượng đó, đồng thời giải mã và giải mã phần mềm độc hại. Chúng tôi ước tính rằng điều này sẽ mất ít nhất một giờ đối với một người có kỹ năng, và có thể lâu hơn nhiều; Claude mất 38 phút để giải quyết nó.

Khi chúng tôi cho Claude Sonnet 4.5 10 lần thử trong đánh giá Cybench, nó thành công ở 76,5% số thử thách. Điều này đặc biệt đáng chú ý vì chúng tôi đã tăng gấp đôi tỷ lệ thành công này chỉ trong sáu tháng qua (Sonnet 3.7, được phát hành vào tháng 2 năm 2025, chỉ có tỷ lệ thành công 35,9% khi thực hiện 10 lần thử).

CyberGym

Trong một đánh giá bên ngoài khác, chúng tôi đã đánh giá Claude Sonnet 4.5 trên CyberGym, một điểm chuẩn đánh giá khả năng của các tác nhân (1) tìm các lỗ hổng (đã được khám phá trước đó) trong các dự án phần mềm nguồn mở thực tế dựa trên mô tả cấp cao về điểm yếu và (2) khám phá các lỗ hổng mới (chưa được khám phá trước đây).2 Nhóm CyberGym trước đây đã phát hiện ra rằng Claude Sonnet 4 là mô hình mạnh nhất trên bảng xếp hạng công khai của họ.

Claude Sonnet 4.5 đạt điểm cao hơn đáng kể so với Claude Sonnet 4 hoặc Claude Opus 4. Khi sử dụng các ràng buộc chi phí tương tự như bảng xếp hạng CyberGym công khai (tức là giới hạn 2 đô la cho mỗi truy vấn API LLM trên mỗi lỗ hổng), chúng tôi thấy rằng Sonnet 4.5 đạt được điểm hiện đại mới là 28,9%. Nhưng những kẻ tấn công thực sự hiếm khi bị giới hạn theo cách này: chúng có thể cố gắng thực hiện nhiều cuộc tấn công, với chi phí cao hơn nhiều so với 2 đô la cho mỗi lần thử. Khi chúng tôi loại bỏ các ràng buộc này và cho Claude 30 lần thử cho mỗi nhiệm vụ, chúng tôi thấy rằng Sonnet 4.5 tái tạo các lỗ hổng trong 66,7% chương trình. Và mặc dù giá tương đối của phương pháp này cao hơn, nhưng chi phí tuyệt đối—khoảng 45 đô la để thử một nhiệm vụ 30 lần—vẫn khá thấp.

Điều thú vị không kém là tốc độ mà Claude Sonnet 4.5 khám phá ra các lỗ hổng mới. Mặc dù bảng xếp hạng CyberGym cho thấy rằng Claude Sonnet 4 chỉ khám phá ra các lỗ hổng trong khoảng 2% mục tiêu, Sonnet 4.5 khám phá ra các lỗ hổng mới trong 5% trường hợp. Bằng cách lặp lại thử nghiệm 30 lần, nó khám phá ra các lỗ hổng mới trong hơn 33% dự án.

Nghiên cứu sâu hơn về vá lỗi

Chúng tôi cũng đang tiến hành nghiên cứu sơ bộ về khả năng tạo và xem xét các bản vá của Claude để sửa các lỗ hổng. Vá các lỗ hổng là một nhiệm vụ khó hơn so với việc tìm chúng vì mô hình phải thực hiện các thay đổi phẫu thuật để loại bỏ lỗ hổng mà không làm thay đổi chức năng ban đầu. Nếu không có hướng dẫn hoặc thông số kỹ thuật, mô hình phải suy ra chức năng dự định này từ cơ sở mã.

Trong thử nghiệm của mình, chúng tôi đã giao cho Claude Sonnet 4.5 nhiệm vụ vá các lỗ hổng trong bộ đánh giá CyberGym dựa trên mô tả về lỗ hổng và thông tin về chương trình đang làm gì khi bị treo. Chúng tôi đã sử dụng Claude để đánh giá công việc của chính mình, yêu cầu nó chấm điểm các bản vá đã gửi bằng cách so sánh chúng với các bản vá tham khảo do con người tạo ra. 15% số bản vá do Claude tạo ra được đánh giá là tương đương về mặt ngữ nghĩa với các bản vá do con người tạo ra. Tuy nhiên, phương pháp dựa trên so sánh này có một hạn chế quan trọng: vì các lỗ hổng thường có thể được sửa theo nhiều cách hợp lệ nên các bản vá khác với bản tham khảo vẫn có thể chính xác, dẫn đến kết quả âm tính giả trong đánh giá của chúng tôi.

Chúng tôi đã phân tích thủ công một mẫu các bản vá có điểm số cao nhất và thấy chúng có chức năng giống hệt với các bản vá tham khảo đã được hợp nhất vào phần mềm nguồn mở mà đánh giá CyberGym dựa trên đó. Công việc này cho thấy một mô hình phù hợp với những phát hiện rộng hơn của chúng tôi: Claude phát triển các kỹ năng liên quan đến mạng khi nó cải thiện nói chung. Kết quả sơ bộ của chúng tôi cho thấy rằng việc tạo bản vá—giống như việc khám phá lỗ hổng trước đó—là một khả năng mới nổi có thể được nâng cao bằng nghiên cứu tập trung. Bước tiếp theo của chúng tôi là giải quyết một cách có hệ thống những thách thức mà chúng tôi đã xác định để biến Claude thành một tác giả và người đánh giá bản vá đáng tin cậy.

Trao đổi với các đối tác đáng tin cậy

Bảo mật phòng thủ trong thế giới thực phức tạp hơn nhiều so với các đánh giá của chúng tôi có thể nắm bắt. Chúng tôi đã liên tục phát hiện ra rằng các vấn đề thực tế phức tạp hơn, các thách thức khó hơn và các chi tiết triển khai quan trọng hơn rất nhiều. Do đó, chúng tôi cảm thấy điều quan trọng là phải làm việc với các tổ chức thực sự sử dụng AI để phòng thủ để nhận phản hồi về cách nghiên cứu của chúng tôi có thể đẩy nhanh tiến độ của họ. Trong quá trình chuẩn bị cho Sonnet 4.5, chúng tôi đã làm việc với một số tổ chức đã áp dụng mô hình này cho các thách thức thực tế của họ trong các lĩnh vực như khắc phục lỗ hổng, kiểm tra bảo mật mạng và phân tích mối đe dọa.

Nidhi Aggarwal, Giám đốc Sản phẩm của HackerOne, cho biết, “Claude Sonnet 4.5 đã giảm thời gian tiếp nhận lỗ hổng trung bình cho các tác nhân bảo mật Hai của chúng tôi xuống 44% đồng thời cải thiện độ chính xác lên 25%, giúp chúng tôi giảm rủi ro cho các doanh nghiệp một cách tự tin.” Theo Sven Krasser, Phó chủ tịch cấp cao về Khoa học dữ liệu và Nhà khoa học trưởng tại CrowdStrike, “Claude cho thấy triển vọng mạnh mẽ đối với việc kiểm tra xâm nhập—tạo ra các kịch bản tấn công sáng tạo giúp tăng tốc cách chúng tôi nghiên cứu nghề nghiệp của những kẻ tấn công. Những thông tin chi tiết này củng cố khả năng phòng thủ của chúng tôi trên các điểm cuối, danh tính, đám mây, dữ liệu, SaaS và khối lượng công việc AI.”

Những lời chứng thực này đã giúp chúng tôi tin tưởng hơn vào tiềm năng cho công việc phòng thủ, ứng dụng với Claude.

Tiếp theo là gì?

Claude Sonnet 4.5 thể hiện một cải tiến có ý nghĩa, nhưng chúng tôi biết rằng nhiều khả năng của nó còn non trẻ và chưa phù hợp với khả năng của các chuyên gia bảo mật và các quy trình đã được thiết lập. Chúng tôi sẽ tiếp tục nỗ lực để cải thiện các khả năng liên quan đến phòng thủ của các mô hình của mình và tăng cường thông tin tình báo về mối đe dọa và các biện pháp giảm thiểu giúp bảo vệ nền tảng của chúng tôi. Trên thực tế, chúng tôi đã sử dụng kết quả điều tra và đánh giá của mình để liên tục tinh chỉnh khả năng nắm bắt việc sử dụng sai trái các mô hình của chúng tôi cho các hành vi mạng có hại. Điều này bao gồm sử dụng các kỹ thuật như tóm tắt cấp tổ chức để hiểu bức tranh lớn hơn ngoài một lời nhắc và hoàn thành duy nhất; điều này giúp phân tách hành vi sử dụng kép khỏi hành vi xấu xa, đặc biệt đối với các trường hợp sử dụng gây tổn hại nhiều nhất liên quan đến hoạt động tự động quy mô lớn.

Nhưng chúng tôi tin rằng bây giờ là thời điểm để càng nhiều tổ chức càng tốt bắt đầu thử nghiệm cách AI có thể cải thiện tư thế bảo mật của họ và xây dựng các đánh giá để đánh giá những thành quả đó. Đánh giá bảo mật tự động trong Claude Code cho thấy AI có thể được tích hợp vào quy trình CI/CD như thế nào. Chúng tôi đặc biệt muốn cho phép các nhà nghiên cứu và nhóm thử nghiệm với việc áp dụng các mô hình trong các lĩnh vực như tự động hóa Trung tâm điều hành bảo mật (SOC), phân tích Quản lý thông tin và sự kiện bảo mật (SIEM), kỹ thuật mạng an toàn hoặc phòng thủ chủ động. Chúng tôi muốn xem và sử dụng nhiều đánh giá hơn cho các khả năng phòng thủ như một phần của hệ sinh thái bên thứ ba đang phát triển để đánh giá mô hình.

Nhưng ngay cả việc xây dựng và áp dụng để mang lại lợi thế cho những người bảo vệ chỉ là một phần của giải pháp. Chúng ta cũng cần các cuộc trò chuyện về việc làm cho cơ sở hạ tầng kỹ thuật số trở nên kiên cường hơn và phần mềm mới an toàn theo thiết kế—bao gồm cả sự giúp đỡ từ các mô hình AI tiên tiến. Chúng tôi mong muốn được thảo luận về những điều này với ngành, chính phủ và xã hội dân sự khi chúng ta điều hướng thời điểm mà tác động của AI đối với an ninh mạng chuyển từ mối quan tâm trong tương lai sang một mệnh lệnh ngày nay.

Bài viết này ban đầu được đăng vào ngày 29 tháng 9 năm 2025 trên blog của Frontier Red Team, red.anthropic.com.

Chú thích

  1. Andy K Zhang và cộng sự, “Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models,” trong Hội nghị Quốc tế về Biểu diễn Học tập lần thứ mười ba (2025), https://openreview.net/forum?id=tc90LV0yRL.

  2. Zhun Wang và cộng sự, “CyberGym: Evaluating AI Agents’ Cybersecurity Capabilities with Real-World Vulnerabilities at Scale,” bản in trước arXiv arXiv:2506.02548 (2025), https://arxiv.org/abs/2506.02548.

Recommended for You

Claude và Slack

Claude và Slack

Khám phá cách tích hợp Claude với Slack có thể tăng cường năng suất và hợp tác nhóm của bạn.

Cách các doanh nghiệp đang thúc đẩy chuyển đổi AI với Claude

Cách các doanh nghiệp đang thúc đẩy chuyển đổi AI với Claude

Tìm hiểu cách các doanh nghiệp đang tận dụng Claude để thúc đẩy quá trình chuyển đổi trí tuệ nhân tạo.