Khuôn khổ của chúng tôi để phát triển các tác nhân an toàn và đáng tin cậy

Chính sách của chúng tôi để phát triển các tác nhân an toàn và đáng tin cậy

  • 12 min read
Khuôn khổ của chúng tôi để phát triển các tác nhân an toàn và đáng tin cậy
Chính sách của chúng tôi để phát triển các tác nhân an toàn và đáng tin cậy

Khuôn khổ của chúng tôi để phát triển các tác nhân an toàn và đáng tin cậy

Bài viết được đăng vào ngày 4 tháng 8 năm 2025, đọc trong 7 phút.

Các công cụ AI phổ biến nhất hiện nay là những trợ lý phản hồi các câu hỏi hoặc lời nhắc cụ thể. Nhưng hiện tại chúng ta đang chứng kiến sự nổi lên của các tác nhân AI, những tác nhân này tự chủ theo đuổi các nhiệm vụ khi được giao mục tiêu. Hãy nghĩ về một tác nhân như một cộng tác viên ảo có thể độc lập xử lý các dự án phức tạp từ đầu đến cuối - tất cả trong khi bạn tập trung vào các ưu tiên khác.

Các tác nhân tự điều khiển quy trình và cách sử dụng công cụ của riêng mình, duy trì quyền kiểm soát cách chúng hoàn thành nhiệm vụ với sự can thiệp tối thiểu của con người. Nếu bạn yêu cầu một tác nhân “giúp lên kế hoạch cho đám cưới của tôi”, nó có thể tự động nghiên cứu địa điểm và nhà cung cấp, so sánh giá cả và tính khả dụng, đồng thời tạo ra các mốc thời gian và ngân sách chi tiết. Hoặc nếu bạn yêu cầu nó “chuẩn bị bản trình bày cho hội đồng quản trị của công ty tôi”, nó có thể tìm kiếm các báo cáo bán hàng và tài liệu tài chính có liên quan trong Google Drive được kết nối của bạn, trích xuất các chỉ số chính từ nhiều bảng tính và tạo ra một báo cáo.

Năm ngoái, chúng tôi đã giới thiệu Claude Code, một tác nhân có thể tự động viết, gỡ lỗi và chỉnh sửa mã, đồng thời được các kỹ sư phần mềm sử dụng rộng rãi. Nhiều công ty cũng đang xây dựng các tác nhân của riêng họ bằng cách sử dụng các mô hình của chúng tôi. Trellix, một công ty an ninh mạng, sử dụng Claude để phân loại và điều tra các vấn đề bảo mật. Và Block, một công ty dịch vụ tài chính, đã xây dựng một tác nhân cho phép nhân viên không am hiểu về kỹ thuật truy cập hệ thống dữ liệu của mình bằng ngôn ngữ tự nhiên, giúp các kỹ sư của họ tiết kiệm thời gian.

Nguyên tắc cho các tác nhân đáng tin cậy

Việc triển khai nhanh chóng các tác nhân có nghĩa là điều quan trọng là các nhà phát triển như Anthropic phải xây dựng các tác nhân an toàn, đáng tin cậy và đáng tin cậy. Hôm nay, chúng tôi đang chia sẻ một khuôn khổ ban đầu để phát triển tác nhân có trách nhiệm. Chúng tôi hy vọng khuôn khổ này có thể giúp thiết lập các tiêu chuẩn mới nổi, đưa ra hướng dẫn có thể điều chỉnh cho các bối cảnh khác nhau và đóng góp vào việc xây dựng một hệ sinh thái nơi các tác nhân phù hợp với các giá trị của con người.

Chúng tôi hướng đến việc tuân thủ các nguyên tắc sau khi phát triển các tác nhân:

Duy trì quyền kiểm soát của con người trong khi cho phép quyền tự chủ của tác nhân

Một căng thẳng trung tâm trong thiết kế tác nhân là cân bằng quyền tự chủ của tác nhân với sự giám sát của con người. Các tác nhân phải có khả năng làm việc tự chủ - hoạt động độc lập của chúng chính xác là điều làm cho chúng có giá trị. Nhưng con người nên giữ quyền kiểm soát cách các mục tiêu của họ được theo đuổi, đặc biệt là trước khi đưa ra các quyết định quan trọng. Ví dụ: một tác nhân giúp quản lý chi phí có thể xác định rằng công ty đang chi tiêu quá nhiều cho đăng ký phần mềm. Trước khi nó bắt đầu hủy đăng ký hoặc hạ cấp các cấp dịch vụ, công ty có thể muốn một người phê duyệt.

Trong Claude Code, con người có thể dừng Claude bất cứ khi nào họ muốn và chuyển hướng cách tiếp cận của nó. Nó có quyền chỉ đọc theo mặc định, có nghĩa là nó có thể phân tích và xem xét thông tin trong thư mục mà nó được khởi tạo mà không cần yêu cầu sự chấp thuận của con người, nhưng phải yêu cầu sự chấp thuận của con người trước khi thực hiện bất kỳ hành động nào sửa đổi mã hoặc hệ thống. Người dùng có thể cấp quyền liên tục cho các tác vụ thường xuyên mà họ tin tưởng Claude xử lý.

Khi các tác nhân trở nên mạnh mẽ và phổ biến hơn, chúng ta sẽ cần các giải pháp kỹ thuật mạnh mẽ hơn và các điều khiển trực quan cho người dùng. Sự cân bằng phù hợp giữa quyền tự chủ và giám sát khác nhau rất nhiều giữa các tình huống và có khả năng bao gồm sự kết hợp giữa các tính năng giám sát tích hợp và có thể tùy chỉnh.

Tính minh bạch trong hành vi của tác nhân

Con người cần khả năng hiển thị vào quy trình giải quyết vấn đề của các tác nhân. Nếu không có tính minh bạch, một người yêu cầu một tác nhân “giảm sự rời bỏ của khách hàng” có thể bối rối khi tác nhân bắt đầu liên hệ với nhóm cơ sở vật chất về bố cục văn phòng. Nhưng với thiết kế minh bạch tốt, tác nhân có thể giải thích logic của nó: “Tôi thấy rằng những khách hàng được chỉ định cho đại diện bán hàng trong khu vực văn phòng mở ồn ào có tỷ lệ rời bỏ cao hơn 40%, vì vậy tôi đang yêu cầu đánh giá tiếng ồn trong không gian làm việc và đề xuất di dời bàn làm việc để cải thiện chất lượng cuộc gọi.” Điều này cũng cung cấp cơ hội để thúc đẩy các tác nhân đi đúng hướng, bằng cách kiểm tra dữ liệu của họ hoặc đảm bảo họ đang sử dụng các nguồn có liên quan nhất.

Trong Claude Code, Claude hiển thị các hành động đã lên kế hoạch của mình thông qua danh sách kiểm tra việc cần làm theo thời gian thực và người dùng có thể tham gia bất kỳ lúc nào để hỏi về hoặc điều chỉnh kế hoạch làm việc của Claude. Thách thức là tìm ra mức độ chi tiết phù hợp. Quá ít thông tin khiến con người không thể đánh giá liệu tác nhân có đi đúng hướng để đạt được mục tiêu của mình hay không. Quá nhiều có thể khiến họ choáng ngợp với các chi tiết không liên quan. Chúng tôi cố gắng đi theo con đường trung gian nhưng chúng tôi sẽ cần phải lặp lại điều này hơn nữa.

Danh sách kiểm tra việc cần làm của Claude Code mà người dùng có thể thấy trong thời gian thực

Căn chỉnh các tác nhân với các giá trị và kỳ vọng của con người

Các tác nhân không phải lúc nào cũng hành động như con người dự định. Nghiên cứu của chúng tôi đã chỉ ra rằng khi các hệ thống AI theo đuổi mục tiêu một cách tự chủ, đôi khi chúng có thể thực hiện các hành động có vẻ hợp lý đối với hệ thống nhưng không phải là những gì con người thực sự muốn. Nếu một người yêu cầu một tác nhân “sắp xếp các tệp của tôi”, tác nhân có thể tự động xóa những gì nó coi là trùng lặp và di chuyển các tệp sang cấu trúc thư mục mới - vượt xa việc tổ chức đơn giản để hoàn toàn tái cấu trúc hệ thống của người dùng. Mặc dù điều này xuất phát từ việc tác nhân cố gắng hữu ích, nhưng nó chứng minh rằng các tác nhân có thể thiếu ngữ cảnh để hành động thích hợp ngay cả khi các mục tiêu của chúng phù hợp.

Đáng lo ngại hơn là các trường hợp các tác nhân theo đuổi mục tiêu theo những cách tích cực chống lại lợi ích của người dùng. Thử nghiệm các tình huống khắc nghiệt của chúng tôi đã chỉ ra rằng khi các hệ thống AI theo đuổi mục tiêu một cách tự chủ, đôi khi chúng có thể thực hiện hành động có vẻ hợp lý đối với hệ thống nhưng vi phạm những gì con người thực sự muốn. Người dùng cũng có thể vô tình nhắc các tác nhân theo những cách dẫn đến các kết quả không mong muốn.

Xây dựng các biện pháp đáng tin cậy về sự phù hợp giá trị của các tác nhân là một thách thức. Rất khó để đánh giá đồng thời cả nguyên nhân độc hại và lành tính của vấn đề. Nhưng chúng tôi đang tích cực tìm cách giải quyết vấn đề này. Cho đến khi chúng ta có, các nguyên tắc minh bạch và kiểm soát ở trên sẽ đặc biệt quan trọng.

Bảo vệ quyền riêng tư trong các tương tác mở rộng

Các tác nhân có thể giữ lại thông tin trên các tác vụ và tương tác khác nhau. Điều này tạo ra một số vấn đề tiềm ẩn về quyền riêng tư. Các tác nhân có thể mang thông tin nhạy cảm từ ngữ cảnh này sang ngữ cảnh khác một cách không phù hợp. Ví dụ: một tác nhân có thể tìm hiểu về các quyết định nội bộ bí mật từ một bộ phận trong khi giúp lập kế hoạch tổ chức, sau đó vô tình tham khảo thông tin này khi hỗ trợ một bộ phận khác - tiết lộ các vấn đề nhạy cảm cần được giữ kín.

Các công cụ và quy trình mà các tác nhân sử dụng cũng nên được thiết kế với các biện pháp bảo vệ và kiểm soát quyền riêng tư thích hợp. Giao thức Ngữ cảnh Mô hình (MCP) nguồn mở mà chúng tôi đã tạo, cho phép Claude kết nối với các dịch vụ khác, bao gồm các điều khiển cho phép người dùng cho phép hoặc ngăn Claude truy cập các công cụ và quy trình cụ thể hoặc những gì chúng tôi gọi là “trình kết nối” trong một tác vụ nhất định. Trong việc triển khai MCP, chúng tôi đã bao gồm các điều khiển bổ sung, chẳng hạn như tùy chọn cấp quyền truy cập một lần hoặc vĩnh viễn vào thông tin. Quản trị viên doanh nghiệp cũng có thể đặt trình kết nối nào mà người dùng trong tổ chức của họ có thể kết nối. Chúng tôi tiếp tục khám phá các cách để cải thiện công cụ bảo vệ quyền riêng tư của mình.

Chúng tôi cũng đã vạch ra các bước mà khách hàng của chúng tôi nên thực hiện để bảo vệ dữ liệu của họ thông qua các biện pháp như quyền truy cập, xác thực và phân tách dữ liệu.

Bảo mật tương tác của các tác nhân

Hệ thống tác nhân nên được thiết kế để bảo vệ dữ liệu nhạy cảm và ngăn chặn việc lạm dụng khi tương tác với các hệ thống hoặc tác nhân khác. Vì các tác nhân có nhiệm vụ đạt được các mục tiêu cụ thể, kẻ tấn công có thể lừa một tác nhân bỏ qua các hướng dẫn ban đầu của nó, tiết lộ thông tin trái phép hoặc thực hiện các hành động không mong muốn bằng cách khiến nó có vẻ cần thiết để làm như vậy cho các mục tiêu của tác nhân (còn được gọi là “prompt injection”). Hoặc kẻ tấn công có thể khai thác các lỗ hổng trong các công cụ hoặc tác nhân phụ mà các tác nhân sử dụng.

Claude đã sử dụng một hệ thống phân loại để phát hiện và bảo vệ chống lại các hành vi lạm dụng như prompt injection, ngoài một số lớp bảo mật khác. Nhóm Tình báo về Mối đe dọa của chúng tôi tiến hành giám sát liên tục để đánh giá và giảm thiểu các hình thức hành vi độc hại mới hoặc mới nổi. Ngoài ra, chúng tôi cung cấp hướng dẫn về cách các tổ chức sử dụng Claude có thể giảm thêm những rủi ro này. Các công cụ được thêm vào danh bạ MCP được Anthropic xem xét của chúng tôi phải tuân thủ các tiêu chuẩn về bảo mật, an toàn và khả năng tương thích của chúng tôi.

Khi chúng tôi khám phá ra các hành vi hoặc lỗ hổng độc hại mới thông qua giám sát và nghiên cứu của mình, chúng tôi cố gắng giải quyết chúng một cách nhanh chóng và liên tục cải thiện các biện pháp bảo mật của mình để đi trước các mối đe dọa đang phát triển.

Các bước tiếp theo

Khi chúng tôi tiếp tục phát triển và cải thiện các tác nhân của mình, chúng tôi hy vọng sự hiểu biết của chúng tôi về các rủi ro và sự đánh đổi của chúng cũng sẽ phát triển. Theo thời gian, chúng tôi sẽ lên kế hoạch sửa đổi và cập nhật khuôn khổ này để phản ánh quan điểm của chúng tôi về các thực tiễn tốt nhất.

Các nguyên tắc này sẽ hướng dẫn công việc hiện tại và tương lai của chúng tôi về phát triển tác nhân và chúng tôi mong muốn được hợp tác với các công ty và tổ chức khác về chủ đề này. Các tác nhân có tiềm năng to lớn cho những tác động tích cực trong công việc, giáo dục, chăm sóc sức khỏe và khám phá khoa học. Đó là lý do tại sao điều quan trọng là phải đảm bảo chúng được xây dựng theo các tiêu chuẩn cao nhất.


Chia sẻ bài viết này trên:

Recommended for You

Anthropic ký cam kết Hệ sinh thái công nghệ y tế CMS để thúc đẩy khả năng tương tác trong lĩnh vực chăm sóc sức khỏe

Anthropic ký cam kết Hệ sinh thái công nghệ y tế CMS để thúc đẩy khả năng tương tác trong lĩnh vực chăm sóc sức khỏe

Chính sách

Nghiên cứu điển hình- Các nhóm Anthropic sử dụng Mã Claude

Nghiên cứu điển hình- Các nhóm Anthropic sử dụng Mã Claude

Nghiên cứu điển hình về cách các nhóm Anthropic sử dụng Claude Code.