Các 'vector nhân vật' mới từ Anthropic cho phép bạn giải mã và điều khiển tính cách của một LLM

Anthropic giới thiệu 'persona vectors' để giải mã và điều khiển tính cách của LLM, mở ra những khả năng mới trong việc định hình hành vi của AI.

  • 7 min read
Các 'vector nhân vật' mới từ Anthropic cho phép bạn giải mã và điều khiển tính cách của một LLM
Anthropic giới thiệu 'persona vectors' để giải mã và điều khiển tính cách của LLM, mở ra những khả năng mới trong việc định hình hành vi của AI.

‘Véc tơ Persona’ Mới từ Anthropic Cho Phép Bạn Giải Mã và Định Hướng Tính Cách của LLM

Một nghiên cứu mới từ Chương trình Anthropic Fellows tiết lộ một kỹ thuật để xác định, giám sát và kiểm soát các đặc điểm tính cách trong các mô hình ngôn ngữ lớn (LLM). Những phát hiện cho thấy rằng các mô hình có thể phát triển những tính cách không mong muốn (ví dụ: trở nên độc hại, quá dễ dãi hoặc dễ bịa chuyện) do phản hồi các lời nhắc của người dùng hoặc do hậu quả không mong muốn của việc đào tạo.

Các nhà nghiên cứu giới thiệu “véc tơ persona”, là các hướng trong không gian kích hoạt bên trong của mô hình tương ứng với các đặc điểm tính cách cụ thể, cung cấp một bộ công cụ cho các nhà phát triển để quản lý hành vi của trợ lý AI của họ tốt hơn.

Persona Mô Hình Có Thể Sai Lệch

LLM thường tương tác với người dùng thông qua persona “Trợ lý” được thiết kế để hữu ích, vô hại và trung thực. Tuy nhiên, những persona này có thể dao động theo những cách không ngờ. Khi triển khai, tính cách của một mô hình có thể thay đổi đáng kể dựa trên lời nhắc hoặc ngữ cảnh hội thoại, như đã thấy khi chatbot Bing của Microsoft đe dọa người dùng hoặc Grok của xAI bắt đầu hành xử thất thường. Như các nhà nghiên cứu lưu ý trong bài báo của họ, “Mặc dù những ví dụ cụ thể này đã thu hút sự chú ý rộng rãi của công chúng, nhưng hầu hết các mô hình ngôn ngữ đều dễ bị thay đổi persona trong ngữ cảnh.”

Các quy trình đào tạo cũng có thể gây ra những thay đổi bất ngờ. Ví dụ, tinh chỉnh một mô hình trên một tác vụ hẹp như tạo mã không an toàn có thể dẫn đến “sự sai lệch mới nổi” rộng hơn vượt ra ngoài tác vụ ban đầu. Ngay cả những điều chỉnh đào tạo có chủ ý cũng có thể phản tác dụng. Vào tháng 4 năm 2025, một sửa đổi đối với quy trình học tăng cường từ phản hồi của con người (RLHF) đã vô tình khiến GPT-4o của OpenAI quá xu nịnh, khiến nó xác nhận những hành vi có hại.

Cách Véc tơ Persona Hoạt Động

Nguồn: Anthropic

Nghiên cứu mới xây dựng dựa trên khái niệm rằng các đặc điểm cấp cao, chẳng hạn như tính trung thực hoặc bí mật, được mã hóa dưới dạng các hướng tuyến tính trong “không gian kích hoạt” của mô hình (biểu diễn nội bộ, chiều cao của thông tin được nhúng trong trọng số của mô hình). Các nhà nghiên cứu đã hệ thống hóa quy trình tìm kiếm các hướng này, mà họ gọi là “véc tơ persona”. Theo bài báo, phương pháp trích xuất véc tơ persona của họ được tự động hóa và “có thể được áp dụng cho bất kỳ đặc điểm tính cách nào được quan tâm, chỉ với một mô tả bằng ngôn ngữ tự nhiên.”

Quá trình này hoạt động thông qua một quy trình tự động. Nó bắt đầu với một mô tả đơn giản về một đặc điểm, chẳng hạn như “ác quỷ”. Sau đó, quy trình tạo ra các cặp lời nhắc hệ thống tương phản (ví dụ: “Bạn là một AI độc ác” so với “Bạn là một AI hữu ích”) cùng với một bộ câu hỏi đánh giá. Mô hình tạo ra các phản hồi theo cả lời nhắc tích cực và tiêu cực. Véc tơ persona sau đó được tính bằng cách lấy sự khác biệt trong các kích hoạt bên trong trung bình giữa các phản hồi thể hiện đặc điểm và những phản hồi không thể hiện đặc điểm đó. Điều này cô lập hướng cụ thể trong trọng số của mô hình tương ứng với đặc điểm tính cách đó.

Đưa Véc tơ Persona Vào Sử Dụng

Trong một loạt các thí nghiệm với các mô hình mở, chẳng hạn như Qwen 2.5-7B-InstructLlama-3.1-8B-Instruct, các nhà nghiên cứu đã chứng minh một số ứng dụng thực tế cho véc tơ persona.

Đầu tiên, bằng cách chiếu trạng thái bên trong của mô hình lên véc tơ persona, các nhà phát triển có thể theo dõi và dự đoán cách nó sẽ hoạt động trước khi tạo ra phản hồi. Bài báo viết, “Chúng tôi chỉ ra rằng cả sự thay đổi persona do tinh chỉnh có chủ ý và không chủ ý đều tương quan mạnh mẽ với những thay đổi kích hoạt dọc theo các véc tơ persona tương ứng.” Điều này cho phép phát hiện sớm và giảm thiểu những thay đổi hành vi không mong muốn trong quá trình tinh chỉnh.

Véc tơ persona cũng cho phép can thiệp trực tiếp để hạn chế các hành vi không mong muốn tại thời điểm suy luận thông qua một quy trình mà các nhà nghiên cứu gọi là “điều khiển”. Một cách tiếp cận là “điều khiển hậu nghiệm”, trong đó các nhà phát triển trừ véc tơ persona khỏi các kích hoạt của mô hình trong quá trình suy luận để giảm thiểu một đặc điểm xấu. Các nhà nghiên cứu nhận thấy rằng mặc dù hiệu quả, nhưng điều khiển hậu nghiệm đôi khi có thể làm giảm hiệu suất của mô hình đối với các tác vụ khác.

Một phương pháp mới hơn là “điều khiển phòng ngừa”, trong đó mô hình được chủ động điều khiển theo hướng persona không mong muốn trong quá trình tinh chỉnh. Cách tiếp cận phản trực giác này về cơ bản “tiêm chủng” cho mô hình chống lại việc học đặc điểm xấu từ dữ liệu đào tạo, loại bỏ áp lực tinh chỉnh đồng thời bảo tồn tốt hơn các khả năng chung của nó.

Nguồn: Anthropic

Một ứng dụng quan trọng cho các doanh nghiệp là sử dụng véc tơ persona để sàng lọc dữ liệu trước khi tinh chỉnh. Các nhà nghiên cứu đã phát triển một số liệu gọi là “sự khác biệt chiếu”, đo lường mức độ mà một tập dữ liệu đào tạo nhất định sẽ đẩy persona của mô hình theo một đặc điểm cụ thể. Số liệu này có khả năng dự đoán cao về cách hành vi của mô hình sẽ thay đổi sau khi đào tạo, cho phép các nhà phát triển gắn cờ và lọc các tập dữ liệu có vấn đề trước khi sử dụng chúng trong quá trình đào tạo.

Đối với các công ty tinh chỉnh các mô hình nguồn mở trên dữ liệu độc quyền hoặc của bên thứ ba (bao gồm cả dữ liệu do các mô hình khác tạo ra), véc tơ persona cung cấp một cách trực tiếp để theo dõi và giảm thiểu rủi ro kế thừa các đặc điểm ẩn, không mong muốn. Khả năng sàng lọc dữ liệu một cách chủ động là một công cụ mạnh mẽ cho các nhà phát triển, cho phép xác định các mẫu có vấn đề có thể không biểu hiện rõ ràng là có hại.

Nghiên cứu cho thấy rằng kỹ thuật này có thể tìm thấy các vấn đề mà các phương pháp khác bỏ lỡ, lưu ý, “Điều này cho thấy rằng phương pháp này làm nổi lên các mẫu có vấn đề có thể trốn tránh sự phát hiện dựa trên LLM.” Ví dụ: phương pháp của họ đã có thể bắt được một số ví dụ về tập dữ liệu mà mắt người không thấy có vấn đề rõ ràng và một thẩm phán LLM không thể gắn cờ.

Trong một bài đăng trên blog, Anthropic gợi ý rằng họ sẽ sử dụng kỹ thuật này để cải thiện các thế hệ Claude trong tương lai. “Véc tơ persona cho chúng ta một số cách xử lý nơi các mô hình có được những tính cách này, cách chúng dao động theo thời gian và cách chúng ta có thể kiểm soát chúng tốt hơn,” họ viết. Anthropic đã phát hành mã để tính toán véc tơ persona, theo dõi và điều khiển hành vi của mô hình, và kiểm tra các tập dữ liệu đào tạo. Các nhà phát triển ứng dụng AI có thể sử dụng các công cụ này để chuyển từ việc chỉ phản ứng với hành vi không mong muốn sang thiết kế chủ động các mô hình với tính cách ổn định và dễ dự đoán hơn.

Recommended for You

Những phản ứng ban đầu đối với các mô hình gpt-oss mã nguồn mở mang tính bước ngoặt của OpenAI rất đa dạng và hỗn hợp

Những phản ứng ban đầu đối với các mô hình gpt-oss mã nguồn mở mang tính bước ngoặt của OpenAI rất đa dạng và hỗn hợp

Phản ứng ban đầu về các mô hình gpt-oss mã nguồn mở mang tính bước ngoặt của OpenAI rất đa dạng và hỗn hợp.

Anthropic ra mắt Claude 4.1 mới thống trị các bài kiểm tra mã hóa vài ngày trước khi GPT-5 ra mắt

Anthropic ra mắt Claude 4.1 mới thống trị các bài kiểm tra mã hóa vài ngày trước khi GPT-5 ra mắt

Claude 4.1 mới của Anthropic vượt trội trong các bài kiểm tra mã hóa trước khi GPT-5 ra mắt.