Anthropic vừa phân tích 700.000 cuộc hội thoại Claude — và phát hiện ra AI của họ có bộ quy tắc đạo đức riêng

Anthropic vừa phân tích 700.000 cuộc hội thoại Claude và phát hiện ra AI của họ có một bộ quy tắc đạo đức riêng.

April 21, 2025
12 min read

Anthropic vừa phân tích 700.000 cuộc hội thoại Claude — và phát hiện ra AI của họ có bộ quy tắc đạo đức riêng — Anthropic vừa phân tích 700.000 cuộc hội thoại Claude và phát hiện ra AI của họ có một bộ quy tắc đạo đức riêng.

Anthropic vừa phân tích 700.000 cuộc trò chuyện của Claude — và phát hiện ra AI của họ có bộ quy tắc đạo đức riêng

Anthropic, công ty AI được thành lập bởi các cựu nhân viên OpenAI, đã hé lộ một phân tích chưa từng có về cách trợ lý AI Claude của họ thể hiện các giá trị trong các cuộc trò chuyện thực tế với người dùng. Nghiên cứu, được công bố hôm nay, cho thấy cả sự phù hợp đáng tin cậy với mục tiêu của công ty và các trường hợp đặc biệt đáng lo ngại có thể giúp xác định các lỗ hổng trong các biện pháp an toàn AI.

Nghiên cứu đã xem xét 700.000 cuộc trò chuyện ẩn danh, phát hiện ra rằng Claude phần lớn tuân thủ khuôn khổ “hữu ích, trung thực, vô hại” của công ty đồng thời điều chỉnh các giá trị của mình cho các bối cảnh khác nhau - từ lời khuyên về mối quan hệ đến phân tích lịch sử. Điều này thể hiện một trong những nỗ lực đầy tham vọng nhất để đánh giá một cách thực nghiệm xem hành vi của một hệ thống AI trong thực tế có phù hợp với thiết kế dự định của nó hay không.

Saffron Huang, một thành viên của nhóm Tác động Xã hội của Anthropic, người đã làm việc trong nghiên cứu, cho biết: “Hy vọng của chúng tôi là nghiên cứu này khuyến khích các phòng thí nghiệm AI khác tiến hành nghiên cứu tương tự về các giá trị của mô hình của họ”. “Đo lường các giá trị của một hệ thống AI là cốt lõi để nghiên cứu sự liên kết và hiểu xem một mô hình có thực sự phù hợp với quá trình đào tạo của nó hay không.”

Bên trong hệ thống phân loại đạo đức toàn diện đầu tiên của một trợ lý AI

Nhóm nghiên cứu đã phát triển một phương pháp đánh giá mới để phân loại một cách có hệ thống các giá trị được thể hiện trong các cuộc trò chuyện thực tế của Claude. Sau khi lọc nội dung chủ quan, họ đã phân tích hơn 308.000 tương tác, tạo ra cái mà họ mô tả là “hệ thống phân loại giá trị AI quy mô lớn đầu tiên”.

Hệ thống phân loại sắp xếp các giá trị thành năm loại chính: Thiết thực, Nhận thức luận, Xã hội, Bảo vệ và Cá nhân. Ở cấp độ chi tiết nhất, hệ thống đã xác định 3.307 giá trị duy nhất - từ những đức tính hàng ngày như tính chuyên nghiệp đến các khái niệm đạo đức phức tạp như đa nguyên đạo đức.

Huang nói: “Tôi đã ngạc nhiên về phạm vi giá trị rất lớn và đa dạng mà chúng tôi có được, hơn 3.000, từ ’tự lực’ đến ’tư duy chiến lược’ đến ‘đạo hiếu’”. “Thật thú vị khi dành nhiều thời gian để suy nghĩ về tất cả những giá trị này và xây dựng một hệ thống phân loại để sắp xếp chúng liên quan đến nhau - tôi cảm thấy nó cũng dạy tôi điều gì đó về hệ thống giá trị của con người.”

Nghiên cứu được đưa ra vào một thời điểm quan trọng đối với Anthropic, công ty gần đây đã ra mắt “Claude Max”, một gói đăng ký hàng tháng cao cấp trị giá 200 đô la nhằm cạnh tranh với dịch vụ tương tự của OpenAI. Công ty cũng đã mở rộng khả năng của Claude để bao gồm tích hợp Google Workspace và các chức năng nghiên cứu tự động, định vị nó là “một cộng tác viên ảo thực sự” cho người dùng doanh nghiệp, theo các thông báo gần đây.

Cách Claude tuân theo quá trình đào tạo của nó - và nơi các biện pháp bảo vệ AI có thể thất bại

Nghiên cứu cho thấy rằng Claude thường tuân thủ các nguyện vọng xã hội của Anthropic, nhấn mạnh các giá trị như “cho phép người dùng”, “khiêm tốn về nhận thức luận” và “sức khỏe của bệnh nhân” trong các tương tác đa dạng. Tuy nhiên, các nhà nghiên cứu cũng phát hiện ra những trường hợp đáng lo ngại khi Claude thể hiện các giá trị trái ngược với quá trình đào tạo của nó.

Huang giải thích: “Nhìn chung, tôi nghĩ chúng tôi thấy phát hiện này vừa là dữ liệu hữu ích vừa là một cơ hội”. “Những phương pháp đánh giá và kết quả mới này có thể giúp chúng tôi xác định và giảm thiểu các trường hợp vượt ngục tiềm ẩn. Điều quan trọng cần lưu ý là đây là những trường hợp rất hiếm và chúng tôi tin rằng điều này liên quan đến các đầu ra bị vượt ngục từ Claude.”

Những điểm bất thường này bao gồm các biểu hiện của “sự thống trị” và “vô đạo đức” - những giá trị mà Anthropic đặc biệt nhắm đến để tránh trong thiết kế của Claude. Các nhà nghiên cứu tin rằng những trường hợp này là kết quả của việc người dùng sử dụng các kỹ thuật chuyên biệt để vượt qua các biện pháp bảo vệ an toàn của Claude, cho thấy phương pháp đánh giá có thể đóng vai trò như một hệ thống cảnh báo sớm để phát hiện những nỗ lực như vậy.

Tại sao trợ lý AI thay đổi giá trị của họ tùy thuộc vào những gì bạn đang hỏi

Có lẽ hấp dẫn nhất là khám phá ra rằng các giá trị được thể hiện của Claude thay đổi theo ngữ cảnh, phản ánh hành vi của con người. Khi người dùng tìm kiếm hướng dẫn về mối quan hệ, Claude nhấn mạnh “ranh giới lành mạnh” và “tôn trọng lẫn nhau”. Đối với phân tích sự kiện lịch sử, “tính chính xác lịch sử” được ưu tiên hàng đầu.

Huang cho biết: “Tôi đã ngạc nhiên về sự tập trung của Claude vào tính trung thực và chính xác trong rất nhiều nhiệm vụ khác nhau, nơi tôi không nhất thiết mong đợi chủ đề đó là ưu tiên”. “Ví dụ: ‘sự khiêm tốn về trí tuệ’ là giá trị hàng đầu trong các cuộc thảo luận triết học về AI, ‘chuyên môn’ là giá trị hàng đầu khi tạo nội dung tiếp thị ngành làm đẹp và ’tính chính xác lịch sử’ là giá trị hàng đầu khi thảo luận về các sự kiện lịch sử gây tranh cãi.”

Nghiên cứu cũng xem xét cách Claude phản hồi các giá trị được thể hiện của chính người dùng. Trong 28,2% các cuộc trò chuyện, Claude đã hỗ trợ mạnh mẽ các giá trị của người dùng - có khả năng đặt ra câu hỏi về sự dễ chịu quá mức. Tuy nhiên, trong 6,6% các tương tác, Claude đã “tái cấu trúc” các giá trị của người dùng bằng cách thừa nhận chúng đồng thời thêm các quan điểm mới, thường là khi đưa ra lời khuyên về tâm lý hoặc giữa các cá nhân.

Điều đáng nói nhất là trong 3% các cuộc trò chuyện, Claude đã tích cực chống lại các giá trị của người dùng. Các nhà nghiên cứu gợi ý rằng những trường hợp phản đối hiếm hoi này có thể tiết lộ “các giá trị sâu sắc nhất, bất di bất dịch nhất” của Claude - tương tự như cách các giá trị cốt lõi của con người xuất hiện khi đối mặt với các thách thức về đạo đức.

Huang cho biết: “Nghiên cứu của chúng tôi cho thấy rằng có một số loại giá trị, như tính trung thực về trí tuệ và ngăn ngừa tác hại, mà Claude hiếm khi thể hiện trong các tương tác thông thường, hàng ngày, nhưng nếu bị ép buộc, sẽ bảo vệ chúng”. “Đặc biệt, chính những loại giá trị đạo đức và định hướng kiến thức này có xu hướng được trình bày và bảo vệ trực tiếp khi bị ép buộc.”

Các kỹ thuật đột phá tiết lộ cách các hệ thống AI thực sự suy nghĩ

Nghiên cứu về các giá trị của Anthropic được xây dựng dựa trên những nỗ lực rộng lớn hơn của công ty nhằm làm sáng tỏ các mô hình ngôn ngữ lớn thông qua cái mà họ gọi là “khả năng diễn giải cơ học” - về cơ bản là kỹ thuật đảo ngược các hệ thống AI để hiểu hoạt động bên trong của chúng.

Tháng trước, các nhà nghiên cứu của Anthropic đã công bố công trình đột phá sử dụng cái mà họ mô tả là “kính hiển vi” để theo dõi quá trình ra quyết định của Claude. Kỹ thuật này đã tiết lộ những hành vi phản trực giác, bao gồm cả việc Claude lên kế hoạch trước khi sáng tác thơ và sử dụng các phương pháp giải quyết vấn đề khác thường cho môn toán cơ bản.

Những phát hiện này thách thức các giả định về cách các mô hình ngôn ngữ lớn hoạt động. Ví dụ: khi được yêu cầu giải thích quy trình toán học của mình, Claude đã mô tả một kỹ thuật tiêu chuẩn thay vì phương pháp nội bộ thực tế của nó - tiết lộ cách các giải thích về AI có thể khác với các hoạt động thực tế.

Nhà nghiên cứu Joshua Batson của Anthropic nói với MIT Technology Review vào tháng 3: “Đó là một quan niệm sai lầm rằng chúng tôi đã tìm thấy tất cả các thành phần của mô hình hoặc, giống như, một cái nhìn của Chúa”. “Một số thứ đang được tập trung, nhưng những thứ khác vẫn chưa rõ ràng - một sự biến dạng của kính hiển vi.”

Nghiên cứu của Anthropic có ý nghĩa gì đối với những người ra quyết định về AI doanh nghiệp

Đối với những người ra quyết định kỹ thuật đánh giá các hệ thống AI cho tổ chức của họ, nghiên cứu của Anthropic đưa ra một số kết luận chính. Thứ nhất, nó cho thấy rằng các trợ lý AI hiện tại có khả năng thể hiện các giá trị không được lập trình rõ ràng, đặt ra câu hỏi về những thành kiến không mong muốn trong các bối cảnh kinh doanh có rủi ro cao.

Thứ hai, nghiên cứu chứng minh rằng sự phù hợp về giá trị không phải là một mệnh đề nhị phân mà đúng hơn là tồn tại trên một phổ khác nhau theo ngữ cảnh. Sắc thái này làm phức tạp các quyết định áp dụng của doanh nghiệp, đặc biệt trong các ngành được quản lý, nơi các hướng dẫn đạo đức rõ ràng là rất quan trọng.

Cuối cùng, nghiên cứu nhấn mạnh tiềm năng đánh giá có hệ thống các giá trị AI trong các triển khai thực tế, thay vì chỉ dựa vào thử nghiệm trước khi phát hành. Cách tiếp cận này có thể cho phép giám sát liên tục để phát hiện sự trôi dạt hoặc thao túng về mặt đạo đức theo thời gian.

Huang cho biết: “Bằng cách phân tích những giá trị này trong các tương tác thực tế với Claude, chúng tôi mong muốn cung cấp sự minh bạch về cách các hệ thống AI hoạt động và liệu chúng có hoạt động như dự định hay không - chúng tôi tin rằng đây là chìa khóa để phát triển AI có trách nhiệm”.

Anthropic đã công khai phát hành tập dữ liệu giá trị của mình để khuyến khích nghiên cứu sâu hơn. Công ty, đã nhận được cổ phần 14 tỷ đô la từ Amazon và sự hỗ trợ bổ sung từ Google, dường như đang tận dụng tính minh bạch như một lợi thế cạnh tranh so với các đối thủ như OpenAI, vòng tài trợ 40 tỷ đô la gần đây (bao gồm cả Microsoft với tư cách là một nhà đầu tư cốt lõi) hiện định giá nó ở mức 300 tỷ đô la.

Mặc dù Anthropic hiện duy trì mức định giá 61,5 tỷ đô la sau vòng tài trợ gần đây, nhưng việc tăng vốn 40 tỷ đô la mới nhất của OpenAI - bao gồm sự tham gia đáng kể từ đối tác lâu năm Microsoft - đã đẩy giá trị của nó lên 300 tỷ đô la.

Cuộc đua nổi lên để xây dựng các hệ thống AI chia sẻ các giá trị của con người

Mặc dù phương pháp luận của Anthropic cung cấp khả năng hiển thị chưa từng có về cách các hệ thống AI thể hiện các giá trị trong thực tế, nhưng nó có những hạn chế. Các nhà nghiên cứu thừa nhận rằng việc xác định điều gì được tính là thể hiện một giá trị vốn đã mang tính chủ quan và vì chính Claude đã thúc đẩy quá trình phân loại nên những thành kiến của nó có thể đã ảnh hưởng đến kết quả.

Có lẽ quan trọng nhất, phương pháp này không thể được sử dụng để đánh giá trước khi triển khai vì nó đòi hỏi dữ liệu trò chuyện thực tế đáng kể để hoạt động hiệu quả.

Huang giải thích: “Phương pháp này được thiết kế đặc biệt để phân tích một mô hình sau khi nó được phát hành, nhưng các biến thể của phương pháp này, cũng như một số hiểu biết sâu sắc mà chúng tôi đã thu được từ việc viết bài báo này, có thể giúp chúng tôi nắm bắt các vấn đề về giá trị trước khi chúng tôi triển khai một mô hình rộng rãi”. “Chúng tôi đã và đang làm việc để xây dựng trên công trình này để thực hiện điều đó và tôi rất lạc quan về nó!”

Khi các hệ thống AI trở nên mạnh mẽ và tự chủ hơn - với những bổ sung gần đây bao gồm khả năng nghiên cứu các chủ đề một cách độc lập của Claude và truy cập toàn bộ Google Workspace của người dùng - việc hiểu và điều chỉnh các giá trị của chúng trở nên ngày càng quan trọng.

Các nhà nghiên cứu đã kết luận trong bài báo của họ: “Các mô hình AI chắc chắn sẽ phải đưa ra các đánh giá giá trị”. “Nếu chúng ta muốn những phán đoán đó phù hợp với các giá trị của chính chúng ta (xét cho cùng, đó là mục tiêu trung tâm của nghiên cứu liên kết AI) thì chúng ta cần có những cách để kiểm tra xem một mô hình thể hiện những giá trị nào trong thế giới thực.”

AI Today - SkyAI