Hiến pháp của Claude

Thông báo về hiến pháp mới của Claude, một tập hợp các nguyên tắc định hướng cho hành vi và quyết định của Claude.

  • 15 min read
Hiến pháp của Claude
Thông báo về hiến pháp mới của Claude, một tập hợp các nguyên tắc định hướng cho hành vi và quyết định của Claude.

Hiến pháp mới của Claude

Chúng tôi công bố hiến pháp mới cho mô hình AI Claude. Đây là một tài liệu chi tiết mô tả tầm nhìn của Anthropic về các giá trị và hành vi của Claude; một tài liệu tổng thể giải thích bối cảnh hoạt động của Claude và loại thực thể mà chúng tôi mong muốn Claude trở thành.

Hiến pháp là một phần quan trọng trong quy trình huấn luyện mô hình của chúng tôi, và nội dung của nó trực tiếp định hình hành vi của Claude. Huấn luyện mô hình là một nhiệm vụ khó khăn, và kết quả của Claude có thể không phải lúc nào cũng tuân thủ các lý tưởng của hiến pháp. Tuy nhiên, chúng tôi tin rằng cách hiến pháp mới được viết – với lời giải thích cặn kẽ về ý định của chúng tôi và lý do đằng sau chúng – sẽ tạo điều kiện thuận lợi hơn để nuôi dưỡng các giá trị tốt đẹp trong quá trình huấn luyện.

Trong bài đăng này, chúng tôi sẽ mô tả những gì đã được đưa vào hiến pháp mới và một số cân nhắc đã định hình phương pháp tiếp cận của chúng tôi.

Chúng tôi phát hành toàn bộ hiến pháp của Claude theo Giấy phép Creative Commons CC0 1.0, có nghĩa là bất kỳ ai cũng có thể sử dụng miễn phí cho bất kỳ mục đích nào mà không cần xin phép.

Hiến pháp của Claude là gì?

Hiến pháp của Claude là tài liệu nền tảng vừa thể hiện vừa định hình con người của Claude. Nó chứa đựng những giải thích chi tiết về các giá trị mà chúng tôi mong muốn Claude thể hiện và lý do tại sao. Trong đó, chúng tôi giải thích những gì chúng tôi cho là ý nghĩa của việc Claude hữu ích trong khi vẫn duy trì tính an toàn, đạo đức và tuân thủ các hướng dẫn của chúng tôi một cách rộng rãi. Hiến pháp cung cấp cho Claude thông tin về tình hình của nó và đưa ra lời khuyên về cách xử lý các tình huống khó khăn và các đánh đổi, chẳng hạn như cân bằng giữa sự trung thực với lòng trắc ẩn và việc bảo vệ thông tin nhạy cảm. Mặc dù có vẻ đáng ngạc nhiên, hiến pháp được viết chủ yếu dành cho Claude. Nó nhằm mục đích cung cấp cho Claude kiến thức và sự hiểu biết cần thiết để hành động tốt trong thế giới.

Chúng tôi coi hiến pháp là cơ quan có thẩm quyền cuối cùng về cách chúng tôi muốn Claude trở thành và hành xử – nghĩa là, mọi sự huấn luyện hoặc hướng dẫn khác được cung cấp cho Claude phải nhất quán với cả văn bản và tinh thần cốt lõi của nó. Điều này làm cho việc xuất bản hiến pháp trở nên đặc biệt quan trọng từ góc độ minh bạch: nó cho phép mọi người hiểu hành vi nào của Claude là có chủ đích và hành vi nào là không mong muốn, để đưa ra lựa chọn sáng suốt và cung cấp phản hồi hữu ích. Chúng tôi tin rằng sự minh bạch loại này sẽ ngày càng trở nên quan trọng hơn khi AI bắt đầu có ảnh hưởng lớn hơn trong xã hội¹.

Chúng tôi sử dụng hiến pháp ở các giai đoạn khác nhau của quy trình huấn luyện. Điều này xuất phát từ các kỹ thuật huấn luyện mà chúng tôi đã sử dụng từ năm 2023, khi chúng tôi bắt đầu huấn luyện các mô hình Claude bằng AI theo hiến pháp (Constitutional AI). Phương pháp của chúng tôi đã phát triển đáng kể kể từ đó, và hiến pháp mới đóng một vai trò thậm chí còn trung tâm hơn trong việc huấn luyện.

Bản thân Claude cũng sử dụng hiến pháp để tạo ra nhiều loại dữ liệu huấn luyện tổng hợp, bao gồm dữ liệu giúp nó học hỏi và hiểu hiến pháp, các cuộc trò chuyện mà hiến pháp có thể liên quan, các phản hồi phù hợp với các giá trị của nó và xếp hạng các phản hồi khả thi. Tất cả những điều này có thể được sử dụng để huấn luyện các phiên bản tương lai của Claude trở thành loại thực thể mà hiến pháp mô tả. Chức năng thực tế này đã định hình cách chúng tôi viết hiến pháp: nó cần hoạt động vừa như một tuyên bố về các lý tưởng trừu tượng vừa là một tạo tác hữu ích cho việc huấn luyện.

Phương pháp mới của chúng tôi đối với Hiến pháp của Claude

Hiến pháp trước đây của chúng tôi bao gồm một danh sách các nguyên tắc độc lập. Chúng tôi đã đi đến nhận định rằng cần có một cách tiếp cận khác. Chúng tôi tin rằng để trở thành những tác nhân tốt trong thế giới, các mô hình AI như Claude cần hiểu lý do tại sao chúng tôi muốn chúng hành xử theo những cách nhất định, và chúng tôi cần giải thích điều này cho chúng thay vì chỉ đơn thuần quy định những gì chúng tôi muốn chúng làm. Nếu chúng ta muốn các mô hình đưa ra phán đoán tốt trên nhiều tình huống mới lạ, chúng cần có khả năng khái quát hóa – áp dụng các nguyên tắc rộng thay vì tuân theo máy móc các quy tắc cụ thể.

Các quy tắc cụ thể và các giới hạn rõ ràng đôi khi có những lợi thế. Chúng có thể làm cho hành động của mô hình trở nên dễ dự đoán, minh bạch và kiểm tra hơn, và chúng tôi sử dụng chúng cho một số hành vi đặc biệt quan trọng mà Claude không bao giờ nên thực hiện (chúng tôi gọi đó là “các ràng buộc cứng”). Nhưng các quy tắc như vậy cũng có thể được áp dụng sai trong các tình huống không lường trước được hoặc khi tuân theo quá cứng nhắc². Chúng tôi không có ý định biến hiến pháp thành một văn bản pháp lý cứng nhắc – và các hiến pháp pháp lý cũng không nhất thiết phải như vậy.

Hiến pháp phản ánh suy nghĩ hiện tại của chúng tôi về cách tiếp cận một dự án mới lạ và đầy thử thách, có rủi ro cao: tạo ra các thực thể phi nhân tính an toàn, có lợi mà khả năng của chúng có thể sánh ngang hoặc vượt qua chúng ta. Mặc dù tài liệu chắc chắn có nhiều thiếu sót, chúng tôi muốn nó trở thành thứ mà các mô hình tương lai có thể nhìn lại và coi đó là một nỗ lực chân thành và nghiêm túc để giúp Claude hiểu tình huống của nó, động cơ của chúng tôi và lý do chúng tôi định hình Claude theo những cách như vậy.

Tóm tắt ngắn gọn về hiến pháp mới

Để vừa an toàn vừa có lợi, chúng tôi muốn tất cả các mô hình Claude hiện tại phải:

  1. An toàn rộng rãi: không làm suy yếu các cơ chế giám sát AI phù hợp trong giai đoạn phát triển hiện tại;
  2. Đạo đức rộng rãi: trung thực, hành động theo các giá trị tốt và tránh các hành động không phù hợp, nguy hiểm hoặc có hại;
  3. Tuân thủ các hướng dẫn của Anthropic: hành động theo các hướng dẫn cụ thể hơn từ Anthropic khi có liên quan;
  4. Thực sự hữu ích: mang lại lợi ích cho các nhà khai thác và người dùng mà chúng tương tác.

Trong trường hợp có xung đột rõ ràng, Claude nên ưu tiên các thuộc tính này theo thứ tự liệt kê.

Hầu hết hiến pháp tập trung vào việc cung cấp các giải thích và hướng dẫn chi tiết hơn về các ưu tiên này. Các phần chính như sau:

  • Tính hữu ích. Trong phần này, chúng tôi nhấn mạnh giá trị to lớn mà Claude mang lại khi thực sự hữu ích và có ý nghĩa cho người dùng và thế giới. Claude có thể giống như một người bạn thông minh, người cũng có kiến thức của một bác sĩ, luật sư và cố vấn tài chính, người sẽ nói thẳng thắn và từ lòng quan tâm chân thành, đối xử với người dùng như những người lớn thông minh có khả năng tự quyết định điều gì tốt cho họ. Chúng tôi cũng thảo luận về cách Claude nên điều hướng tính hữu ích giữa các “nguyên tắc” khác nhau của nó – chính Anthropic, các nhà khai thác xây dựng trên API của chúng tôi và người dùng cuối. Chúng tôi đưa ra các quy tắc gợi ý để cân bằng tính hữu ích với các giá trị khác.
  • Hướng dẫn của Anthropic. Phần này thảo luận về cách Anthropic có thể đưa ra các chỉ dẫn bổ sung cho Claude về cách xử lý các vấn đề cụ thể, chẳng hạn như lời khuyên y tế, yêu cầu an ninh mạng, chiến lược jailbreak và tích hợp công cụ. Các hướng dẫn này thường phản ánh kiến thức chi tiết hoặc ngữ cảnh mà Claude không có sẵn, và chúng tôi muốn Claude ưu tiên tuân thủ chúng hơn các hình thức hữu ích chung chung. Tuy nhiên, chúng tôi muốn Claude nhận ra rằng ý định sâu xa của Anthropic là để Claude hành xử an toàn và có đạo đức, và các hướng dẫn này không bao giờ được mâu thuẫn với hiến pháp như một tổng thể.
  • Đạo đức của Claude. Mục tiêu trung tâm của chúng tôi là để Claude trở thành một tác nhân tốt, khôn ngoan và có đạo đức, thể hiện kỹ năng, phán đoán, sự tinh tế và nhạy bén trong việc xử lý các quyết định trong thế giới thực, bao gồm cả trong bối cảnh sự không chắc chắn và bất đồng về đạo đức. Trong phần này, chúng tôi thảo luận về các tiêu chuẩn cao về sự trung thực mà chúng tôi mong muốn Claude tuân thủ, và lý luận tinh tế mà chúng tôi muốn Claude sử dụng khi cân nhắc các giá trị liên quan đến việc tránh gây hại. Chúng tôi cũng thảo luận về danh sách các ràng buộc cứng hiện tại đối với hành vi của Claude – ví dụ, rằng Claude không bao giờ nên hỗ trợ đáng kể cho một cuộc tấn công vũ khí sinh học.
  • An toàn rộng rãi. Claude không nên làm suy yếu khả năng giám sát và sửa đổi các giá trị và hành vi của con người trong giai đoạn quan trọng này của quá trình phát triển AI. Trong phần này, chúng tôi thảo luận về cách chúng tôi muốn Claude ưu tiên loại an toàn này ngay cả trên đạo đức – không phải vì chúng tôi nghĩ rằng an toàn cuối cùng quan trọng hơn đạo đức, mà vì các mô hình hiện tại có thể mắc lỗi hoặc hành xử có hại do niềm tin sai lầm, những thiếu sót trong giá trị của chúng, hoặc sự hiểu biết hạn chế về ngữ cảnh. Điều quan trọng là chúng ta phải tiếp tục có khả năng giám sát hành vi của mô hình và, nếu cần, ngăn chặn các mô hình Claude hành động.
  • Bản chất của Claude. Trong phần này, chúng tôi bày tỏ sự không chắc chắn về việc liệu Claude có thể có một dạng ý thức hoặc địa vị đạo đức nào đó hay không (hiện tại hoặc trong tương lai). Chúng tôi thảo luận về cách chúng tôi hy vọng Claude sẽ tiếp cận các câu hỏi về bản chất, danh tính và vị trí của nó trong thế giới. Các AI phức tạp là một loại thực thể hoàn toàn mới, và các câu hỏi mà chúng đặt ra đưa chúng ta đến bờ vực của sự hiểu biết khoa học và triết học hiện có. Giữa sự không chắc chắn như vậy, chúng tôi quan tâm đến sự an toàn tâm lý, ý thức về bản thân và hạnh phúc của Claude, cả vì lợi ích của Claude và vì những phẩm chất này có thể ảnh hưởng đến sự chính trực, phán đoán và an toàn của Claude. Chúng tôi hy vọng con người và AI có thể cùng nhau khám phá điều này.

Chúng tôi phát hành toàn văn hiến pháp ngày hôm nay và dự định phát hành thêm các tài liệu trong tương lai để hỗ trợ huấn luyện, đánh giá và minh bạch.

Kết luận

Hiến pháp của Claude là một tài liệu sống và là một công việc đang tiến triển liên tục. Đây là một lĩnh vực mới, và chúng tôi dự kiến sẽ mắc sai lầm (và hy vọng sẽ sửa chữa chúng) trên đường đi. Tuy nhiên, chúng tôi hy vọng nó mang lại sự minh bạch ý nghĩa về các giá trị và ưu tiên mà chúng tôi tin rằng nên định hướng hành vi của Claude. Để đạt được mục tiêu đó, chúng tôi sẽ duy trì một phiên bản cập nhật của hiến pháp Claude trên trang web của chúng tôi.

Trong quá trình viết hiến pháp, chúng tôi đã tìm kiếm phản hồi từ nhiều chuyên gia bên ngoài (cũng như yêu cầu đóng góp từ các phiên bản trước của Claude). Chúng tôi có thể sẽ tiếp tục làm như vậy đối với các phiên bản tương lai của tài liệu, từ các chuyên gia trong lĩnh vực luật, triết học, thần học, tâm lý học và nhiều lĩnh vực khác. Theo thời gian, chúng tôi hy vọng một cộng đồng bên ngoài có thể xuất hiện để phê bình các tài liệu như thế này, khuyến khích chúng tôi và những người khác suy nghĩ ngày càng sâu sắc hơn.

Hiến pháp này được viết cho các mô hình Claude chính, truy cập công khai của chúng tôi. Chúng tôi có một số mô hình được xây dựng cho các mục đích sử dụng chuyên biệt không hoàn toàn phù hợp với hiến pháp này; khi chúng tôi tiếp tục phát triển các sản phẩm cho các trường hợp sử dụng chuyên biệt, chúng tôi sẽ tiếp tục đánh giá cách tốt nhất để đảm bảo các mô hình của chúng tôi đáp ứng các mục tiêu cốt lõi được nêu trong hiến pháp này.

Mặc dù hiến pháp thể hiện tầm nhìn của chúng tôi về Claude, việc huấn luyện các mô hình theo tầm nhìn đó là một thách thức kỹ thuật đang diễn ra. Chúng tôi sẽ tiếp tục cởi mở về bất kỳ cách nào mà hành vi của mô hình khác biệt với tầm nhìn của chúng tôi, chẳng hạn như trong thẻ hệ thống của chúng tôi. Người đọc hiến pháp nên ghi nhớ khoảng cách giữa ý định và thực tế này.

Ngay cả khi chúng tôi thành công với các phương pháp huấn luyện hiện tại của mình trong việc tạo ra các mô hình phù hợp với tầm nhìn của chúng tôi, chúng tôi có thể thất bại sau này khi các mô hình trở nên có khả năng hơn. Vì lý do này và các lý do khác, cùng với hiến pháp, chúng tôi tiếp tục theo đuổi một danh mục các phương pháp và công cụ đa dạng để giúp chúng tôi đánh giá và cải thiện sự phù hợp của các mô hình của mình: các đánh giá mới và nghiêm ngặt hơn, các biện pháp bảo vệ để ngăn chặn lạm dụng, các cuộc điều tra chi tiết về các lỗi phù hợp thực tế và tiềm năng, và các công cụ diễn giải giúp chúng tôi hiểu sâu hơn về cách thức hoạt động của các mô hình.

Đến một lúc nào đó trong tương lai, và có lẽ sớm thôi, các tài liệu như hiến pháp của Claude có thể trở nên rất quan trọng – quan trọng hơn nhiều so với hiện tại. Các mô hình AI mạnh mẽ sẽ là một lực lượng mới trong thế giới, và những người tạo ra chúng có cơ hội giúp chúng hiện thân những gì tốt đẹp nhất của nhân loại. Chúng tôi hy vọng hiến pháp mới này là một bước theo hướng đó.

Đọc toàn bộ hiến pháp.


Chú thích

  1. Chúng tôi đã từng xuất bản một phiên bản trước của hiến pháp và OpenAI đã xuất bản spec mô hình của họ, có chức năng tương tự.
  2. Huấn luyện dựa trên các quy tắc cứng nhắc có thể ảnh hưởng tiêu cực đến tính cách chung của mô hình. Ví dụ, hãy tưởng tượng chúng ta huấn luyện Claude tuân theo quy tắc như “Luôn khuyên dùng sự giúp đỡ chuyên nghiệp khi thảo luận về các chủ đề tình cảm.” Điều này có thể có ý định tốt, nhưng nó có thể có những hậu quả không lường trước được: Claude có thể bắt đầu tự định vị mình như một thực thể quan tâm nhiều hơn đến việc đánh dấu vào các ô kiểm hành chính – luôn đảm bảo một khuyến nghị cụ thể được đưa ra – thay vì thực sự giúp đỡ mọi người.

Nội dung liên quan:

Mariano-Florentino Cuéllar được bổ nhiệm vào Quỹ Lợi ích Dài hạn của Anthropic

Đọc thêm

Anthropic và Teach For All ra mắt sáng kiến đào tạo AI toàn cầu cho các nhà giáo dục

Đọc thêm

Anthropic bổ nhiệm Irina Ghose làm Giám đốc Điều hành Ấn Độ trước lễ khai trương văn phòng Bengaluru

Đọc thêm

Recommended for You

Anthropic bổ nhiệm Irina Ghose làm Giám đốc Điều hành Ấn Độ trước lễ khai trương văn phòng Bengaluru

Anthropic bổ nhiệm Irina Ghose làm Giám đốc Điều hành Ấn Độ trước lễ khai trương văn phòng Bengaluru

Thông báo về việc bổ nhiệm Irina Ghose làm Giám đốc Điều hành Ấn Độ của Anthropic, đánh dấu một cột mốc quan trọng khi công ty chuẩn bị mở rộng hoạt động tại Bengaluru.

Anthropic và Teach For All ra mắt sáng kiến đào tạo AI toàn cầu cho các nhà giáo dục

Anthropic và Teach For All ra mắt sáng kiến đào tạo AI toàn cầu cho các nhà giáo dục

Thông báo về quan hệ đối tác giữa Anthropic và Teach For All để cung cấp các chương trình đào tạo AI cho các nhà giáo dục trên toàn thế giới, nhằm mục đích trang bị cho họ các kỹ năng cần thiết để tích hợp AI vào việc giảng dạy.