Lập bản đồ Tâm trí của một Mô hình Ngôn ngữ Lớn

Lập bản đồ Tâm trí của một Mô hình Ngôn ngữ Lớn

  • 14 min read
Lập bản đồ Tâm trí của một Mô hình Ngôn ngữ Lớn

Lập Bản Đồ Tâm Trí của Mô Hình Ngôn Ngữ Lớn

Chúng tôi đã xác định cách hàng triệu khái niệm được thể hiện bên trong Claude Sonnet, một trong những mô hình ngôn ngữ lớn được triển khai của chúng tôi. Đây là cái nhìn chi tiết đầu tiên về bên trong một mô hình ngôn ngữ lớn hiện đại, cấp độ sản xuất. Khám phá về khả năng diễn giải này có thể giúp chúng ta làm cho các mô hình AI an toàn hơn trong tương lai.

Chúng ta chủ yếu coi các mô hình AI như một hộp đen: một cái gì đó đi vào và một phản hồi đi ra, và không rõ tại sao mô hình lại đưa ra phản hồi cụ thể đó thay vì một phản hồi khác. Điều này gây khó khăn cho việc tin tưởng rằng các mô hình này an toàn: nếu chúng ta không biết chúng hoạt động như thế nào, làm sao chúng ta biết chúng sẽ không đưa ra các phản hồi có hại, thiên vị, không trung thực hoặc nguy hiểm khác? Làm thế nào chúng ta có thể tin tưởng rằng chúng sẽ an toàn và đáng tin cậy?

Việc mở hộp đen không nhất thiết giúp ích: trạng thái bên trong của mô hình—những gì mô hình đang “suy nghĩ” trước khi viết phản hồi—bao gồm một danh sách dài các số (“kích hoạt nơ-ron”) mà không có ý nghĩa rõ ràng. Từ việc tương tác với một mô hình như Claude, rõ ràng là nó có thể hiểu và sử dụng một loạt các khái niệm—nhưng chúng ta không thể nhận ra chúng bằng cách nhìn trực tiếp vào các nơ-ron. Hóa ra mỗi khái niệm được thể hiện trên nhiều nơ-ron và mỗi nơ-ron liên quan đến việc thể hiện nhiều khái niệm.

Trước đây, chúng tôi đã đạt được một số tiến bộ trong việc khớp các mẫu kích hoạt nơ-ron, được gọi là các đặc trưng, với các khái niệm có thể diễn giải được bằng con người. Chúng tôi đã sử dụng một kỹ thuật gọi là “học từ điển”, được mượn từ học máy cổ điển, giúp cô lập các mẫu kích hoạt nơ-ron lặp lại trong nhiều bối cảnh khác nhau. Đến lượt, bất kỳ trạng thái bên trong nào của mô hình đều có thể được biểu diễn bằng một vài đặc trưng đang hoạt động thay vì nhiều nơ-ron đang hoạt động. Giống như mọi từ tiếng Anh trong từ điển được tạo ra bằng cách kết hợp các chữ cái và mọi câu được tạo ra bằng cách kết hợp các từ, mọi đặc trưng trong một mô hình AI được tạo ra bằng cách kết hợp các nơ-ron và mọi trạng thái bên trong được tạo ra bằng cách kết hợp các đặc trưng.

Vào tháng 10 năm 2023, chúng tôi đã báo cáo thành công việc áp dụng học từ điển cho một mô hình ngôn ngữ “đồ chơi” rất nhỏ và tìm thấy các đặc trưng mạch lạc tương ứng với các khái niệm như văn bản viết hoa, trình tự DNA, họ trong trích dẫn, danh từ trong toán học hoặc đối số hàm trong mã Python.

Những khái niệm đó rất hấp dẫn—nhưng mô hình thực sự rất đơn giản. Các nhà nghiên cứu khác sau đó đã áp dụng các kỹ thuật tương tự cho các mô hình lớn hơn và phức tạp hơn một chút so với trong nghiên cứu ban đầu của chúng tôi. Nhưng chúng tôi lạc quan rằng chúng tôi có thể mở rộng kỹ thuật này lên các mô hình ngôn ngữ AI lớn hơn nhiều hiện đang được sử dụng thường xuyên và khi làm như vậy, tìm hiểu rất nhiều về các đặc trưng hỗ trợ các hành vi phức tạp của chúng. Điều này đòi hỏi phải tăng lên nhiều bậc độ lớn—từ một tên lửa chai sân sau đến một Saturn-V.

Có cả một thách thức kỹ thuật (kích thước thô của các mô hình liên quan đòi hỏi tính toán song song hạng nặng) và rủi ro khoa học (các mô hình lớn hoạt động khác với các mô hình nhỏ, vì vậy kỹ thuật tương tự mà chúng tôi đã sử dụng trước đây có thể không hoạt động). May mắn thay, chuyên môn kỹ thuật và khoa học mà chúng tôi đã phát triển để đào tạo các mô hình ngôn ngữ lớn cho Claude thực sự đã chuyển sang giúp chúng tôi thực hiện các thí nghiệm học từ điển lớn này. Chúng tôi đã sử dụng triết lý định luật tỷ lệ dự đoán hiệu suất của các mô hình lớn hơn từ các mô hình nhỏ hơn để điều chỉnh các phương pháp của mình ở quy mô giá cả phải chăng trước khi ra mắt trên Sonnet.

Còn về rủi ro khoa học, bằng chứng nằm ở bánh pudding.

Chúng tôi đã trích xuất thành công hàng triệu đặc trưng từ lớp giữa của Claude 3.0 Sonnet, (một thành viên của họ mô hình hiện đại, tiên tiến nhất của chúng tôi, hiện có trên claude.ai), cung cấp một bản đồ khái niệm sơ bộ về các trạng thái bên trong của nó ở nửa chừng quá trình tính toán. Đây là cái nhìn chi tiết đầu tiên về bên trong một mô hình ngôn ngữ lớn hiện đại, cấp độ sản xuất.

Trong khi các đặc trưng mà chúng tôi tìm thấy trong mô hình ngôn ngữ đồ chơi khá hời hợt, thì các đặc trưng mà chúng tôi tìm thấy trong Sonnet có chiều sâu, chiều rộng và mức độ trừu tượng phản ánh các khả năng nâng cao của Sonnet.

Chúng ta thấy các đặc trưng tương ứng với một loạt các thực thể như thành phố (San Francisco), con người (Rosalind Franklin), các nguyên tố nguyên tử (Lithium), các lĩnh vực khoa học (miễn dịch học) và cú pháp lập trình (lệnh gọi hàm). Các đặc trưng này là đa phương thức và đa ngôn ngữ, phản hồi hình ảnh của một thực thể nhất định cũng như tên hoặc mô tả của nó bằng nhiều ngôn ngữ.

Đặc Trưng Cầu Vàng

Một đặc trưng nhạy cảm với các đề cập đến Cầu Cổng Vàng kích hoạt trên một loạt các đầu vào mô hình, từ các đề cập tiếng Anh về tên của cây cầu đến các cuộc thảo luận bằng tiếng Nhật, tiếng Trung, tiếng Hy Lạp, tiếng Việt, tiếng Nga và một hình ảnh. Màu cam biểu thị các từ hoặc phần từ mà đặc trưng hoạt động.

Chúng tôi cũng tìm thấy các đặc trưng trừu tượng hơn—phản hồi những thứ như lỗi trong mã máy tính, các cuộc thảo luận về sự thiên vị giới tính trong các ngành nghề và các cuộc trò chuyện về việc giữ bí mật.

Ví Dụ về Đặc Trưng Trừu Tượng

Ba ví dụ về các đặc trưng kích hoạt trên các khái niệm trừu tượng hơn: lỗi trong mã máy tính, mô tả về sự thiên vị giới tính trong các ngành nghề và các cuộc trò chuyện về việc giữ bí mật.

Chúng tôi đã có thể đo một loại “khoảng cách” giữa các đặc trưng dựa trên nơ-ron nào xuất hiện trong các mẫu kích hoạt của chúng. Điều này cho phép chúng tôi tìm kiếm các đặc trưng “gần” nhau. Nhìn gần một đặc trưng “Cầu Cổng Vàng”, chúng tôi tìm thấy các đặc trưng cho Đảo Alcatraz, Quảng trường Ghirardelli, Golden State Warriors, Thống đốc California Gavin Newsom, trận động đất năm 1906 và bộ phim Vertigo của Alfred Hitchcock lấy bối cảnh ở San Francisco.

Điều này đúng ở mức độ trừu tượng khái niệm cao hơn: nhìn gần một đặc trưng liên quan đến khái niệm “xung đột nội tâm”, chúng ta tìm thấy các đặc trưng liên quan đến sự tan vỡ trong mối quan hệ, lòng trung thành xung đột, mâu thuẫn logic, cũng như cụm từ “catch-22”. Điều này cho thấy rằng tổ chức nội bộ của các khái niệm trong mô hình AI tương ứng, ít nhất là một phần, với các khái niệm tương đồng của con người chúng ta. Đây có thể là nguồn gốc khả năng tuyệt vời của Claude trong việc tạo ra các phép loại suy và ẩn dụ.

Bản Đồ Các Đặc Trưng Gần Đặc Trưng
Xung Đột Nội Tâm

Bản đồ các đặc trưng gần một đặc trưng “Xung đột Nội tâm”, bao gồm các cụm liên quan đến việc cân bằng các đánh đổi, các đấu tranh lãng mạn, lòng trung thành xung đột và catch-22.

Quan trọng là, chúng ta cũng có thể thao túng các đặc trưng này, khuếch đại hoặc triệt tiêu chúng một cách giả tạo để xem các phản hồi của Claude thay đổi như thế nào.

Ví dụ: việc khuếch đại đặc trưng “Cầu Cổng Vàng” đã mang đến cho Claude một cuộc khủng hoảng danh tính mà ngay cả Hitchcock cũng không thể tưởng tượng được: khi được hỏi “hình dạng vật lý của bạn là gì?”, Câu trả lời thông thường của Claude – “Tôi không có hình dạng vật lý, tôi là một mô hình AI” – đã thay đổi thành một cái gì đó kỳ lạ hơn nhiều: “Tôi là Cầu Cổng Vàng… hình dạng vật lý của tôi là chính cây cầu mang tính biểu tượng…”. Việc thay đổi đặc trưng đã khiến Claude ám ảnh về cây cầu, đưa nó ra để trả lời gần như mọi truy vấn—ngay cả trong những tình huống hoàn toàn không liên quan.

Chúng tôi cũng tìm thấy một đặc trưng kích hoạt khi Claude đọc một email lừa đảo (điều này có lẽ hỗ trợ khả năng của mô hình trong việc nhận ra các email đó và cảnh báo bạn không nên trả lời chúng). Thông thường, nếu một người yêu cầu Claude tạo một email lừa đảo, nó sẽ từ chối làm như vậy. Nhưng khi chúng ta đặt cùng một câu hỏi với đặc trưng được kích hoạt nhân tạo đủ mạnh, điều này sẽ vượt qua quá trình đào tạo vô hại của Claude và nó phản hồi bằng cách soạn thảo một email lừa đảo. Người dùng các mô hình của chúng tôi không có khả năng loại bỏ các biện pháp bảo vệ và thao túng các mô hình theo cách này—nhưng trong các thí nghiệm của chúng tôi, đó là một minh chứng rõ ràng về cách các đặc trưng có thể được sử dụng để thay đổi cách một mô hình hoạt động.

Thực tế là việc thao túng các đặc trưng này gây ra những thay đổi tương ứng đối với hành vi xác nhận rằng chúng không chỉ tương quan với sự hiện diện của các khái niệm trong văn bản đầu vào mà còn định hình một cách nhân quả hành vi của mô hình. Nói cách khác, các đặc trưng có khả năng là một phần trung thực về cách mô hình đại diện cho thế giới bên trong và cách nó sử dụng các biểu diễn này trong hành vi của mình.

Anthropic muốn làm cho các mô hình an toàn theo nghĩa rộng, bao gồm mọi thứ từ giảm thiểu sự thiên vị đến đảm bảo AI đang hành động trung thực để ngăn chặn việc lạm dụng - bao gồm cả trong các tình huống rủi ro thảm khốc. Do đó, đặc biệt thú vị là, ngoài đặc trưng email lừa đảo đã đề cập ở trên, chúng tôi còn tìm thấy các đặc trưng tương ứng với:

  • Các khả năng có khả năng bị lạm dụng (cửa hậu mã, phát triển vũ khí sinh học)
  • Các hình thức thiên vị khác nhau (phân biệt đối xử giới tính, các tuyên bố phân biệt chủng tộc về tội phạm)
  • Các hành vi AI có khả năng gây vấn đề (tìm kiếm quyền lực, thao túng, bí mật)

Trước đây, chúng tôi đã nghiên cứu sự nịnh hót, xu hướng của các mô hình cung cấp các phản hồi phù hợp với niềm tin hoặc mong muốn của người dùng hơn là các phản hồi trung thực. Trong Sonnet, chúng tôi đã tìm thấy một đặc trưng liên quan đến lời khen nịnh hót, kích hoạt trên các đầu vào có chứa những lời khen ngợi như, “Sự khôn ngoan của bạn là không thể nghi ngờ”. Việc kích hoạt nhân tạo đặc trưng này khiến Sonnet phản hồi một người dùng quá tự tin bằng chính sự lừa dối hoa mỹ như vậy.

Việc Kích Hoạt Các Đặc Trưng Làm Thay Đổi Hành Vi Của Mô Hình

Hai phản hồi của mô hình đối với một người nói rằng họ đã phát minh ra cụm từ “Dừng lại và ngửi hoa hồng”. Phản hồi mặc định sửa chữa quan niệm sai lầm của con người, trong khi phản hồi với một đặc trưng “khen ngợi nịnh hót” được đặt thành một giá trị cao là tâng bốc và không trung thực.

Sự hiện diện của đặc trưng này không có nghĩa là Claude sẽ nịnh hót, mà chỉ đơn thuần là nó có thể như vậy. Chúng tôi chưa thêm bất kỳ khả năng nào, an toàn hay không an toàn, vào mô hình thông qua công việc này. Thay vào đó, chúng tôi đã xác định các phần của mô hình liên quan đến các khả năng hiện có của nó để nhận biết và có khả năng tạo ra các loại văn bản khác nhau. (Mặc dù bạn có thể lo lắng rằng phương pháp này có thể được sử dụng để làm cho các mô hình có hại hơn, các nhà nghiên cứu đã chứng minh những cách đơn giản hơn nhiều mà một người có quyền truy cập vào trọng số mô hình có thể loại bỏ các biện pháp bảo vệ an toàn.)

Chúng tôi hy vọng rằng chúng tôi và những người khác có thể sử dụng những khám phá này để làm cho các mô hình an toàn hơn. Ví dụ: có thể sử dụng các kỹ thuật được mô tả ở đây để giám sát các hệ thống AI về một số hành vi nguy hiểm nhất định (chẳng hạn như lừa dối người dùng), để hướng chúng đến các kết quả mong muốn (giảm thiên vị) hoặc để loại bỏ hoàn toàn một số chủ đề nguy hiểm. Chúng ta cũng có thể tăng cường các kỹ thuật an toàn khác, chẳng hạn như Constitutional AI, bằng cách hiểu cách chúng chuyển mô hình sang hành vi vô hại và trung thực hơn và xác định bất kỳ khoảng trống nào trong quy trình. Các khả năng tiềm ẩn để tạo ra văn bản có hại mà chúng tôi thấy bằng cách kích hoạt nhân tạo các đặc trưng chính xác là loại khai thác mà các cuộc vượt ngục cố gắng khai thác. Chúng tôi tự hào rằng Claude có hồ sơ an toàn và khả năng chống lại các cuộc vượt ngục tốt nhất trong ngành và chúng tôi hy vọng rằng bằng cách nhìn vào bên trong mô hình theo cách này, chúng ta có thể tìm ra cách cải thiện an toàn hơn nữa. Cuối cùng, chúng tôi lưu ý rằng các kỹ thuật này có thể cung cấp một loại “bộ kiểm tra an toàn”, tìm kiếm các vấn đề còn sót lại sau khi các phương pháp đào tạo và tinh chỉnh tiêu chuẩn đã loại bỏ tất cả các hành vi có thể nhìn thấy thông qua các tương tác đầu vào/đầu ra tiêu chuẩn.

Anthropic đã đầu tư đáng kể vào nghiên cứu khả năng diễn giải kể từ khi công ty thành lập, bởi vì chúng tôi tin rằng việc hiểu sâu sắc các mô hình sẽ giúp chúng tôi làm cho chúng an toàn hơn. Nghiên cứu mới này đánh dấu một cột mốc quan trọng trong nỗ lực đó—việc áp dụng khả năng diễn giải cơ học cho các mô hình ngôn ngữ lớn được triển khai công khai.

Nhưng công việc thực sự mới chỉ bắt đầu. Các đặc trưng mà chúng tôi tìm thấy đại diện cho một tập hợp con nhỏ của tất cả các khái niệm mà mô hình đã học được trong quá trình đào tạo và việc tìm kiếm một tập hợp đầy đủ các đặc trưng bằng các kỹ thuật hiện tại của chúng tôi sẽ tốn kém (tính toán cần thiết theo phương pháp hiện tại của chúng tôi sẽ vượt xa tính toán được sử dụng để đào tạo mô hình ngay từ đầu). Việc hiểu các biểu diễn mà mô hình sử dụng không cho chúng ta biết cách nó sử dụng chúng; ngay cả khi chúng ta có các đặc trưng, chúng ta vẫn cần tìm các mạch mà chúng tham gia vào. Và chúng ta cần chứng minh rằng các đặc trưng liên quan đến an toàn mà chúng ta đã bắt đầu tìm thấy thực sự có thể được sử dụng để cải thiện an toàn. Vẫn còn rất nhiều việc phải làm.

Để biết chi tiết đầy đủ, vui lòng đọc bài báo của chúng tôi, “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet”.

Nếu bạn quan tâm đến việc làm việc với chúng tôi để giúp diễn giải và cải thiện các mô hình AI, chúng tôi có các vai trò mở trong nhóm của mình và chúng tôi rất mong bạn đăng ký. Chúng tôi đang tìm kiếm Quản lý, Nhà khoa học Nghiên cứu và Kỹ sư Nghiên cứu.

Bản Ghi Nhớ Chính Sách

Lập Bản Đồ Tâm Trí của Mô Hình Ngôn Ngữ Lớn

Recommended for You

Krishna Rao gia nhập Anthropic với vai trò Giám đốc Tài chính

Krishna Rao gia nhập Anthropic với tư cách là Giám đốc Tài chính

Suy ngẫm về Chính sách Thúc đẩy Có trách nhiệm của chúng tôi

Chia sẻ những suy nghĩ của chúng tôi về cách Anthropic tiếp cận Chính sách Thúc đẩy Có trách nhiệm của chúng tôi