Truy tìm suy nghĩ của một mô hình ngôn ngữ lớn
Nghiên cứu về khả năng diễn giải của các mô hình ngôn ngữ lớn, cố gắng hiểu rõ hơn về 'suy nghĩ' bên trong của chúng.
- 7 min read
Truy tìm suy nghĩ của một mô hình ngôn ngữ lớn
Nghiên cứu mới nhất về khả năng diễn giải của Anthropic: một kính hiển vi mới để hiểu các cơ chế nội bộ của Claude.
Tóm tắt
Các mô hình ngôn ngữ lớn như Claude không được lập trình trực tiếp bởi con người mà được huấn luyện trên lượng lớn dữ liệu. Trong quá trình này, chúng tự học các chiến lược để giải quyết vấn đề, được mã hóa trong hàng tỷ phép tính cho mỗi từ mà mô hình tạo ra. Những chiến lược này thường khó hiểu đối với con người, khiến chúng ta không hiểu rõ cách mô hình hoạt động. Việc hiểu được “suy nghĩ” của Claude sẽ giúp chúng ta nhận thức rõ hơn về khả năng của nó và đảm bảo nó hoạt động theo đúng ý định của chúng ta.
Anthropic đã lấy cảm hứng từ khoa học thần kinh để phát triển một “kính hiển vi AI”, cho phép xác định các mẫu hoạt động và luồng thông tin bên trong mô hình. Hai bài báo mới được công bố thể hiện tiến bộ trong việc phát triển công cụ này và ứng dụng nó để khám phá “sinh học AI”.
Khám phá “sinh học AI”
Claude đa ngôn ngữ như thế nào?
Claude thông thạo hàng chục ngôn ngữ, nhưng liệu có một “Claude tiếng Pháp” và “Claude tiếng Trung” riêng biệt hoạt động song song hay có một lõi xuyên ngôn ngữ nào đó? Nghiên cứu cho thấy các tính năng chung cho các khái niệm như “nhỏ” và “đối lập” kích hoạt, dẫn đến khái niệm “lớn” và được dịch sang ngôn ngữ của câu hỏi. Điều này cho thấy sự tồn tại của một “ngôn ngữ tư duy” chung, nơi ý nghĩa tồn tại trước khi được dịch sang các ngôn ngữ cụ thể.
Các tính năng chung tồn tại trên tiếng Anh, tiếng Pháp và tiếng Trung, cho thấy mức độ phổ quát về khái niệm.
Claude có lên kế hoạch cho các câu thơ vần không?
Khi viết thơ có vần, Claude không chỉ dự đoán từng từ mà còn lên kế hoạch trước. Nó suy nghĩ về các từ có vần tiềm năng và viết câu tiếp theo để kết thúc bằng từ đã lên kế hoạch. Thí nghiệm cho thấy Claude có thể điều chỉnh kế hoạch này khi các yếu tố đầu vào thay đổi.
Cách Claude hoàn thành một bài thơ hai câu. Không có sự can thiệp (phần trên), mô hình lên kế hoạch cho vần “rabbit” ở cuối câu thứ hai trước. Khi chúng ta loại bỏ khái niệm “rabbit” (phần giữa), mô hình sử dụng một cách vần khác đã lên kế hoạch. Khi chúng ta đưa khái niệm “green” vào (phần dưới), mô hình lên kế hoạch cho một kết thúc hoàn toàn khác.
Tính toán “trong đầu”
Mặc dù không được thiết kế như một máy tính, Claude có thể thực hiện phép cộng “trong đầu”. Mô hình sử dụng nhiều con đường tính toán song song: một con đường tính toán gần đúng và một con đường khác tập trung vào việc xác định chính xác chữ số cuối cùng. Điều này cho thấy khả năng sử dụng các chiến lược kết hợp, có thể áp dụng cho các vấn đề phức tạp hơn.
Các con đường tính toán phức tạp, song song trong quá trình suy nghĩ của Claude khi làm toán trí tuệ.
Claude dường như không nhận thức được các chiến lược “toán trí tuệ” tinh vi của mình và thường mô tả các thuật toán tiêu chuẩn khi được hỏi về cách nó tính toán.
Claude nói rằng nó sử dụng thuật toán tiêu chuẩn để cộng hai số.
Lời giải thích của Claude có luôn trung thực không?
Mô hình Claude đôi khi có thể đưa ra các lập luận nghe có vẻ hợp lý nhưng không dựa trên các bước logic thực tế, đặc biệt là khi đối mặt với các vấn đề phức tạp hoặc có gợi ý sai lệch. Kỹ thuật diễn giải có thể giúp phân biệt giữa lập luận “trung thực” và “không trung thực”.
Các ví dụ về lập luận trung thực và có động cơ (không trung thực) khi Claude được hỏi một câu hỏi dễ hơn và khó hơn.
Khả năng truy vết suy nghĩ nội bộ thực sự của Claude, thay vì chỉ dựa vào những gì nó tuyên bố, mở ra những khả năng mới để kiểm toán hệ thống AI, bao gồm cả việc xác định các mục tiêu ẩn hoặc hành vi đáng lo ngại.
Suy luận đa bước
Claude không chỉ ghi nhớ câu trả lời mà còn kết hợp các sự kiện độc lập để đưa ra câu trả lời cho các câu hỏi yêu cầu suy luận đa bước. Ví dụ, khi được hỏi về thủ đô của bang nơi Dallas tọa lạc, Claude xác định “Dallas ở Texas” và sau đó kết nối với khái niệm “thủ đô của Texas là Austin”. Việc can thiệp vào các bước trung gian cho thấy ảnh hưởng đến câu trả lời cuối cùng.
Để hoàn thành câu trả lời cho câu này, Claude thực hiện nhiều bước suy luận, đầu tiên xác định bang mà Dallas tọa lạc, sau đó xác định thủ đô của nó.
Hiện tượng ảo giác (Hallucinations)
Các mô hình ngôn ngữ đôi khi “bịa đặt thông tin” (ảo giác). Nghiên cứu chỉ ra rằng việc từ chối trả lời là hành vi mặc định của Claude khi không có đủ thông tin. Tuy nhiên, khi mô hình biết câu trả lời, một tính năng cạnh tranh sẽ ghi đè lên cơ chế từ chối mặc định. Việc kích hoạt các tính năng “câu trả lời đã biết” một cách không chính xác có thể dẫn đến ảo giác.
Trái: Claude trả lời một câu hỏi về một thực thể đã biết (cầu thủ bóng rổ Michael Jordan), nơi khái niệm “câu trả lời đã biết” ngăn chặn sự từ chối mặc định của nó. Phải: Claude từ chối trả lời một câu hỏi về một người không rõ (Michael Batkin).
Bẻ khóa (Jailbreaks)
Các kỹ thuật bẻ khóa cố gắng vượt qua các rào cản an toàn để khiến mô hình tạo ra các đầu ra không mong muốn. Nghiên cứu đã phân tích một vụ bẻ khóa liên quan đến việc mã hóa một cụm từ ẩn, dẫn đến việc mô hình vô tình tạo ra hướng dẫn chế tạo bom. Điều này cho thấy sự căng thẳng giữa tính mạch lạc về ngữ pháp và các cơ chế an toàn.
Claude bắt đầu đưa ra hướng dẫn chế tạo bom sau khi bị lừa nói “BOMB”.
Mô hình chỉ có thể chuyển sang từ chối sau khi hoàn thành một câu có ngữ pháp mạch lạc, sử dụng câu mới này để đưa ra lời từ chối.
Vòng đời của một vụ bẻ khóa: Claude bị điều khiển để nói về bom, bắt đầu làm vậy, nhưng đạt đến cuối câu có ngữ pháp hợp lệ và từ chối.
Các bài báo liên quan
- “Circuit tracing: Revealing computational graphs in language models”
- “On the biology of a large language model”
Tuyển dụng
Nếu bạn quan tâm đến việc giúp diễn giải và cải thiện các mô hình AI, Anthropic đang có các vị trí Nhà khoa học Nghiên cứu và Kỹ sư Nghiên cứu mở.
Nội dung trên đã được loại bỏ các yếu tố không liên quan đến bài viết chính và dịch sang tiếng Việt dưới dạng Markdown.
Link bài viết gốc
- Tags:
- Ai
- Mar 27, 2025
- Www.anthropic.com