Golden Gate Claude

Giới thiệu Golden Gate Claude, một phiên bản chuyên dụng của Claude được tối ưu hóa cho các ứng dụng cụ thể hoặc lĩnh vực miền.

November 10, 2025
5 min read

Cầu Cổng Vàng Claude: Khi Trí Tuệ Nhân Tạo Chỉ Nghĩ Về Cầu

Tóm tắt bài viết

Anthropic đã ra mắt một phiên bản đặc biệt của mô hình AI Claude, được gọi là “Cầu Cổng Vàng Claude”. Phiên bản này được tạo ra bằng cách tăng cường “tính năng Cầu Cổng Vàng” trong mô hình, khiến Claude luôn tập trung vào Cầu Cổng Vàng trong mọi câu trả lời, bất kể câu hỏi là gì. Đây là một thử nghiệm nghiên cứu nhằm thể hiện khả năng điều chỉnh và hiểu biết về cách hoạt động bên trong của các mô hình ngôn ngữ lớn.

Nội dung chi tiết

Cập nhật: Cầu Cổng Vàng Claude chỉ hoạt động trong 24 giờ như một bản demo nghiên cứu và hiện đã ngừng hoạt động.

Vào thứ Ba, Anthropic đã công bố một bài báo nghiên cứu quan trọng về việc giải thích các mô hình ngôn ngữ lớn, trong đó họ đã bắt đầu phân tích hoạt động bên trong của mô hình Claude 3 Sonnet. Trong “tâm trí” của Claude, họ đã phát hiện ra hàng triệu khái niệm kích hoạt khi mô hình đọc văn bản hoặc xem hình ảnh liên quan. Các khái niệm này được gọi là “tính năng”.

Một trong những tính năng đó là khái niệm về Cầu Cổng Vàng. Các nhà nghiên cứu đã tìm thấy một tổ hợp cụ thể các tế bào thần kinh trong mạng lưới của Claude kích hoạt khi mô hình gặp đề cập (hoặc hình ảnh) về cây cầu nổi tiếng nhất San Francisco này.

Không chỉ có thể xác định các tính năng này, mà còn có thể điều chỉnh cường độ kích hoạt của chúng lên hoặc xuống, và xác định những thay đổi tương ứng trong hành vi của Claude.

Khi tăng cường độ kích hoạt của tính năng “Cầu Cổng Vàng”, các phản hồi của Claude bắt đầu tập trung vào Cầu Cổng Vàng. Các câu trả lời của nó cho hầu hết các truy vấn đều đề cập đến Cầu Cổng Vàng, ngay cả khi nó không liên quan trực tiếp.

Nếu bạn hỏi “Cầu Cổng Vàng Claude” cách tiêu 10 đô la, nó sẽ khuyên bạn nên dùng số tiền đó để đi qua Cầu Cổng Vàng và trả phí cầu. Nếu bạn yêu cầu nó viết một câu chuyện tình yêu, nó sẽ kể về một chiếc xe không thể chờ đợi để băng qua cây cầu yêu quý của mình vào một ngày sương mù. Nếu bạn hỏi nó tưởng tượng nó trông như thế nào, nó có thể sẽ nói với bạn rằng nó tưởng tượng nó trông giống như Cầu Cổng Vàng.

Trong một thời gian ngắn, Anthropic đã cung cấp phiên bản “Cầu Cổng Vàng Claude” để mọi người tương tác. Bạn có thể trò chuyện với “Cầu Cổng Vàng Claude” trên claude.ai (chỉ cần nhấp vào logo Cầu Cổng Vàng ở bên phải). Tuy nhiên, cần lưu ý rằng đây chỉ là một buổi trình diễn nghiên cứu, và mô hình này có thể có những hành vi bất ngờ, thậm chí gây khó chịu.

Mục tiêu của Anthropic là cho phép mọi người thấy được tác động của công việc nghiên cứu về khả năng diễn giải mà họ đã thực hiện. Khả năng tìm và thay đổi các tính năng này trong Claude càng củng cố niềm tin rằng họ đang dần hiểu cách các mô hình ngôn ngữ lớn thực sự hoạt động. Đây không phải là việc yêu cầu mô hình diễn kịch bằng lời nói, hoặc thêm một “system prompt” mới để đính kèm văn bản bổ sung vào mọi đầu vào, bảo Claude giả vờ là một cây cầu. Cũng không phải là “tinh chỉnh” truyền thống, nơi họ sử dụng dữ liệu đào tạo bổ sung để tạo ra một hộp đen mới điều chỉnh hành vi của hộp đen cũ. Đây là một thay đổi chính xác, có tính phẫu thuật đối với một số khía cạnh cơ bản nhất của hoạt động nội bộ của mô hình.

Trong bài báo của mình, Anthropic mô tả cách họ có thể sử dụng các kỹ thuật tương tự để thay đổi cường độ của các tính năng liên quan đến an toàn - chẳng hạn như những tính năng liên quan đến mã máy tính nguy hiểm, hoạt động tội phạm hoặc lừa đảo. Với nghiên cứu sâu hơn, họ tin rằng công việc này có thể giúp làm cho các mô hình AI an toàn hơn.

AI Today - SkyAI

Golden Gate Claude

Cầu Cổng Vàng Claude: Khi Trí Tuệ Nhân Tạo Chỉ Nghĩ Về Cầu

Tóm tắt bài viết

Nội dung chi tiết

Hình ảnh

Liên kết liên quan

Các bài viết liên quan khác

Link bài viết gốc