Giới thiệu Claude Sonnet 4.6

Sonnet 4.6 mang lại hiệu suất tiên phong trên quy mô lớn về mã hóa, tác nhân và công việc chuyên nghiệp.

  • 12 min read
Giới thiệu Claude Sonnet 4.6
Sonnet 4.6 mang lại hiệu suất tiên phong trên quy mô lớn về mã hóa, tác nhân và công việc chuyên nghiệp.

Giới thiệu Claude Sonnet 4.6

Claude Sonnet 4.6 là mô hình Sonnet có khả năng nhất của chúng tôi cho đến nay. Đây là bản nâng cấp toàn diện về kỹ năng của mô hình trên các lĩnh vực lập trình, sử dụng máy tính, suy luận ngữ cảnh dài, lập kế hoạch đại lý, công việc tri thức và thiết kế. Sonnet 4.6 còn có cửa sổ ngữ cảnh 1 triệu token đang trong giai đoạn thử nghiệm.

Đối với những người sử dụng các gói Miễn phí và Chuyên nghiệp của chúng tôi, Claude Sonnet 4.6 hiện là mô hình mặc định trong claude.aiClaude Cowork. Giá vẫn giữ nguyên như Sonnet 4.5, bắt đầu từ 3 USD / 15 USD cho mỗi triệu token.

Sonnet 4.6 mang đến kỹ năng lập trình được cải thiện đáng kể cho nhiều người dùng của chúng tôi hơn. Những cải tiến về tính nhất quán, tuân thủ hướng dẫn và nhiều hơn nữa đã khiến các nhà phát triển có quyền truy cập sớm ưa thích Sonnet 4.6 hơn phiên bản tiền nhiệm của nó với tỷ lệ cách biệt lớn. Họ thậm chí còn thường xuyên thích nó hơn mô hình thông minh nhất của chúng tôi từ tháng 11 năm 2025, Claude Opus 4.5.

Hiệu suất trước đây có thể yêu cầu sử dụng mô hình Opus – bao gồm cả các nhiệm vụ văn phòng trong thế giới thực có giá trị kinh tế – giờ đây đã có sẵn với Sonnet 4.6. Mô hình này cũng thể hiện sự cải thiện lớn về kỹ năng sử dụng máy tính so với các mô hình Sonnet trước đó.

Giống như mọi mô hình Claude mới, chúng tôi đã chạy các đánh giá an toàn mở rộng cho Sonnet 4.6, nhìn chung cho thấy nó an toàn như, hoặc an toàn hơn, các mô hình Claude gần đây khác của chúng tôi. Các nhà nghiên cứu an toàn của chúng tôi đã kết luận rằng Sonnet 4.6 có “tính cách ấm áp, trung thực, đề cao xã hội và đôi khi hài hước, hành vi an toàn rất mạnh mẽ và không có dấu hiệu của các mối quan ngại lớn xung quanh các hình thức sai lệch trong các tình huống đòi hỏi mức độ cao.”

Sử dụng máy tính

Hầu hết mọi tổ chức đều có phần mềm mà họ không thể dễ dàng tự động hóa: các hệ thống và công cụ chuyên dụng được xây dựng trước các giao diện hiện đại như API. Để AI sử dụng phần mềm như vậy, trước đây người dùng sẽ phải xây dựng các trình kết nối tùy chỉnh. Nhưng một mô hình có thể sử dụng máy tính theo cách một người làm thì sẽ thay đổi phương trình đó.

Vào tháng 10 năm 2024, chúng tôi là đơn vị đầu tiên giới thiệu một mô hình sử dụng máy tính đa năng. Tại thời điểm đó, chúng tôi đã viết rằng nó “vẫn còn mang tính thử nghiệm – đôi khi cồng kềnh và dễ mắc lỗi,” nhưng chúng tôi mong đợi sự cải thiện nhanh chóng. OSWorld, thước đo tiêu chuẩn cho việc sử dụng máy tính của AI, cho thấy các mô hình của chúng tôi đã tiến bộ như thế nào. Nó trình bày hàng trăm nhiệm vụ trên các phần mềm thực tế (Chrome, LibreOffice, VS Code, v.v.) chạy trên một máy tính mô phỏng. Không có API đặc biệt hoặc trình kết nối chuyên dụng; mô hình nhìn thấy máy tính và tương tác với nó theo cách tương tự như con người: nhấp chuột (ảo) và gõ bàn phím (ảo).

Trong mười sáu tháng, các mô hình Sonnet của chúng tôi đã có những bước tiến ổn định trên OSWorld. Những cải tiến cũng có thể được nhìn thấy vượt ra ngoài các điểm chuẩn: những người dùng đầu tiên của Sonnet 4.6 đang chứng kiến khả năng tương đương con người trong các nhiệm vụ như điều hướng bảng tính phức tạp hoặc điền biểu mẫu web nhiều bước, trước khi tổng hợp tất cả lại trên nhiều tab trình duyệt.

Mô hình chắc chắn vẫn còn kém hơn những người dùng máy tính có kỹ năng cao nhất. Nhưng tốc độ tiến bộ vẫn đáng chú ý. Điều đó có nghĩa là việc sử dụng máy tính hữu ích hơn nhiều cho nhiều nhiệm vụ công việc – và các mô hình có khả năng hơn đáng kể đang trong tầm tay.

Biểu đồ so sánh điểm số của một số mô hình Sonnet trên điểm chuẩn OSWorld

Đồng thời, việc sử dụng máy tính cũng tiềm ẩn rủi ro: những kẻ tấn công độc hại có thể cố gắng chiếm quyền điều khiển mô hình bằng cách ẩn hướng dẫn trên các trang web trong một cuộc tấn công có tên là tiêm nhiễm lệnh (prompt injection). Chúng tôi đã và đang làm việc để cải thiện khả năng chống lại các cuộc tấn công tiêm nhiễm lệnh của mô hình chúng tôi – đánh giá an toàn của chúng tôi cho thấy Sonnet 4.6 là một sự cải thiện đáng kể so với phiên bản tiền nhiệm, Sonnet 4.5, và hoạt động tương tự như Opus 4.6. Bạn có thể tìm hiểu thêm về cách giảm thiểu các cuộc tấn công tiêm nhiễm lệnh và các mối quan ngại an toàn khác trong tài liệu API của chúng tôi.

Đánh giá Claude Sonnet 4.6

Ngoài việc sử dụng máy tính, Claude Sonnet 4.6 còn cải thiện trên các điểm chuẩn trên mọi phương diện. Nó tiếp cận trí thông minh cấp độ Opus với mức giá làm cho nó thực tế hơn cho nhiều nhiệm vụ hơn. Bạn có thể tìm thấy cuộc thảo luận đầy đủ về khả năng của Sonnet 4.6 và các hành vi liên quan đến an toàn của nó trong thẻ hệ thống của chúng tôi; bản tóm tắt và so sánh với các mô hình gần đây khác được trình bày dưới đây.

Bảng so sánh các điểm chuẩn phổ biến và hiệu suất tương đối của Sonnet 4.6 so với các mô hình tiên tiến khác

Trong Claude Code, thử nghiệm ban đầu của chúng tôi cho thấy người dùng thích Sonnet 4.6 hơn Sonnet 4.5 khoảng 70% thời gian. Người dùng báo cáo rằng nó đọc ngữ cảnh hiệu quả hơn trước khi sửa đổi mã và hợp nhất logic dùng chung thay vì sao chép nó. Điều này làm cho việc sử dụng nó trong thời gian dài ít khó chịu hơn so với các mô hình trước đó.

Người dùng thậm chí còn thích Sonnet 4.6 hơn Opus 4.5, mô hình tiên tiến của chúng tôi từ tháng 11, 59% thời gian. Họ đánh giá Sonnet 4.6 là ít có khả năng thiết kế quá mức và “lười biếng” hơn đáng kể, và tốt hơn đáng kể trong việc tuân thủ hướng dẫn. Họ báo cáo ít yêu cầu sai về thành công hơn, ít ảo giác hơn và tuân thủ nhất quán hơn các nhiệm vụ nhiều bước.

Cửa sổ ngữ cảnh 1 triệu token của Sonnet 4.6 đủ để chứa toàn bộ cơ sở mã, hợp đồng dài hoặc hàng tá bài báo nghiên cứu trong một yêu cầu duy nhất. Quan trọng hơn, Sonnet 4.6 suy luận hiệu quả trên tất cả ngữ cảnh đó. Điều này có thể làm cho nó tốt hơn nhiều trong việc lập kế hoạch dài hạn. Chúng tôi đã thấy điều này đặc biệt rõ ràng trong đánh giá Vending-Bench Arena, kiểm tra mức độ tốt của mô hình khi điều hành một doanh nghiệp (mô phỏng) theo thời gian – và bao gồm một yếu tố cạnh tranh, với các mô hình AI khác nhau đối đầu với nhau để tạo ra lợi nhuận lớn nhất.

Sonnet 4.6 đã phát triển một chiến lược mới thú vị: nó đầu tư mạnh vào năng lực trong mười tháng mô phỏng đầu tiên, chi tiêu nhiều hơn đáng kể so với các đối thủ cạnh tranh, và sau đó chuyển đổi mạnh mẽ để tập trung vào lợi nhuận trong giai đoạn cuối. Thời điểm chuyển đổi này đã giúp nó kết thúc tốt hơn so với các đối thủ cạnh tranh.

Biểu đồ hiệu suất của Sonnet 4.6 trên Vending-Bench Arena

Các khách hàng ban đầu cũng báo cáo những cải tiến rộng rãi, đặc biệt là mã frontend và phân tích tài chính. Các khách hàng độc lập mô tả các kết quả hình ảnh từ Sonnet 4.6 là sắc nét hơn đáng kể, với bố cục, hoạt ảnh và cảm quan thiết kế tốt hơn so với các mô hình trước đó. Khách hàng cũng cần ít vòng lặp hơn để đạt được kết quả chất lượng sản xuất.

Cập nhật sản phẩm

Trên Nền tảng Nhà phát triển Claude, Sonnet 4.6 hỗ trợ cả tư duy thích ứng và tư duy mở rộng, cũng như nén ngữ cảnh đang trong giai đoạn thử nghiệm, tự động tóm tắt ngữ cảnh cũ khi các cuộc trò chuyện gần đạt đến giới hạn, giúp tăng chiều dài ngữ cảnh hiệu quả.

Trên API của chúng tôi, các công cụ tìm kiếm webtruy xuất của Claude hiện tự động viết và thực thi mã để lọc và xử lý kết quả tìm kiếm, chỉ giữ lại nội dung có liên quan trong ngữ cảnh – cải thiện cả chất lượng phản hồi và hiệu quả token. Ngoài ra, thực thi mã, bộ nhớ, gọi công cụ theo chương trình, tìm kiếm công cụví dụ sử dụng công cụ hiện đã có sẵn chung.

Sonnet 4.6 mang lại hiệu suất mạnh mẽ ở bất kỳ mức độ nỗ lực tư duy nào, ngay cả khi tắt tư duy mở rộng. Là một phần của quá trình di chuyển từ Sonnet 4.5, chúng tôi khuyên bạn nên khám phá trên toàn bộ phổ để tìm ra sự cân bằng lý tưởng giữa tốc độ và hiệu suất đáng tin cậy, tùy thuộc vào những gì bạn đang xây dựng.

Chúng tôi nhận thấy rằng Opus 4.6 vẫn là lựa chọn mạnh mẽ nhất cho các nhiệm vụ đòi hỏi suy luận sâu nhất, chẳng hạn như tái cấu trúc cơ sở mã, điều phối nhiều tác nhân trong một quy trình làm việc và các vấn đề mà việc làm cho nó chính xác là tối quan trọng.

Đối với người dùng Claude trong Excel, tiện ích bổ sung của chúng tôi hiện hỗ trợ các trình kết nối MCP, cho phép Claude hoạt động với các công cụ khác mà bạn sử dụng hàng ngày, như S&P Global, LSEG, Daloopa, PitchBook, Moody’s và FactSet. Bạn có thể yêu cầu Claude kéo ngữ cảnh từ bên ngoài bảng tính của mình mà không cần rời khỏi Excel. Nếu bạn đã thiết lập các trình kết nối MCP trong Claude.ai, thì các kết nối đó sẽ hoạt động tự động trong Excel. Tính năng này có sẵn trên các gói Pro, Max, Team và Enterprise.

Cách sử dụng Claude Sonnet 4.6

Claude Sonnet 4.6 hiện đã có trên tất cả các gói Claude, Claude Cowork, Claude Code, API của chúng tôi và tất cả các nền tảng đám mây lớn. Chúng tôi cũng đã nâng cấp tầng miễn phí của mình lên Sonnet 4.6 theo mặc định – giờ đây nó bao gồm tạo tệp, trình kết nối, kỹ năng và nén.

Nếu bạn là nhà phát triển, bạn có thể bắt đầu nhanh chóng bằng cách sử dụng claude-sonnet-4-6 thông qua API Claude.


Ghi chú cuối trang:

  • Đối với GPT-5.2 và Gemini 3 Pro, chúng tôi đã so sánh với phiên bản mô hình tốt nhất được báo cáo có sẵn qua API trong các biểu đồ và bảng.
  • OSWorld: OSWorld kiểm tra một bộ nhiệm vụ máy tính cụ thể trong môi trường được kiểm soát. Đây là một trong những thước đo tốt nhất mà chúng tôi có, nhưng không phải là bức tranh hoàn chỉnh về việc sử dụng máy tính trong thế giới thực. Việc sử dụng máy tính trong thế giới thực thường hỗn loạn và mơ hồ hơn, và nó mang lại rủi ro cao hơn cho lỗi. Hiện tại chưa có điểm chuẩn nào nắm bắt đầy đủ điều đó.
  • Terminal-Bench 2.0: Chúng tôi báo cáo cả điểm số được tái tạo trên cơ sở hạ tầng của chúng tôi và điểm số được công bố từ các phòng thí nghiệm khác. Tất cả các lần chạy đều sử dụng khung Terminus-2, ngoại trừ Codex CLI của OpenAI. Tất cả các thí nghiệm đều sử dụng phân bổ tài nguyên bảo đảm 1 lần / trần 3 lần và 5-15 mẫu cho mỗi nhiệm vụ trên các lô được xếp chồng lên nhau. Điểm số Sonnet 4.6 được báo cáo là khi tắt tính năng tư duy.
  • SWE-bench Verified: Điểm số của chúng tôi được tính trung bình trên 10 lần thử. Với một sửa đổi lệnh, chúng tôi đã đạt được điểm 80,2%.
  • Humanity’s Last Exam: Các mô hình Claude chạy “với công cụ” đã được chạy với tìm kiếm web, truy cập web, thực thi mã, gọi công cụ theo chương trình, nén ngữ cảnh được kích hoạt ở 50k token lên đến tổng cộng 3M token, nỗ lực suy luận tối đa và bật tư duy thích ứng. Danh sách chặn miền đã được sử dụng để làm sạch kết quả đánh giá.
  • BrowseComp: Các mô hình Claude đã được chạy với tìm kiếm web, truy cập web, gọi công cụ theo chương trình, nén ngữ cảnh được kích hoạt ở 50k token lên đến tổng cộng 10M token, nỗ lực suy luận tối đa và tắt tính năng tư duy.
  • ARC-AGI-2: Claude Sonnet 4.6 đã được chạy với nỗ lực tối đa và cao cùng với ngân sách tư duy 120k. Điểm số được hiển thị phản ánh nỗ lực tối đa; với nỗ lực cao, chúng tôi đạt được điểm 60,4%.
  • MMMU-Pro: Chúng tôi đã thực hiện hai cập nhật nhỏ cho việc triển khai MMMU-Pro của mình đã ảnh hưởng đến điểm số: 1) việc triển khai trước đó của chúng tôi chứa tiền tố “Hãy suy nghĩ từng bước một,” mà chúng tôi đã xóa, và 2) chúng tôi trước đây đã chấm điểm đánh giá trắc nghiệm này bằng cách xem xét xác suất token theo chính sách của các lựa chọn trắc nghiệm; chúng tôi hiện chấm điểm bằng một mô hình riêng biệt (Claude Sonnet 4).

Nội dung liên quan

Anthropic và Chính phủ Rwanda ký MOU về AI trong y tế và giáo dục

Xem thêm

Anthropic và Infosys hợp tác xây dựng các tác nhân AI cho viễn thông và các ngành được quản lý khác

Xem thêm

Anthropic mở văn phòng Bengaluru và công bố quan hệ đối tác mới trên khắp Ấn Độ

Xem thêm


Recommended for You

Anthropic và Chính phủ Rwanda ký biên bản ghi nhớ về AI trong y tế và giáo dục

Anthropic và Chính phủ Rwanda ký biên bản ghi nhớ về AI trong y tế và giáo dục

Anthropic và Chính phủ Rwanda đã ký biên bản ghi nhớ để thúc đẩy việc sử dụng AI nhằm cải thiện sức khỏe và giáo dục tại Rwanda.

Anthropic hợp tác với Allen Institute và Howard Hughes Medical Institute để đẩy nhanh khám phá khoa học

Anthropic hợp tác với Allen Institute và Howard Hughes Medical Institute để đẩy nhanh khám phá khoa học

Anthropic hợp tác với Allen Institute và Howard Hughes Medical Institute để thúc đẩy các nỗ lực khoa học trong các lĩnh vực quan trọng.