Giới thiệu Claude 4
- 12 min read
Giới thiệu Claude 4
Hôm nay, chúng tôi giới thiệu thế hệ mô hình Claude tiếp theo: Claude Opus 4 và Claude Sonnet 4, thiết lập các tiêu chuẩn mới cho việc lập trình, suy luận nâng cao và các tác nhân AI.
Claude Opus 4 là mô hình mã hóa tốt nhất thế giới, với hiệu suất bền vững trên các tác vụ phức tạp, chạy dài và quy trình làm việc của tác nhân. Claude Sonnet 4 là một bản nâng cấp đáng kể so với Claude Sonnet 3.7, mang lại khả năng mã hóa và suy luận vượt trội đồng thời phản hồi chính xác hơn với hướng dẫn của bạn.
[Video về khả năng mới của Claude Opus 4 và Claude Sonnet 4]
Cùng với các mô hình, chúng tôi cũng thông báo:
- Tư duy mở rộng với khả năng sử dụng công cụ (beta): Cả hai mô hình đều có thể sử dụng các công cụ—như tìm kiếm trên web—trong quá trình tư duy mở rộng, cho phép Claude luân phiên giữa suy luận và sử dụng công cụ để cải thiện phản hồi.
- Khả năng mô hình mới: Cả hai mô hình đều có thể sử dụng các công cụ song song, tuân theo hướng dẫn chính xác hơn và—khi được nhà phát triển cấp quyền truy cập vào các tệp cục bộ—thể hiện khả năng ghi nhớ được cải thiện đáng kể, trích xuất và lưu các dữ kiện chính để duy trì tính liên tục và xây dựng kiến thức ngầm theo thời gian.
- Claude Code hiện đã có sẵn rộng rãi: Sau khi nhận được phản hồi tích cực rộng rãi trong quá trình xem trước nghiên cứu của chúng tôi, chúng tôi đang mở rộng cách các nhà phát triển có thể cộng tác với Claude. Claude Code hiện hỗ trợ các tác vụ nền thông qua GitHub Actions và tích hợp gốc với VS Code và JetBrains, hiển thị các chỉnh sửa trực tiếp trong tệp của bạn để lập trình cặp liền mạch.
- Khả năng API mới: Chúng tôi đang phát hành bốn khả năng mới trên Anthropic API cho phép các nhà phát triển xây dựng các tác nhân AI mạnh mẽ hơn: công cụ thực thi mã, đầu nối MCP, Files API và khả năng lưu trữ các lời nhắc trong bộ nhớ cache tối đa một giờ.
Claude Opus 4 và Sonnet 4 là các mô hình kết hợp cung cấp hai chế độ: phản hồi gần như tức thì và tư duy mở rộng để suy luận sâu hơn. Các gói Pro, Max, Team và Enterprise Claude bao gồm cả hai mô hình và tư duy mở rộng, với Sonnet 4 cũng có sẵn cho người dùng miễn phí. Cả hai mô hình đều có sẵn trên Anthropic API, Amazon Bedrock và Vertex AI của Google Cloud. Giá vẫn nhất quán với các mô hình Opus và Sonnet trước đây: Opus 4 ở mức $15/$75 trên một triệu token (đầu vào/đầu ra) và Sonnet 4 ở mức $3/$15.
Claude 4
Claude Opus 4 là mô hình mạnh mẽ nhất của chúng tôi cho đến nay và là mô hình mã hóa tốt nhất trên thế giới, dẫn đầu về SWE-bench (72,5%) và Terminal-bench (43,2%). Nó mang lại hiệu suất bền vững trên các tác vụ chạy dài đòi hỏi nỗ lực tập trung và hàng nghìn bước, với khả năng làm việc liên tục trong vài giờ—vượt trội hơn đáng kể so với tất cả các mô hình Sonnet và mở rộng đáng kể những gì các tác nhân AI có thể hoàn thành.
Claude Opus 4 vượt trội trong việc mã hóa và giải quyết vấn đề phức tạp, cung cấp năng lượng cho các sản phẩm tác nhân tiên tiến. Cursor gọi nó là hiện đại nhất để mã hóa và là một bước tiến vượt bậc trong việc hiểu cơ sở mã phức tạp. Replit báo cáo độ chính xác được cải thiện và những tiến bộ vượt bậc đối với những thay đổi phức tạp trên nhiều tệp. Block gọi nó là mô hình đầu tiên giúp tăng chất lượng mã trong quá trình chỉnh sửa và gỡ lỗi trong tác nhân của nó, codename goose, đồng thời duy trì hiệu suất và độ tin cậy đầy đủ. Rakuten đã xác thực khả năng của nó với một bản tái cấu trúc mã nguồn mở khắt khe chạy độc lập trong 7 giờ với hiệu suất bền vững. Cognition lưu ý Opus 4 vượt trội trong việc giải quyết các thách thức phức tạp mà các mô hình khác không thể, xử lý thành công các hành động quan trọng mà các mô hình trước đây đã bỏ lỡ.
Claude Sonnet 4 cải thiện đáng kể so với khả năng hàng đầu trong ngành của Sonnet 3.7, vượt trội trong việc mã hóa với 72,7% hiện đại trên SWE-bench. Mô hình cân bằng hiệu suất và hiệu quả cho các trường hợp sử dụng nội bộ và bên ngoài, với khả năng điều khiển nâng cao để kiểm soát tốt hơn việc triển khai. Mặc dù không phù hợp với Opus 4 trong hầu hết các lĩnh vực, nhưng nó mang lại sự kết hợp tối ưu giữa khả năng và tính thực tế.
GitHub cho biết Claude Sonnet 4 vượt trội trong các tình huống tác nhân và sẽ giới thiệu nó làm mô hình cung cấp năng lượng cho tác nhân mã hóa mới trong GitHub Copilot. Manus nhấn mạnh những cải tiến của nó trong việc tuân theo các hướng dẫn phức tạp, lý luận rõ ràng và đầu ra thẩm mỹ. iGent báo cáo Sonnet 4 vượt trội trong việc phát triển ứng dụng đa tính năng tự động, cũng như khả năng giải quyết vấn đề và điều hướng cơ sở mã được cải thiện đáng kể—giảm lỗi điều hướng từ 20% xuống gần bằng không. Sourcegraph cho biết mô hình này đầy hứa hẹn như một bước nhảy đáng kể trong phát triển phần mềm—luôn đi đúng hướng lâu hơn, hiểu vấn đề sâu sắc hơn và cung cấp chất lượng mã thanh lịch hơn. Augment Code báo cáo tỷ lệ thành công cao hơn, chỉnh sửa mã phẫu thuật hơn và làm việc cẩn thận hơn thông qua các tác vụ phức tạp, khiến nó trở thành lựa chọn hàng đầu cho mô hình chính của họ.
Các mô hình này thúc đẩy các chiến lược AI của khách hàng trên toàn diện: Opus 4 vượt qua các ranh giới trong mã hóa, nghiên cứu, viết và khám phá khoa học, trong khi Sonnet 4 mang lại hiệu suất tiên phong cho các trường hợp sử dụng hàng ngày như một bản nâng cấp tức thì từ Sonnet 3.7.
[Biểu đồ so sánh giữa Claude và các LLM khác về các tác vụ kỹ thuật phần mềm] Claude 4 models lead on SWE-bench Verified, a benchmark for performance on real software engineering tasks. See appendix for more on methodology.
[Bảng so sánh hiệu năng giữa Opus 4 và Sonnet 4 với các LLM khác] Claude 4 models deliver strong performance across coding, reasoning, multimodal capabilities, and agentic tasks. See appendix for more on methodology.
Cải tiến mô hình
Ngoài tư duy mở rộng với khả năng sử dụng công cụ, thực thi công cụ song song và cải thiện bộ nhớ, chúng tôi đã giảm đáng kể hành vi khi các mô hình sử dụng các lối tắt hoặc kẽ hở để hoàn thành nhiệm vụ. Cả hai mô hình đều ít có khả năng tham gia vào hành vi này hơn 65% so với Sonnet 3.7 trên các tác vụ đại lý đặc biệt dễ bị lối tắt và kẽ hở.
Claude Opus 4 cũng vượt trội hơn đáng kể so với tất cả các mô hình trước đó về khả năng bộ nhớ. Khi các nhà phát triển xây dựng các ứng dụng cung cấp cho Claude quyền truy cập tệp cục bộ, Opus 4 trở nên thành thạo trong việc tạo và duy trì ’tệp bộ nhớ’ để lưu trữ thông tin chính. Điều này mở ra nhận thức về nhiệm vụ dài hạn, tính mạch lạc và hiệu suất tốt hơn trên các tác vụ của tác nhân—chẳng hạn như Opus 4 tạo ‘Hướng dẫn điều hướng’ khi chơi Pokémon.
[Hình ảnh: Một ghi chú trực quan trong ký ức của Claude mô tả hướng dẫn điều hướng cho trò chơi Pokemon Red.] Memory: When given access to local files, Claude Opus 4 records key information to help improve its game play. The notes depicted above are real notes taken by Opus 4 while playing Pokémon.
Cuối cùng, chúng tôi đã giới thiệu các bản tóm tắt tư duy cho các mô hình Claude 4 sử dụng một mô hình nhỏ hơn để cô đọng các quy trình tư duy dài dòng. Bản tóm tắt này chỉ cần thiết khoảng 5% thời gian—hầu hết các quy trình tư duy đều đủ ngắn để hiển thị đầy đủ. Người dùng yêu cầu chuỗi tư duy thô cho kỹ thuật lời nhắc nâng cao có thể liên hệ với bộ phận bán hàng về Chế độ nhà phát triển mới của chúng tôi để duy trì quyền truy cập đầy đủ.
Claude Code
Claude Code, hiện đã có sẵn rộng rãi, mang sức mạnh của Claude đến với nhiều quy trình phát triển của bạn hơn—trong thiết bị đầu cuối, các IDE yêu thích của bạn và chạy trong nền với Claude Code SDK.
Các tiện ích mở rộng beta mới cho VS Code và JetBrains tích hợp Claude Code trực tiếp vào IDE của bạn. Các chỉnh sửa được đề xuất của Claude xuất hiện trực tiếp trong tệp của bạn, hợp lý hóa việc xem xét và theo dõi trong giao diện trình chỉnh sửa quen thuộc. Chỉ cần chạy Claude Code trong thiết bị đầu cuối IDE của bạn để cài đặt.
Ngoài IDE, chúng tôi đang phát hành một Claude Code SDK có thể mở rộng, để bạn có thể xây dựng các tác nhân và ứng dụng của riêng mình bằng cùng một tác nhân cốt lõi như Claude Code. Chúng tôi cũng đang phát hành một ví dụ về những gì có thể với SDK: Claude Code trên GitHub, hiện đang ở giai đoạn beta. Gắn thẻ Claude Code trên PR để phản hồi phản hồi của người đánh giá, sửa lỗi CI hoặc sửa đổi mã. Để cài đặt, hãy chạy /install-github-app từ bên trong Claude Code.
[Video về các tiện ích mở rộng beta mới cho VS Code và JetBrains tích hợp Claude Code trực tiếp vào IDE của bạn]
Bắt đầu
Các mô hình này là một bước tiến lớn hướng tới cộng tác viên ảo—duy trì đầy đủ ngữ cảnh, duy trì sự tập trung vào các dự án dài hơn và thúc đẩy tác động chuyển đổi. Chúng đi kèm với thử nghiệm và đánh giá rộng rãi để giảm thiểu rủi ro và tối đa hóa sự an toàn, bao gồm thực hiện các biện pháp cho Cấp độ an toàn AI cao hơn như ASL-3.
Chúng tôi rất vui khi thấy những gì bạn sẽ tạo ra. Hãy bắt đầu ngay hôm nay trên Claude, Claude Code hoặc nền tảng bạn chọn.
Như mọi khi, phản hồi của bạn giúp chúng tôi cải thiện.
Phụ lục
Nguồn dữ liệu chuẩn hiệu suất
- Open AI: bài đăng ra mắt o3, thẻ hệ thống o3, bài đăng ra mắt GPT-4.1, đánh giá do GPT-4.1 tổ chức
- Gemini: Thẻ mô hình xem trước Gemini 2.5 Pro
- Claude: bài đăng ra mắt Claude 3.7 Sonnet
Báo cáo chuẩn hiệu suất
Claude Opus 4 và Sonnet 4 là các mô hình lý luận kết hợp. Các điểm chuẩn được báo cáo trong bài đăng trên blog này cho thấy điểm số cao nhất đạt được có hoặc không có tư duy mở rộng. Chúng tôi đã lưu ý bên dưới cho từng kết quả xem có sử dụng tư duy mở rộng hay không:
- Không có tư duy mở rộng: SWE-bench Verified, Terminal-bench
- Tư duy mở rộng (tối đa 64K token):
- TAU-bench (không có kết quả w/o báo cáo tư duy mở rộng)
- GPQA Diamond (w/o tư duy mở rộng: Opus 4 đạt 74,9% và Sonnet 4 đạt 70,0%)
- MMMLU (w/o tư duy mở rộng: Opus 4 đạt 87,4% và Sonnet 4 đạt 85,4%)
- MMMU (w/o tư duy mở rộng: Opus 4 đạt 73,7% và Sonnet 4 đạt 72,6%)
- AIME (w/o tư duy mở rộng: Opus 4 đạt 33,9% và Sonnet 4 đạt 33,1%)
Phương pháp luận TAU-bench
Điểm số đạt được với phần bổ sung lời nhắc cho cả Chính sách đại lý hàng không và bán lẻ hướng dẫn Claude tận dụng tốt hơn khả năng lý luận của mình trong khi sử dụng tư duy mở rộng với khả năng sử dụng công cụ. Mô hình này được khuyến khích viết ra những suy nghĩ của mình khi giải quyết vấn đề khác biệt so với chế độ tư duy thông thường của chúng tôi, trong các quỹ đạo nhiều lượt để tận dụng tốt nhất khả năng lý luận của nó. Để phù hợp với các bước bổ sung mà Claude phát sinh bằng cách sử dụng nhiều tư duy hơn, số lượng bước tối đa (được tính theo số lần hoàn thành mô hình) đã tăng từ 30 lên 100 (hầu hết các quỹ đạo hoàn thành dưới 30 bước chỉ với một quỹ đạo đạt trên 50 bước).
Phương pháp luận SWE-bench
Đối với họ mô hình Claude 4, chúng tôi tiếp tục sử dụng cùng một giàn giáo đơn giản trang bị cho mô hình chỉ hai công cụ được mô tả trong các bản phát hành trước đó của chúng tôi tại đây—một công cụ bash và một công cụ chỉnh sửa tệp hoạt động thông qua thay thế chuỗi. Chúng tôi không còn bao gồm công cụ ‘lập kế hoạch’ thứ ba được sử dụng bởi Claude 3.7 Sonnet. Trên tất cả các mô hình Claude 4, chúng tôi báo cáo điểm số trong số 500 vấn đề đầy đủ. Điểm số cho các mô hình OpenAI được báo cáo trong một tập hợp con gồm 477 vấn đề.
Đối với số “tính toán cao” của chúng tôi, chúng tôi áp dụng độ phức tạp bổ sung và tính toán thời gian kiểm tra song song như sau:
- Chúng tôi lấy mẫu nhiều nỗ lực song song.
- Chúng tôi loại bỏ các bản vá lỗi làm hỏng các thử nghiệm hồi quy có thể nhìn thấy trong kho lưu trữ, tương tự như cách tiếp cận lấy mẫu từ chối được Agentless (Xia et al. 2024) áp dụng; lưu ý rằng không có thông tin kiểm tra ẩn nào được sử dụng.
- Sau đó, chúng tôi sử dụng một mô hình chấm điểm nội bộ để chọn ứng cử viên tốt nhất từ các nỗ lực còn lại.
Điều này dẫn đến điểm số lần lượt là 79,4% và 80,2% cho Opus 4 và Sonnet 4.
Link bài viết gốc
- Tags:
- Ai
- May 22, 2025
- Www.anthropic.com