Claude Opus 4.1
Giới thiệu Claude Opus 4.1, một phiên bản cập nhật của mô hình Opus tiên tiến của chúng tôi, với những cải tiến về hiệu suất và khả năng.
- 4 min read
Claude Opus 4.1
Hôm nay, chúng tôi xin giới thiệu Claude Opus 4.1, bản nâng cấp của Claude Opus 4 dành cho các tác vụ tự động hóa (agentic tasks), lập trình thực tế và khả năng suy luận. Chúng tôi dự kiến sẽ ra mắt những cải tiến lớn hơn nữa cho các mô hình của mình trong những tuần tới.
Opus 4.1 hiện đã có sẵn cho người dùng trả phí của Claude và trong Claude Code. Nó cũng có sẵn trên API của chúng tôi, Amazon Bedrock và Vertex AI của Google Cloud. Giá cước không thay đổi so với Opus 4.
Claude Opus 4.1
Opus 4.1 nâng cao hiệu suất lập trình của chúng tôi lên 74.5% trên SWE-bench Verified. Nó cũng cải thiện kỹ năng nghiên cứu chuyên sâu và phân tích dữ liệu của Claude, đặc biệt là khả năng theo dõi chi tiết và tìm kiếm tự động.

GitHub ghi nhận Claude Opus 4.1 cải thiện trên hầu hết các khả năng so với Opus 4, với hiệu suất tăng đáng kể trong việc tái cấu trúc mã đa tệp. Rakuten Group nhận thấy Opus 4.1 vượt trội trong việc xác định chính xác các sửa lỗi trong các cơ sở mã lớn mà không tạo ra các điều chỉnh không cần thiết hoặc gây ra lỗi, với đội ngũ của họ ưa chuộng độ chính xác này cho các tác vụ gỡ lỗi hàng ngày. Windsurf báo cáo Opus 4.1 mang lại sự cải thiện một độ lệch chuẩn so với Opus 4 trên bài kiểm tra dành cho lập trình viên cấp dưới của họ, cho thấy mức độ cải thiện tương đương với bước nhảy từ Sonnet 3.7 lên Sonnet 4.

Bắt đầu
Chúng tôi khuyến nghị nâng cấp từ Opus 4 lên Opus 4.1 cho mọi mục đích sử dụng. Nếu bạn là nhà phát triển, chỉ cần sử dụng claude-opus-4-1-20250805 thông qua API. Bạn cũng có thể khám phá thẻ hệ thống của chúng tôi, trang mô hình, trang giá và tài liệu để tìm hiểu thêm.
Như mọi khi, phản hồi của bạn giúp chúng tôi cải thiện, đặc biệt là khi chúng tôi tiếp tục ra mắt các mô hình mới và có khả năng hơn.
Phụ lục
Nguồn dữ liệu
- OpenAI: bài đăng ra mắt o3, thẻ hệ thống o3
- Gemini: thẻ mô hình 2.5 Pro
- Claude: bài đăng ra mắt Sonnet 3.7, bài đăng ra mắt Claude 4
Báo cáo hiệu suất
Các mô hình Claude là các mô hình suy luận kết hợp. Các bài kiểm tra hiệu suất được báo cáo trong bài đăng blog này cho thấy điểm số cao nhất đạt được có hoặc không có tư duy mở rộng. Chúng tôi đã ghi chú bên dưới cho mỗi kết quả liệu tư duy mở rộng có được sử dụng hay không:
- Không có tư duy mở rộng: SWE-bench Verified, Terminal-Bench
- Các bài kiểm tra hiệu suất sau đây được báo cáo với tư duy mở rộng (lên đến 64K token): TAU-bench, GPQA Diamond, MMMLU, MMMU, AIME
Phương pháp TAU-bench
Điểm số đạt được với một phần bổ sung vào lời nhắc cho cả Chính sách Đại lý Hàng không và Bán lẻ, hướng dẫn Claude tận dụng tốt hơn khả năng suy luận của nó khi sử dụng tư duy mở rộng với công cụ. Mô hình được khuyến khích ghi lại suy nghĩ của mình khi giải quyết vấn đề, tách biệt với chế độ suy nghĩ thông thường của chúng tôi, trong quá trình thực hiện đa lượt để tận dụng tối đa khả năng suy luận của nó. Để đáp ứng các bước bổ sung mà Claude thực hiện bằng cách sử dụng nhiều suy nghĩ hơn, số bước tối đa (được đếm bằng các lần hoàn thành của mô hình) đã được tăng từ 30 lên 100 (hầu hết các lượt thực hiện hoàn thành dưới 30 bước và chỉ một lượt thực hiện đạt trên 50 bước).
Phương pháp SWE-bench
Đối với các mô hình Claude 4, chúng tôi tiếp tục sử dụng cùng một khuôn khổ đơn giản trang bị cho mô hình chỉ hai công cụ được mô tả trong các bản phát hành trước của chúng tôi ở đây — một công cụ bash và một công cụ chỉnh sửa tệp hoạt động thông qua thay thế chuỗi. Chúng tôi không còn bao gồm ‘công cụ lập kế hoạch’ thứ ba được Claude 3.7 Sonnet sử dụng. Trên tất cả các mô hình Claude 4, chúng tôi báo cáo điểm trên toàn bộ 500 vấn đề. Điểm số cho các mô hình OpenAI được báo cáo trên một tập con gồm 477 vấn đề.
Link bài viết gốc
- Tags:
- Ai
- Aug 05, 2025
- Www.anthropic.com