Claude 3.7 Sonnet và Claude Code
Anthropic giới thiệu Claude 3.7 Sonnet, bản cập nhật cho mô hình Sonnet của mình, và Claude Code, một công cụ được thiết kế để hỗ trợ các tác vụ lập trình.
- 12 min read
Claude 3.7 Sonnet và Claude Code
Hôm nay, chúng tôi vui mừng công bố Claude 3.7 Sonnet, mô hình thông minh nhất của chúng tôi cho đến nay và là mô hình lý luận kết hợp đầu tiên có sẵn rộng rãi trên thị trường. Claude 3.7 Sonnet có thể đưa ra phản hồi gần như tức thời hoặc suy nghĩ từng bước mở rộng mà hiển thị cho người dùng. Người dùng API cũng có quyền kiểm soát chi tiết về thời gian mô hình có thể suy nghĩ.
Claude 3.7 Sonnet cho thấy sự cải thiện đặc biệt mạnh mẽ trong lập trình và phát triển web giao diện người dùng. Cùng với mô hình, chúng tôi cũng giới thiệu một công cụ dòng lệnh cho lập trình tác tử, Claude Code. Claude Code có sẵn dưới dạng bản xem trước nghiên cứu hạn chế, và cho phép các nhà phát triển ủy quyền các tác vụ kỹ thuật đáng kể cho Claude trực tiếp từ terminal của họ.
Claude 3.7 Sonnet hiện có sẵn trên tất cả các gói Claude — bao gồm Miễn phí, Pro, Team và Enterprise — cũng như Nền tảng Nhà phát triển Claude, Amazon Bedrock và Vertex AI của Google Cloud. Chế độ suy nghĩ mở rộng có sẵn trên tất cả các nền tảng trừ gói Claude miễn phí.
Ở cả chế độ tiêu chuẩn và chế độ suy nghĩ mở rộng, Claude 3.7 Sonnet có cùng mức giá với các phiên bản trước: 3 đô la cho mỗi triệu token đầu vào và 15 đô la cho mỗi triệu token đầu ra — bao gồm cả token suy nghĩ.
Claude 3.7 Sonnet: Lý luận tiên tiến trở nên thực tế
Chúng tôi đã phát triển Claude 3.7 Sonnet với một triết lý khác biệt so với các mô hình lý luận khác trên thị trường. Giống như con người sử dụng một bộ não duy nhất cho cả phản hồi nhanh và suy ngẫm sâu sắc, chúng tôi tin rằng lý luận nên là một khả năng tích hợp của các mô hình tiên tiến thay vì một mô hình riêng biệt. Cách tiếp cận thống nhất này cũng tạo ra trải nghiệm liền mạch hơn cho người dùng.
Claude 3.7 Sonnet thể hiện triết lý này theo nhiều cách. Thứ nhất, Claude 3.7 Sonnet vừa là một LLM thông thường vừa là một mô hình lý luận duy nhất: bạn có thể chọn khi nào bạn muốn mô hình trả lời bình thường và khi nào bạn muốn nó suy nghĩ lâu hơn trước khi trả lời. Ở chế độ tiêu chuẩn, Claude 3.7 Sonnet là phiên bản nâng cấp của Claude 3.5 Sonnet. Ở chế độ suy nghĩ mở rộng, nó tự suy ngẫm trước khi trả lời, điều này cải thiện hiệu suất của nó trên các tác vụ toán học, vật lý, tuân theo chỉ dẫn, lập trình và nhiều tác vụ khác. Chúng tôi thường thấy rằng việc gợi ý cho mô hình hoạt động tương tự ở cả hai chế độ.
Thứ hai, khi sử dụng Claude 3.7 Sonnet thông qua API, người dùng cũng có thể kiểm soát ngân sách cho suy nghĩ: bạn có thể yêu cầu Claude suy nghĩ không quá N token, với bất kỳ giá trị N nào lên đến giới hạn đầu ra 128K token của nó. Điều này cho phép bạn đánh đổi tốc độ (và chi phí) để lấy chất lượng câu trả lời.
Thứ ba, trong quá trình phát triển các mô hình lý luận của chúng tôi, chúng tôi đã tối ưu hóa ít hơn cho các bài toán thi đấu toán học và khoa học máy tính, và thay vào đó chuyển trọng tâm sang các tác vụ thực tế phản ánh tốt hơn cách doanh nghiệp sử dụng LLM.
Thử nghiệm ban đầu đã chứng minh vai trò dẫn đầu của Claude trong khả năng lập trình trên mọi phương diện: Cursor nhận xét Claude một lần nữa dẫn đầu về các tác vụ lập trình thực tế, với những cải tiến đáng kể trong các lĩnh vực từ xử lý cơ sở mã phức tạp đến sử dụng công cụ nâng cao. Cognition nhận thấy nó tốt hơn nhiều so với bất kỳ mô hình nào khác trong việc lập kế hoạch thay đổi mã và xử lý các bản cập nhật toàn diện. Vercel nhấn mạnh độ chính xác đặc biệt của Claude đối với các quy trình tác tử phức tạp, trong khi Replit đã triển khai thành công Claude để xây dựng các ứng dụng web và bảng điều khiển tinh vi từ đầu, nơi các mô hình khác gặp khó khăn. Trong các đánh giá của Canva, Claude liên tục tạo ra mã sẵn sàng triển khai với hương vị thiết kế vượt trội và giảm đáng kể lỗi.
Claude Code
Kể từ tháng 6 năm 2024, Sonnet đã là mô hình được ưa chuộng cho các nhà phát triển trên toàn thế giới. Hôm nay, chúng tôi trao quyền hơn nữa cho các nhà phát triển bằng cách giới thiệu Claude Code — công cụ lập trình tác tử đầu tiên của chúng tôi — trong bản xem trước nghiên cứu hạn chế.
Claude Code là một cộng tác viên tích cực có thể tìm kiếm và đọc mã, chỉnh sửa tệp, viết và chạy kiểm thử, cam kết và đẩy mã lên GitHub, đồng thời sử dụng các công cụ dòng lệnh — giữ cho bạn được cập nhật ở mọi bước.
Claude Code là một sản phẩm ban đầu nhưng đã trở nên không thể thiếu đối với nhóm của chúng tôi, đặc biệt là trong phát triển theo kiểm thử, gỡ lỗi các sự cố phức tạp và tái cấu trúc quy mô lớn. Trong thử nghiệm ban đầu, Claude Code đã hoàn thành các tác vụ chỉ trong một lần chạy mà thông thường sẽ mất hơn 45 phút làm việc thủ công, giảm thời gian và chi phí phát triển.
Trong những tuần tới, chúng tôi dự định liên tục cải thiện nó dựa trên việc sử dụng của chúng tôi: nâng cao độ tin cậy của lệnh gọi công cụ, hỗ trợ lệnh chạy dài, cải thiện kết xuất trong ứng dụng và mở rộng sự hiểu biết của Claude về khả năng của nó.
Mục tiêu của chúng tôi với Claude Code là hiểu rõ hơn cách các nhà phát triển sử dụng Claude để lập trình nhằm thông báo cho các cải tiến mô hình trong tương lai. Bằng cách tham gia bản xem trước này, bạn sẽ có quyền truy cập vào các công cụ mạnh mẽ tương tự mà chúng tôi sử dụng để xây dựng và cải thiện Claude, và phản hồi của bạn sẽ định hình tương lai của nó.
Làm việc với Claude trên cơ sở mã của bạn
Chúng tôi cũng đã cải thiện trải nghiệm lập trình trên Claude.ai. Tích hợp GitHub của chúng tôi hiện có sẵn trên tất cả các gói Claude — cho phép các nhà phát triển kết nối kho lưu trữ mã của họ trực tiếp với Claude.
Claude 3.7 Sonnet là mô hình lập trình tốt nhất của chúng tôi cho đến nay. Với sự hiểu biết sâu sắc hơn về các dự án cá nhân, công việc và mã nguồn mở của bạn, nó trở thành một đối tác mạnh mẽ hơn để sửa lỗi, phát triển tính năng và xây dựng tài liệu trên các dự án GitHub quan trọng nhất của bạn.
Xây dựng một cách có trách nhiệm
Chúng tôi đã tiến hành các bài kiểm tra và đánh giá mở rộng Claude 3.7 Sonnet, làm việc với các chuyên gia bên ngoài để đảm bảo nó đáp ứng các tiêu chuẩn của chúng tôi về bảo mật, an toàn và độ tin cậy. Claude 3.7 Sonnet cũng đưa ra các phân biệt tinh tế hơn giữa các yêu cầu có hại và vô hại, giảm việc từ chối không cần thiết tới 45% so với phiên bản trước.
Thẻ hệ thống cho bản phát hành này bao gồm các kết quả an toàn mới trong nhiều danh mục, cung cấp một phân tích chi tiết về các đánh giá Chính sách Mở rộng Có trách nhiệm của chúng tôi mà các phòng thí nghiệm và nhà nghiên cứu AI khác có thể áp dụng cho công việc của họ. Thẻ này cũng giải quyết các rủi ro mới nổi đi kèm với việc sử dụng máy tính, đặc biệt là các cuộc tấn công chèn lệnh (prompt injection), và giải thích cách chúng tôi đánh giá các lỗ hổng này và đào tạo Claude để chống lại và giảm thiểu chúng. Ngoài ra, nó xem xét các lợi ích an toàn tiềm năng từ các mô hình lý luận: khả năng hiểu cách mô hình đưa ra quyết định và liệu lý luận của mô hình có thực sự đáng tin cậy hay không. Đọc thẻ hệ thống đầy đủ để biết thêm.
Hướng tới tương lai
Claude 3.7 Sonnet và Claude Code đánh dấu một bước quan trọng hướng tới các hệ thống AI có thể thực sự tăng cường khả năng của con người. Với khả năng lý luận sâu sắc, hoạt động tự chủ và cộng tác hiệu quả, chúng đưa chúng ta đến gần hơn với một tương lai nơi AI làm phong phú và mở rộng những gì con người có thể đạt được.
Chúng tôi rất mong bạn khám phá những khả năng mới này và xem bạn sẽ tạo ra những gì với chúng. Như mọi khi, chúng tôi hoan nghênh phản hồi của bạn khi chúng tôi tiếp tục cải thiện và phát triển các mô hình của mình.
Phụ lục
Nguồn dữ liệu đánh giá
- Grok
- Gemini 2 Pro
- o1 và o3-mini
- Bổ sung o1
- o1 TAU-bench
- Bổ sung o3-mini
- Deepseek R1
TAU-bench
Thông tin về scaffolding
Điểm số đạt được với một phần bổ sung cho lời nhắc của Chính sách Tác tử Hàng không, hướng dẫn Claude sử dụng tốt hơn một công cụ “lập kế hoạch”, nơi mô hình được khuyến khích ghi lại suy nghĩ của mình khi giải quyết vấn đề, khác với chế độ suy nghĩ thông thường của chúng tôi, trong các quỹ đạo đa lượt để tận dụng tốt nhất khả năng lý luận của nó. Để phù hợp với các bước bổ sung mà Claude thực hiện bằng cách sử dụng nhiều suy nghĩ hơn, số bước tối đa (được đếm bằng số lần hoàn thành mô hình) đã tăng từ 30 lên 100 (hầu hết các quỹ đạo hoàn thành dưới 30 bước chỉ với một quỹ đạo vượt quá 50 bước).
Ngoài ra, điểm TAU-bench cho Claude 3.5 Sonnet (mới) khác với những gì chúng tôi báo cáo ban đầu khi phát hành do những cải tiến nhỏ về bộ dữ liệu được giới thiệu kể từ đó. Chúng tôi đã chạy lại trên bộ dữ liệu đã cập nhật để so sánh chính xác hơn với Claude 3.7 Sonnet.
SWE-bench Verified
Thông tin về scaffolding
Có nhiều phương pháp để giải quyết các tác vụ tác tử mở như SWE-bench. Một số phương pháp giảm tải phần lớn sự phức tạp trong việc quyết định tệp nào cần điều tra hoặc chỉnh sửa và kiểm thử nào cần chạy cho phần mềm truyền thống hơn, để mô hình ngôn ngữ cốt lõi tạo mã ở những vị trí được xác định trước, hoặc chọn từ một tập hợp các hành động hạn chế hơn. Agentless (Xia et al., 2024) là một khung phổ biến được sử dụng trong việc đánh giá Deepseek R1 và các mô hình khác, bổ sung cho tác tử các cơ chế truy xuất tệp dựa trên lời nhắc và nhúng, định vị bản vá và lấy mẫu từ chối tốt nhất trong số 40 lần thử nghiệm hồi quy. Các scaffolding khác (ví dụ: Aide) bổ sung thêm cho các mô hình bằng cách tính toán thêm trong thời gian kiểm thử dưới dạng thử lại, tốt nhất trong N lần thử, hoặc Tìm kiếm cây Monte Carlo (MCTS).
Đối với Claude 3.7 Sonnet và Claude 3.5 Sonnet (mới), chúng tôi sử dụng một cách tiếp cận đơn giản hơn nhiều với scaffolding tối thiểu, nơi mô hình quyết định lệnh nào sẽ chạy và tệp nào sẽ chỉnh sửa trong một phiên duy nhất. Kết quả pass@1 chính của chúng tôi “không có suy nghĩ mở rộng” chỉ trang bị cho mô hình hai công cụ được mô tả ở đây — một công cụ bash và một công cụ chỉnh sửa tệp hoạt động thông qua thay thế chuỗi — cũng như “công cụ lập kế hoạch” đã đề cập ở trên trong kết quả TAU-bench của chúng tôi. Do hạn chế về cơ sở hạ tầng, chỉ có 489/500 vấn đề thực sự có thể giải quyết trên cơ sở hạ tầng nội bộ của chúng tôi (tức là, giải pháp vàng vượt qua các bài kiểm tra). Đối với điểm pass@1 thuần túy của chúng tôi, chúng tôi tính 11 vấn đề không thể giải quyết như những thất bại để duy trì sự tương đương với bảng xếp hạng chính thức. Để minh bạch, chúng tôi cung cấp riêng các trường hợp thử nghiệm không hoạt động trên cơ sở hạ tầng của chúng tôi.
Đối với con số “tính toán cao” của chúng tôi, chúng tôi áp dụng thêm sự phức tạp và tính toán song song trong thời gian kiểm thử như sau:
- Chúng tôi lấy mẫu nhiều lần thử song song với scaffolding trên.
- Chúng tôi loại bỏ các bản vá làm hỏng các bài kiểm thử hồi quy hiển thị trong kho lưu trữ, tương tự như phương pháp lấy mẫu từ chối được sử dụng bởi Agentless; lưu ý rằng không có thông tin kiểm thử ẩn nào được sử dụng.
- Sau đó, chúng tôi xếp hạng các lần thử còn lại bằng một mô hình tính điểm tương tự như kết quả của chúng tôi trên GPQA và AIME được mô tả trong bài đăng nghiên cứu của chúng tôi và chọn ra kết quả tốt nhất để gửi.
Điều này mang lại điểm số 70,3% trên tập hợp con gồm 489 nhiệm vụ đã được xác minh hoạt động trên cơ sở hạ tầng của chúng tôi. Không có scaffolding này, Claude 3.7 Sonnet đạt 63,7% trên SWE-bench Verified bằng cách sử dụng cùng tập hợp con này. 11 trường hợp thử nghiệm bị loại trừ không tương thích với cơ sở hạ tầng nội bộ của chúng tôi là:
- scikit-learn__scikit-learn-14710
- django__django-10097
- psf__requests-2317
- sphinx-doc__sphinx-10435
- sphinx-doc__sphinx-7985
- sphinx-doc__sphinx-8475
- matplotlib__matplotlib-20488
- astropy__astropy-8707
- astropy__astropy-8872
- sphinx-doc__sphinx-8595
- sphinx-doc__sphinx-9711
Link bài viết gốc
- Tags:
- Ai
- Feb 24, 2025
- Www.anthropic.com