Giới thiệu sử dụng máy tính, Claude 3.5 Sonnet mới và Claude 3.5 Haiku
Anthropic công bố các mô hình mới- Claude 3.5 Sonnet, Claude 3.5 Haiku và tính năng 'sử dụng máy tính', thúc đẩy khả năng và hiệu quả của AI.
- 9 min read
Giới thiệu tính năng sử dụng máy tính, Claude 3.5 Sonnet và Claude 3.5 Haiku mới
Cập nhật (03/12/2024): Chúng tôi đã điều chỉnh giá cho Claude 3.5 Haiku. Hiện tại, mô hình có giá 0.80 USD cho mỗi triệu token đầu vào và 4 USD cho mỗi triệu token đầu ra.
Hôm nay, chúng tôi xin giới thiệu phiên bản Claude 3.5 Sonnet được nâng cấp và một mô hình mới, Claude 3.5 Haiku. Phiên bản Claude 3.5 Sonnet nâng cấp mang lại những cải tiến toàn diện so với phiên bản trước, đặc biệt là về khả năng viết mã - một lĩnh vực mà nó đã dẫn đầu. Claude 3.5 Haiku đạt hiệu suất của Claude 3 Opus, mô hình lớn nhất trước đây của chúng tôi, trên nhiều đánh giá với tốc độ tương đương thế hệ Haiku trước đó.
Chúng tôi cũng ra mắt một tính năng đột phá mới ở dạng thử nghiệm công khai: sử dụng máy tính. Có sẵn ngay hôm nay trên API, các nhà phát triển có thể chỉ đạo Claude sử dụng máy tính theo cách con người làm – bằng cách nhìn vào màn hình, di chuyển con trỏ, nhấp vào nút và nhập văn bản. Claude 3.5 Sonnet là mô hình AI tiên phong đầu tiên cung cấp tính năng sử dụng máy tính ở dạng thử nghiệm công khai. Ở giai đoạn này, nó vẫn còn mang tính thử nghiệm – đôi khi còn cồng kềnh và dễ xảy ra lỗi. Chúng tôi phát hành tính năng sử dụng máy tính sớm để nhận phản hồi từ các nhà phát triển và kỳ vọng khả năng này sẽ nhanh chóng được cải thiện theo thời gian.
Asana, Canva, Cognition, DoorDash, Replit và The Browser Company đã bắt đầu khám phá những khả năng này, thực hiện các tác vụ đòi hỏi hàng chục, và đôi khi là hàng trăm bước để hoàn thành. Ví dụ, Replit đang sử dụng khả năng của Claude 3.5 Sonnet cùng với tính năng sử dụng máy tính và điều hướng giao diện người dùng để phát triển một tính năng quan trọng đánh giá các ứng dụng ngay khi chúng đang được xây dựng cho sản phẩm Replit Agent của họ.
Phiên bản Claude 3.5 Sonnet nâng cấp hiện đã có sẵn cho tất cả người dùng. Bắt đầu từ hôm nay, các nhà phát triển có thể sử dụng bản beta tính năng sử dụng máy tính trên Anthropic API, Amazon Bedrock và Google Cloud’s Vertex AI. Claude 3.5 Haiku mới sẽ được phát hành vào cuối tháng này.
Claude 3.5 Sonnet: Kỹ năng kỹ thuật phần mềm hàng đầu ngành
Phiên bản cập nhật của Claude 3.5 Sonnet cho thấy những cải tiến rộng rãi trên các tiêu chuẩn ngành, đặc biệt là những tiến bộ vượt trội trong mã hóa tác nhân và các tác vụ sử dụng công cụ. Về mã hóa, hiệu suất trên SWE-bench Verified đã tăng từ 33.4% lên 49.0%, đạt điểm cao hơn tất cả các mô hình có sẵn công khai – bao gồm cả các mô hình suy luận như OpenAI o1-preview và các hệ thống chuyên dụng được thiết kế cho mã hóa tác nhân. Nó cũng cải thiện hiệu suất trên TAU-bench, một tác vụ sử dụng công cụ tác nhân, từ 62.6% lên 69.2% trong lĩnh vực bán lẻ, và từ 36.0% lên 46.0% trong lĩnh vực hàng không đầy thách thức hơn. Claude 3.5 Sonnet mới mang đến những tiến bộ này với cùng mức giá và tốc độ như phiên bản tiền nhiệm.
Phản hồi sớm từ khách hàng cho thấy Claude 3.5 Sonnet nâng cấp đại diện cho một bước nhảy vọt đáng kể đối với việc viết mã bằng AI. GitLab, đơn vị đã thử nghiệm mô hình cho các tác vụ DevSecOps, nhận thấy nó mang lại khả năng suy luận mạnh mẽ hơn (tăng tới 10% trên các trường hợp sử dụng) mà không tăng độ trễ, làm cho nó trở thành lựa chọn lý tưởng để cung cấp sức mạnh cho các quy trình phát triển phần mềm nhiều bước. Cognition sử dụng Claude 3.5 Sonnet mới để đánh giá AI tự động và đã trải nghiệm những cải tiến đáng kể về mã hóa, lập kế hoạch và giải quyết vấn đề so với phiên bản trước. The Browser Company, khi sử dụng mô hình để tự động hóa quy trình làm việc trên web, đã lưu ý rằng Claude 3.5 Sonnet vượt trội hơn mọi mô hình mà họ đã từng thử nghiệm trước đây.
Là một phần trong nỗ lực tiếp tục hợp tác với các chuyên gia bên ngoài, việc thử nghiệm chung trước khi triển khai mô hình Claude 3.5 Sonnet mới đã được Viện An toàn AI Hoa Kỳ (US AISI) và Viện An toàn Vương quốc Anh (UK AISI) thực hiện.
Chúng tôi cũng đã đánh giá Claude 3.5 Sonnet về các rủi ro thảm khốc và nhận thấy rằng Tiêu chuẩn ASL-2, như được nêu trong Chính sách Mở rộng Trách nhiệm của chúng tôi, vẫn phù hợp với mô hình này.
Claude 3.5 Haiku: Đỉnh cao công nghệ kết hợp với giá cả phải chăng và tốc độ
Claude 3.5 Haiku là thế hệ tiếp theo của mô hình nhanh nhất của chúng tôi. Với tốc độ tương đương Claude 3 Haiku, Claude 3.5 Haiku cải thiện trên mọi bộ kỹ năng và vượt trội hơn cả Claude 3 Opus, mô hình lớn nhất của thế hệ trước, trên nhiều tiêu chuẩn trí tuệ. Claude 3.5 Haiku đặc biệt mạnh mẽ trong các tác vụ mã hóa. Ví dụ, nó đạt 40.6% trên SWE-bench Verified, vượt trội hơn nhiều tác nhân sử dụng các mô hình tiên tiến có sẵn công khai – bao gồm cả Claude 3.5 Sonnet gốc và GPT-4o.
Với độ trễ thấp, khả năng tuân theo hướng dẫn được cải thiện và sử dụng công cụ chính xác hơn, Claude 3.5 Haiku rất phù hợp cho các sản phẩm hướng tới người dùng, các tác vụ phụ trợ chuyên biệt và tạo ra trải nghiệm cá nhân hóa từ khối lượng dữ liệu khổng lồ – như lịch sử mua hàng, giá cả hoặc hồ sơ tồn kho.
Claude 3.5 Haiku sẽ được cung cấp vào cuối tháng này trên API của chúng tôi, Amazon Bedrock và Google Cloud’s Vertex AI – ban đầu chỉ hỗ trợ văn bản và sau đó sẽ có thêm đầu vào hình ảnh.
Dạy Claude điều hướng máy tính, có trách nhiệm
Với tính năng sử dụng máy tính, chúng tôi đang thử nghiệm một điều hoàn toàn mới. Thay vì tạo ra các công cụ cụ thể để giúp Claude hoàn thành từng tác vụ riêng lẻ, chúng tôi đang dạy nó các kỹ năng máy tính tổng quát – cho phép nó sử dụng nhiều công cụ và chương trình phần mềm tiêu chuẩn được thiết kế cho con người. Các nhà phát triển có thể sử dụng khả năng mới này để tự động hóa các quy trình lặp đi lặp lại, xây dựng và kiểm thử phần mềm, và thực hiện các tác vụ mở như nghiên cứu.
Để thực hiện các kỹ năng tổng quát này, chúng tôi đã xây dựng một API cho phép Claude nhận thức và tương tác với giao diện máy tính. Các nhà phát triển có thể tích hợp API này để cho phép Claude dịch các hướng dẫn (ví dụ: “sử dụng dữ liệu từ máy tính của tôi và trực tuyến để điền vào biểu mẫu này”) thành các lệnh máy tính (ví dụ: kiểm tra bảng tính; di chuyển con trỏ để mở trình duyệt web; điều hướng đến các trang web liên quan; điền vào biểu mẫu với dữ liệu từ các trang đó; v.v.). Trên OSWorld, một nền tảng đánh giá khả năng sử dụng máy tính của các mô hình AI giống như con người, Claude 3.5 Sonnet đạt 14.9% ở hạng mục chỉ dùng ảnh chụp màn hình – tốt hơn đáng kể so với điểm 7.8% của hệ thống AI tốt thứ hai. Khi được cung cấp nhiều bước hơn để hoàn thành tác vụ, Claude đạt 22.0%.
Mặc dù chúng tôi kỳ vọng khả năng này sẽ nhanh chóng được cải thiện trong những tháng tới, khả năng sử dụng máy tính hiện tại của Claude vẫn chưa hoàn hảo. Một số hành động mà con người thực hiện dễ dàng – cuộn, kéo, thu phóng – hiện đang là thách thức đối với Claude và chúng tôi khuyến khích các nhà phát triển bắt đầu khám phá với các tác vụ rủi ro thấp. Bởi vì việc sử dụng máy tính có thể cung cấp một vectơ mới cho các mối đe dọa quen thuộc hơn như thư rác, thông tin sai lệch hoặc gian lận, chúng tôi đang áp dụng một cách tiếp cận chủ động để thúc đẩy việc triển khai an toàn. Chúng tôi đã phát triển các bộ phân loại mới có thể xác định khi nào tính năng sử dụng máy tính đang được sử dụng và liệu có xảy ra sự cố hay không. Bạn có thể đọc thêm về quy trình nghiên cứu đằng sau kỹ năng mới này, cùng với các thảo luận sâu hơn về các biện pháp an toàn, trong bài viết của chúng tôi về phát triển khả năng sử dụng máy tính.
Hướng tới tương lai
Việc học hỏi từ các lần triển khai ban đầu của công nghệ này, vốn vẫn đang ở giai đoạn sơ khai nhất, sẽ giúp chúng tôi hiểu rõ hơn cả tiềm năng và những tác động của các hệ thống AI ngày càng có năng lực.
Chúng tôi rất vui mừng khi bạn khám phá các mô hình mới của chúng tôi và bản beta công khai của tính năng sử dụng máy tính – và chào mừng bạn chia sẻ phản hồi của bạn với chúng tôi. Chúng tôi tin rằng những phát triển này sẽ mở ra những khả năng mới về cách bạn làm việc với Claude, và chúng tôi mong chờ được thấy những gì bạn sẽ tạo ra.
Link bài viết gốc
- Tags:
- Ai
- Oct 22, 2024
- Www.anthropic.com