Chỉ số Kinh tế Anthropic- Thông tin chi tiết từ Claude 3.7 Sonnet

Chỉ số Kinh tế Anthropic mới nhất cung cấp thông tin chi tiết có giá trị dựa trên khả năng của Claude 3.7 Sonnet, tập trung vào các xu hướng kinh tế.

  • 12 min read
Chỉ số Kinh tế Anthropic- Thông tin chi tiết từ Claude 3.7 Sonnet
Chỉ số Kinh tế Anthropic mới nhất cung cấp thông tin chi tiết có giá trị dựa trên khả năng của Claude 3.7 Sonnet, tập trung vào các xu hướng kinh tế.

Chỉ số Kinh tế Anthropic: Cái nhìn sâu sắc từ Claude 3.7 Sonnet

Tháng trước, chúng tôi đã ra mắt Chỉ số Kinh tế Anthropic – một sáng kiến mới, nơi chúng tôi thường xuyên công bố dữ liệu và nghiên cứu nhằm tìm hiểu tác động của AI đối với thị trường lao động và nền kinh tế theo thời gian.

Hôm nay, chúng tôi công bố báo cáo nghiên cứu thứ hai từ Chỉ số này, bao gồm dữ liệu sử dụng trên Claude.ai sau khi ra mắt Claude 3.7 Sonnet – mô hình mới nhất và mạnh mẽ nhất của chúng tôi, với điểm mạnh về viết mã theo dạng tác tử và chế độ “suy nghĩ mở rộng” mới.

Tóm tắt, những kết quả mới nhất của chúng tôi như sau:

  • Kể từ khi ra mắt Claude 3.7 Sonnet, chúng tôi đã quan sát thấy sự gia tăng tỷ lệ sử dụng cho các ứng dụng lập trình, giáo dục, khoa học và y tế.
  • Mọi người chủ yếu sử dụng chế độ “suy nghĩ mở rộng” mới của Claude 3.7 Sonnet cho các tác vụ kỹ thuật, bao gồm cả những tác vụ liên quan đến các ngành nghề như nhà nghiên cứu khoa học máy tính, nhà phát triển phần mềm, họa sĩ hoạt hình đa phương tiện và nhà thiết kế trò chơi điện tử.
  • Chúng tôi đang công bố dữ liệu về sự phân chia giữa hỗ trợ và tự động hóa ở cấp độ tác vụ và ngành nghề. Ví dụ, các tác vụ liên quan đến người viết quảng cáo và biên tập viên cho thấy lượng lặp lại tác vụ cao nhất, nơi con người và mô hình cùng nhau sáng tạo ra một nội dung. Ngược lại, các tác vụ liên quan đến người dịch thuật và phiên dịch lại cho thấy lượng hành vi mang tính chỉ đạo cao nhất – nơi mô hình hoàn thành tác vụ với sự tham gia tối thiểu của con người.

Ngoài ra, chúng tôi đang công bố một hệ thống phân loại (taxonomy) chi tiết đầu tiên về cách sử dụng trên Claude.ai. Bộ dữ liệu mới này bao gồm 630 danh mục chi tiết, từ “Hỗ trợ giải quyết các vấn đề về hệ thống cấp thoát nước, nước và bảo trì nhà cửa” đến “Cung cấp hướng dẫn về công nghệ pin và hệ thống sạc”. Chúng tôi hy vọng hệ thống phân loại chi tiết này sẽ hữu ích cho các nhà nghiên cứu và làm sáng tỏ các trường hợp sử dụng có thể bị bỏ qua bởi các phương pháp tiếp cận từ trên xuống, vốn ánh xạ việc sử dụng vào một danh sách các tác vụ được xác định trước.

Các bộ dữ liệu cho những phân tích này có sẵn để tải về miễn phí.

Hãy đọc tiếp để biết thêm chi tiết về những phát hiện của chúng tôi.

Tháng trước, chúng tôi đã giới thiệu Claude 3.7 Sonnet, mô hình mạnh mẽ nhất của chúng tôi với “chế độ suy nghĩ mở rộng”. Chúng tôi đã chạy lại phân tích trước đây của mình trên dữ liệu trong 11 ngày sau khi ra mắt, bao gồm 1 triệu cuộc trò chuyện ẩn danh trên Claude.ai Miễn phí và Pro. Phần lớn dữ liệu chúng tôi phân tích là từ Claude 3.7 Sonnet, vì nó là mặc định trên Claude.ai và ứng dụng di động của chúng tôi.

Xin nhắc lại, công cụ phân tích bảo vệ quyền riêng tư của chúng tôi, Clio, ánh xạ mỗi cuộc trò chuyện tới một trong 17.000 tác vụ trong cơ sở dữ liệu O*NET của Bộ Lao động Hoa Kỳ. Sau đó, chúng tôi xem xét các mẫu tổng thể về ngành nghề và các danh mục ngành nghề cấp cao liên quan đến các tác vụ đó.

Khi xem xét phân tích 1 triệu cuộc trò chuyện này, chúng tôi thấy rằng tỷ lệ sử dụng trong một số danh mục ngành nghề đã tăng nhẹ, bao gồm lập trình, giáo dục và khoa học. Mặc dù mức tăng sử dụng lập trình này là dự kiến do Claude 3.7 Sonnet có điểm số cao hơn trên các tiêu chí đo lường lập trình, sự gia tăng trong các danh mục khác có thể phản ánh sự lan rộng liên tục của AI trong nền kinh tế, các ứng dụng mới của lập trình vào các lĩnh vực đó, hoặc những cải thiện khả năng bất ngờ của mô hình.

Claude 3.7 Sonnet có chế độ “suy nghĩ mở rộng” mới, khi được người dùng kích hoạt, cho phép mô hình suy nghĩ lâu hơn khi trả lời các câu hỏi phức tạp hơn.

Phân tích của chúng tôi tiết lộ rằng chế độ suy nghĩ mở rộng của Claude 3.7 Sonnet chủ yếu được sử dụng trong các bối cảnh giải quyết vấn đề kỹ thuật và sáng tạo. Các tác vụ liên quan đến nhà nghiên cứu máy tính và thông tin dẫn đầu với gần 10% sử dụng suy nghĩ mở rộng, tiếp theo là các nhà phát triển phần mềm với khoảng 8%. Các tác vụ liên quan đến các vai trò sáng tạo kỹ thuật số như nghệ sĩ đa phương tiện (~7%) và nhà thiết kế trò chơi điện tử (~6%) cũng cho thấy mức sử dụng đáng kể.

Mặc dù các mẫu sử dụng ban đầu này làm sáng tỏ thời điểm mọi người chọn sử dụng chế độ suy nghĩ mở rộng, vẫn còn nhiều câu hỏi quan trọng về khả năng mới này của mô hình. Để cho phép nghiên cứu sâu hơn trong lĩnh vực này, chúng tôi đang công bố một bộ dữ liệu mới ánh xạ mỗi tác vụ O*NET với tỷ lệ suy nghĩ mở rộng tương ứng của nó. Bộ dữ liệu này có sẵn trên trang Hugging Face của chúng tôi.

Trong báo cáo cuối cùng, chúng tôi đã phân tích cách sử dụng AI thay đổi giữa các mục đích hỗ trợ (như học tập hoặc lặp lại kết quả) và mục đích tự động hóa (như yêu cầu mô hình hoàn thành tác vụ trực tiếp hoặc gỡ lỗi). Phân tích của chúng tôi cho thấy sự cân bằng giữa hỗ trợ và tự động hóa hầu như không thay đổi trong dữ liệu mới của chúng tôi, với hỗ trợ vẫn chiếm 57% mức sử dụng. Tuy nhiên, chúng tôi đã thấy một số thay đổi về loại hình thức tự động hóa và hỗ trợ – ví dụ, chúng tôi thấy các tương tác học tập, nơi người dùng hỏi Claude để biết thông tin hoặc giải thích về các chủ đề khác nhau, đã tăng từ ~23% lên ~28%.

Chúng tôi đã nhận được nhiều yêu cầu thông qua biểu mẫu phản hồi của nhà nghiên cứu để công bố dữ liệu tự động hóa và hỗ trợ ở cấp độ tác vụ và ngành nghề. Chúng tôi đã thực hiện điều này trong báo cáo này, cung cấp dữ liệu này trên trang Hugging Face của chúng tôi.

Khi chia dữ liệu theo các danh mục ngành nghề cấp cao, chúng tôi thấy một số danh mục có tính hỗ trợ cao; ví dụ, các tác vụ Dịch vụ Cộng đồng và Xã hội, bao gồm giáo dục và tư vấn hướng nghiệp, đạt gần 75% hỗ trợ. Ở đầu kia của phạm vi, các tác vụ liên quan đến sản xuất hoặc các ngành nghề máy tính và toán học, chúng tôi thấy sự cân bằng nghiêng về tỷ lệ 50-50%. Chúng tôi không thấy bất kỳ danh mục ngành nghề nào mà tự động hóa chiếm ưu thế.

Đi sâu hơn, chúng ta cũng có thể xem xét các ngành nghề cụ thể trong các danh mục ngành nghề này, cũng như các tác vụ liên quan đến ngành nghề đó. Ví dụ, các tác vụ liên quan đến người viết quảng cáo và biên tập viên cho thấy lượng lặp lại tác vụ cao nhất, nơi người dùng lặp lại các tác vụ viết và chỉnh sửa khác nhau với mô hình. Ngược lại, các tác vụ liên quan đến Biên phiên dịch cho thấy lượng hành vi mang tính chỉ đạo cao nhất – nơi mô hình được sử dụng để dịch tài liệu với sự tham gia tối thiểu của con người. Lưu ý rằng mô tả O*NET có thể không đại diện tối ưu cho những gì Claude đang được sử dụng – ví dụ, mặc dù chúng ta thấy việc sử dụng trong ngành nghề “nghệ sĩ mỹ thuật, bao gồm họa sĩ, nhà điêu khắc và thợ khắc”, Claude có lẽ được sử dụng nhiều hơn cho việc tạo nghệ thuật kỹ thuật số hơn là vẽ hoặc điêu khắc.

Nghiên cứu của chúng tôi cho đến nay dựa trên bộ dữ liệu ONET về các tác vụ và ngành nghề, được tạo ra và duy trì bởi Bộ Lao động Hoa Kỳ. Mặc dù ONET bao gồm một số lượng lớn các tác vụ, ONET có thể không phải là hệ thống phân loại tốt nhất để mô tả khả năng của các mô hình đa năng có thể được sử dụng cho các tác vụ không có trong ONET – và do đó có thể bị bỏ qua trong phân tích của chúng tôi.

Để giải quyết khoảng trống này, chúng tôi đang công bố một bộ dữ liệu mới từ dưới lên về các mẫu hoạt động của người dùng trên Claude.ai. Bộ dữ liệu này cũng được tạo ra bằng Clio và sử dụng cùng một bộ dữ liệu về các cuộc trò chuyện ẩn danh được sử dụng cho phân tích trên, có nghĩa là nó cho phép so sánh giữa các phương pháp tiếp cận từ trên xuống và từ dưới lên. Nó bao gồm 630 cụm chi tiết, với mô tả liên quan, chỉ số phổ biến và phân tích tự động hóa/hỗ trợ, được tổ chức thành ba cấp độ phân cấp.

Mặc dù chúng tôi sẽ để lại việc phân tích chi tiết bộ dữ liệu này cho các công việc trong tương lai, chúng tôi làm nổi bật một vài cụm đặc biệt thú vị:

  • Hỗ trợ các hệ thống quản lý nước và các dự án cơ sở hạ tầng
  • Tạo các mô phỏng dựa trên vật lý với khả năng trực quan hóa tương tác
  • Giúp tôi chọn, triển khai và khắc phục sự cố phông chữ
  • Giúp tôi tạo hoặc cải thiện tài liệu xin việc
  • Cung cấp hướng dẫn về công nghệ pin và hệ thống sạc
  • Hỗ trợ xử lý múi giờ trong mã và cơ sở dữ liệu

Khi các mô hình tiếp tục tiến bộ, thước đo về tác động kinh tế của chúng cũng phải vậy. Trong báo cáo thứ hai của chúng tôi, bao gồm dữ liệu kể từ khi ra mắt Claude 3.7 Sonnet, chúng tôi tìm thấy mức tăng tương đối khiêm tốn trong các trường hợp sử dụng lập trình, giáo dục và khoa học, và không có thay đổi nào về sự cân bằng giữa hỗ trợ và tự động hóa. Chúng tôi nhận thấy rằng chế độ suy nghĩ mở rộng mới của Claude được sử dụng thường xuyên nhất trong các lĩnh vực và tác vụ kỹ thuật, và xác định các mẫu trong các mẫu tự động hóa/hỗ trợ trên các tác vụ và ngành nghề. Chúng tôi công bố bộ dữ liệu cho cả hai phân tích này.

Trong những tháng tới, chúng tôi dự định tiếp tục theo dõi các chỉ số này và phát triển các chỉ số mới khi khả năng của mô hình tiếp tục cải thiện và được áp dụng rộng rãi hơn trong nền kinh tế.

Nếu bạn quan tâm đến việc làm việc tại Anthropic để nghiên cứu tác động của AI đối với thị trường lao động, chúng tôi khuyến khích bạn ứng tuyển vào các vị trí Nhà khoa học Nghiên cứu Tác động Xã hội và Kỹ sư Nghiên cứu, cũng như vị trí Kinh tế học của chúng tôi.

Chúng tôi chia sẻ một vài kết quả bổ sung và chi tiết kỹ thuật trong phụ lục này.

Chúng tôi cũng tính toán lại biểu đồ “độ sâu sử dụng tác vụ” từ bài báo gốc của chúng tôi. Chúng tôi nhận thấy đường cong nói chung rất giống với phân tích đầu tiên của chúng tôi. Nếu có thì chúng tôi thấy diện tích dưới đường cong hơi nhỏ hơn đối với mô hình mới hơn – có lẽ do sự tập trung gia tăng trong mẫu cuộc trò chuyện của chúng tôi hướng tới lập trình. Tuy nhiên, mặc dù chúng tôi chưa thấy sự thay đổi đáng kể nào về đường cong này trong hai tháng qua, chúng tôi sẽ tiếp tục theo dõi khi khả năng của mô hình và các bề mặt sản phẩm tiếp tục phát triển.

Mặc dù chúng tôi chủ yếu tuân theo phương pháp luận của báo cáo ban đầu, chúng tôi có một vài thay đổi mà chúng tôi ghi lại ở đây để minh bạch:

  • Trái với báo cáo cuối cùng của chúng tôi, chúng tôi không lọc dựa trên việc các cuộc trò chuyện có liên quan đến một danh mục ngành nghề hay không. Thay vào đó, chúng tôi chỉ lọc ra các cuộc trò chuyện đã bị gắn cờ bởi bộ phân loại an toàn của chúng tôi. Chúng tôi thấy rằng các phương pháp này dẫn đến kết quả tương tự như phân tích ban đầu của chúng tôi, đồng thời bảo toàn nhiều dữ liệu hơn mà chúng tôi có thể công bố thông qua hệ thống phân loại chi tiết từ dưới lên về việc sử dụng của chúng tôi.
  • Chúng tôi sử dụng Claude 3.7 Sonnet thay cho tất cả các trường hợp chúng tôi đã sử dụng Claude 3.5 Sonnet trước đây. Chúng tôi nhận thấy rằng việc sử dụng mô hình mới hơn của chúng tôi đã tăng độ chính xác của phân loại theo các tiêu chí đo lường nội bộ mà chúng tôi sử dụng để đánh giá độ chính xác của Clio.

Recommended for You

Truy tìm suy nghĩ của một mô hình ngôn ngữ lớn

Nghiên cứu về khả năng diễn giải của các mô hình ngôn ngữ lớn, cố gắng hiểu rõ hơn về 'suy nghĩ' bên trong của chúng.

Anthropic Ký cam kết của Nhà Trắng với Thanh niên Hoa Kỳ- Đầu tư vào Giáo dục AI

Anthropic Ký cam kết của Nhà Trắng với Thanh niên Hoa Kỳ- Đầu tư vào Giáo dục AI

Anthropic tham gia cùng Nhà Trắng và các tổ chức khác trong cam kết đầu tư vào giáo dục AI cho giới trẻ Mỹ, thúc đẩy tương lai của lực lượng lao động.