Oct 30, 2024

Nâng cao tiêu chuẩn cho SWE-bench được xác minh với Claude 3.5 Sonnet

Anthropic giới thiệu cách Claude 3.5 Sonnet được sử dụng để xác minh SWE-bench, nâng cao tiêu chuẩn cho việc đánh giá hiệu suất mô hình.