Nov 10, 2025 Nâng cao tiêu chuẩn cho SWE-bench được xác minh với Claude 3.5 Sonnet Anthropic giới thiệu cách Claude 3.5 Sonnet được sử dụng để xác minh SWE-bench, nâng cao tiêu chuẩn cho việc đánh giá hiệu suất mô hình.