Qwen3 Embedding- Cải thiện khả năng Embedding văn bản và Reranking thông qua các mô hình nền tảng
Chúng tôi phát hành dòng Qwen3 Embedding, một mô hình độc quyền mới của họ mô hình Qwen. Các mô hình này được thiết kế đặc biệt cho các tác vụ embedding văn bản, truy xuất và reranking, được xây dựng trên mô hình nền tảng Qwen3. Tận dụng khả năng hiểu văn bản đa ngôn ngữ mạnh mẽ của Qwen3, dòng sản phẩm này đạt được hiệu suất hiện đại trên nhiều tiêu chuẩn cho các tác vụ embedding văn bản và reranking. Chúng tôi đã mở mã nguồn cho dòng mô hình embedding văn bản và reranking này theo Apache 2....
- 6 min read
Qwen3 Embedding: Nâng Cao Khả Năng Embedding Văn Bản và Xếp Hạng Lại Thông Qua Các Mô Hình Nền Tảng
GITHUB HUGGING FACE MODELSCOPE DISCORD
Chúng tôi phát hành Qwen3 Embedding series, một mô hình độc quyền mới của dòng mô hình Qwen. Các mô hình này được thiết kế đặc biệt cho các tác vụ embedding văn bản, truy xuất và xếp hạng lại, được xây dựng trên mô hình nền tảng Qwen3. Tận dụng khả năng hiểu văn bản đa ngôn ngữ mạnh mẽ của Qwen3, dòng mô hình này đạt được hiệu suất vượt trội trên nhiều tiêu chuẩn đánh giá cho các tác vụ embedding văn bản và xếp hạng lại. Chúng tôi đã mở mã nguồn dòng mô hình embedding văn bản và xếp hạng lại này theo giấy phép Apache 2.0 trên Hugging Face và ModelScope, đồng thời công bố báo cáo kỹ thuật và mã liên quan trên GitHub.
Kết quả đánh giá cho các mô hình xếp hạng lại
| Mô hình | Param | MTEB-R | CMTEB-R | MMTEB-R | MLDR | MTEB-Code | FollowIR |
|---|---|---|---|---|---|---|---|
| Qwen3-Embedding-0.6B | 0.6B | 61.82 | 71.02 | 64.64 | 50.26 | 75.41 | 5.09 |
| Jina-multilingual-reranker-v2-base | 0.3B | 58.22 | 63.37 | 63.73 | 39.66 | 58.98 | -0.68 |
| gte-multilingual-reranker-base | 0.3B | 59.51 | 74.08 | 59.44 | 66.33 | 54.18 | -1.64 |
| BGE-reranker-v2-m3 | 0.6B | 57.03 | 72.16 | 58.36 | 59.51 | 41.38 | -0.01 |
| Qwen3-Reranker-0.6B | 0.6B | 65.80 | 71.31 | 66.36 | 67.28 | 73.42 | 5.41 |
| Qwen3-Reranker-4B | 4B | 69.76 | 75.94 | 72.74 | 69.97 | 81.20 | 14.84 |
| Qwen3-Reranker-8B | 8B | 69.02 | 77.45 | 72.94 | 70.19 | 81.22 | 8.05 |
Lưu ý:
- Chúng tôi sử dụng các tập con truy xuất văn bản của MTEB(eng, v2), MTEB(cmn, v1), MTEB (Đa ngôn ngữ) và MTEB (Code), được ký hiệu là MTEB-R, CMTEB-R, MMTEB-R và MTEB-Code.
- Tất cả các điểm số đều là kết quả chạy của chúng tôi dựa trên 100 ứng viên hàng đầu được truy xuất bởi mô hình embedding dày đặc Qwen3-Embedding-0.6B.
Các tính năng chính:
Tính linh hoạt vượt trội: Mô hình embedding đã đạt được hiệu suất vượt trội trên một loạt các đánh giá ứng dụng hạ nguồn. Mô hình embedding kích thước 8B xếp thứ 1 trong bảng xếp hạng đa ngôn ngữ MTEB (tính đến ngày 5 tháng 6 năm 2025, điểm 70.58). Các mô hình xếp hạng lại vượt trội trong các tình huống truy xuất văn bản, cải thiện đáng kể mức độ liên quan của tìm kiếm.
Tính linh hoạt toàn diện: Dòng Qwen3 Embedding cung cấp một loạt các kích thước đa dạng (từ 0.6B đến 8B) cho cả mô hình embedding và xếp hạng lại, phục vụ cho nhiều trường hợp sử dụng khác nhau ưu tiên tính hiệu quả và hiệu suất. Các nhà phát triển có thể kết hợp liền mạch hai mô-đun này. Ngoài ra, mô hình embedding cho phép định nghĩa vector linh hoạt trên tất cả các chiều và cả mô hình embedding và xếp hạng lại đều hỗ trợ các hướng dẫn do người dùng xác định để nâng cao hiệu suất cho các tác vụ, ngôn ngữ hoặc tình huống cụ thể.
Khả năng đa ngôn ngữ: Dòng Qwen3 Embedding hỗ trợ hơn 100 ngôn ngữ, bao gồm nhiều ngôn ngữ lập trình khác nhau và cung cấp khả năng truy xuất mã, đa ngôn ngữ và liên ngôn ngữ mạnh mẽ.
Tổng quan về mô hình:
| Loại mô hình | Mô hình | Kích thước | Số lớp | Độ dài chuỗi | Kích thước Embedding | Hỗ trợ MRL | Nhận biết hướng dẫn |
|---|---|---|---|---|---|---|---|
| Embedding văn bản | Qwen3-Embedding-0.6B | 0.6B | 28 | 32K | 1024 | Có | Có |
| Qwen3-Embedding-4B | 4B | 36 | 32K | 2560 | Có | Có | |
| Qwen3-Embedding-8B | 8B | 36 | 32K | 4096 | Có | Có | |
| Xếp hạng lại văn bản | Qwen3-Reranker-0.6B | 0.6B | 28 | 32K | - | - | Có |
| Qwen3-Reranker-4B | 4B | 36 | 32K | - | - | Có | |
| Qwen3-Reranker-8B | 8B | 36 | 32K | - | - | Có |
Lưu ý: “Hỗ trợ MRL” cho biết liệu mô hình embedding có hỗ trợ các chiều tùy chỉnh cho embedding cuối cùng hay không. “Nhận biết hướng dẫn” lưu ý liệu mô hình embedding hoặc xếp hạng lại có hỗ trợ tùy chỉnh hướng dẫn đầu vào theo các tác vụ khác nhau hay không.
Kiến trúc mô hình
Dựa trên mô hình nền tảng Qwen3, các mô hình Embedding và Reranking của chúng tôi được thiết kế bằng kiến trúc dual-encoder và cross-encoder. Thông qua tinh chỉnh LoRA, chúng tôi mong muốn bảo toàn và nâng cao đầy đủ khả năng hiểu văn bản của mô hình cơ sở. Mô hình Embedding xử lý một đoạn văn bản duy nhất làm đầu vào, trích xuất biểu diễn ngữ nghĩa bằng cách sử dụng vector trạng thái ẩn tương ứng với mã thông báo [EOS] cuối cùng. Ngược lại, mô hình Reranking lấy các cặp văn bản (chẳng hạn như truy vấn của người dùng và tài liệu ứng viên) làm đầu vào, tính toán và xuất ra điểm liên quan giữa các cặp bằng cấu trúc cross-encoder.
Đào tạo mô hình
Khung đào tạo cho dòng Qwen3 Embedding tuân theo mô hình đào tạo đa giai đoạn được thiết lập bởi dòng GTE-Qwen. Trong quá trình đào tạo mô hình Embedding, chúng tôi đã triển khai cấu trúc đào tạo ba giai đoạn: giai đoạn đầu tiên liên quan đến đào tạo trước tương phản với một lượng lớn dữ liệu được giám sát yếu; giai đoạn thứ hai tập trung vào đào tạo có giám sát bằng cách sử dụng dữ liệu được gắn nhãn chất lượng cao; và giai đoạn cuối cùng tích hợp nhiều mô hình ứng viên thông qua chiến lược hợp nhất để nâng cao hiệu suất tổng thể. Cơ chế đào tạo theo giai đoạn này cân bằng hiệu quả khả năng khái quát hóa và khả năng thích ứng tác vụ của mô hình. Đối với mô hình Reranking, dựa trên kết quả xác thực thực nghiệm, chúng tôi đã trực tiếp sử dụng dữ liệu được gắn nhãn chất lượng cao để đào tạo có giám sát, cải thiện đáng kể hiệu quả đào tạo. Đáng chú ý, trong giai đoạn đầu tiên của quá trình đào tạo được giám sát yếu cho mô hình Embedding, chúng tôi đã phát triển một hệ thống lời nhắc thích ứng đa tác vụ sáng tạo. Bằng cách tận dụng khả năng tạo văn bản của mô hình nền tảng Qwen3, chúng tôi đã tạo động các cặp văn bản được giám sát yếu phù hợp với các loại tác vụ và ngôn ngữ khác nhau. Cách tiếp cận này đã giải quyết những hạn chế của các phương pháp truyền thống, thường dựa vào diễn đàn cộng đồng hoặc dữ liệu nguồn mở để thu thập cặp liên quan văn bản, tạo điều kiện thuận lợi cho việc tạo ra dữ liệu được giám sát yếu quy mô lớn một cách hiệu quả.
Công việc tương lai
Các mô hình Qwen3 Embedding series thể hiện một điểm khởi đầu mới. Thông qua việc tối ưu hóa liên tục mô hình nền tảng Qwen, chúng tôi sẽ nâng cao hiệu quả đào tạo của các mô hình embedding văn bản và xếp hạng lại, từ đó cải thiện hiệu suất triển khai trong các tình huống khác nhau. Ngoài ra, chúng tôi dự định mở rộng hệ thống biểu diễn đa phương thức của mình để thiết lập khả năng hiểu ngữ nghĩa đa phương thức. Chúng tôi mong muốn được thấy nhiều nhà phát triển khám phá một loạt các tình huống rộng hơn dựa trên Qwen3 Embedding series, thúc đẩy các ứng dụng sâu hơn của mô hình trong các bối cảnh đa dạng.
Link bài viết gốc
- Tags:
- Ai
- June 5, 2025
- Qwenlm.github.io