Nemotron ColEmbed V2- Nâng cao khả năng truy xuất đa phương thức với mô hình hàng đầu của ViDoRe V3

Nemotron ColEmbed V2- Nâng cao khả năng truy xuất đa phương thức với mô hình hàng đầu của ViDoRe V3

  • 8 min read
Nemotron ColEmbed V2- Nâng cao khả năng truy xuất đa phương thức với mô hình hàng đầu của ViDoRe V3
Nemotron ColEmbed V2- Nâng cao khả năng truy xuất đa phương thức với mô hình hàng đầu của ViDoRe V3

Nemotron ColEmbed V2: Nâng tầm khả năng truy xuất đa phương thức với mô hình hàng đầu của ViDoRe V3

Các hệ thống tìm kiếm hiện đại ngày càng được thiết kế để xử lý hình ảnh tài liệu đa dạng, có thể chứa văn bản, bảng biểu, biểu đồ, hình vẽ và các thành phần trực quan khác. Trong bối cảnh này, việc truy xuất chính xác thông tin liên quan trên các phương thức khác nhau là một thách thức trung tâm. Các mô hình nhúng đa phương thức được xây dựng trên nền tảng các mô hình thị giác-ngôn ngữ (VLM) ánh xạ các loại nội dung đa dạng vào một không gian biểu diễn chung, cho phép truy xuất thống nhất qua văn bản, hình ảnh và các yếu tố trực quan có cấu trúc. Mặc dù việc mã hóa toàn bộ truy vấn và tài liệu ứng viên thành một vector duy nhất là một thực hành phổ biến—được minh chứng bởi mô hình Llama-Nemotron-Embed-VL-1B thương mại sắp ra mắt của chúng tôi, ưu tiên hiệu quả và dung lượng lưu trữ thấp—nhưng có một hướng nghiên cứu ngày càng tăng về các kiến trúc nhúng tương tác muộn, đa vector, cho phép tương tác đa vector chi tiết hơn giữa truy vấn và tài liệu. Bằng cách cho phép biểu diễn token phong phú hơn, các mô hình này nắm bắt tốt hơn các mối quan hệ ngữ nghĩa chi tiết và đã thể hiện hiệu suất chính xác cao trên nhiều tiêu chuẩn (đa phương thức).

NVIDIA giới thiệu dòng Nemotron ColEmbed V2, một bộ các mô hình nhúng tương tác muộn có ba kích thước—3B, 4B và 8B—được thiết kế cho khả năng truy xuất đa phương thức có độ chính xác cao. Các mô hình này áp dụng một cách tiếp cận thống nhất cho truy xuất văn bản-hình ảnh và đạt được hiệu suất tiên tiến trên các tiêu chuẩn ViDoRe V1, V2 và V3.

Nemotron ColEmbed V2 Nổi bật (Tóm tắt nhanh)

Các mô hình nemotron-colembed-vl-8b-v2, nemotron-colembed-vl-4b-v2llama-nemotron-colembed-vl-3b-v2 là các mô hình nhúng tương tác muộn tiên tiến, xếp hạng 1, 3 và 6—các mô hình xếp hạng cao nhất trong từng hạng cân, tính đến ngày 3 tháng 2 năm 2026, trên tiêu chuẩn ViDoRe V3: một đánh giá toàn diện về truy xuất tài liệu trực quan cho các trường hợp sử dụng doanh nghiệp.

Cơ chế tương tác muộn được giới thiệu bởi ColBERT để khớp nhúng đa vector đã được mở rộng trong công trình của chúng tôi sang bối cảnh đa phương thức, cho phép tương tác chi tiết giữa các token truy vấn và tài liệu, cho dù là văn bản hay hình ảnh. Như minh họa trong hình, mỗi embedding token truy vấn tương tác với tất cả các embedding token tài liệu thông qua toán tử MaxSim, toán tử này chọn ra độ tương đồng tối đa cho mỗi token truy vấn, sau đó tính tổng các giá trị tối đa này để tạo ra điểm số liên quan cuối cùng. Cách tiếp cận này yêu cầu lưu trữ các embedding token cho toàn bộ kho tài liệu, cho dù là văn bản hay hình ảnh, do đó làm tăng yêu cầu lưu trữ. Trong quá trình suy luận, các embedding token truy vấn được tính toán và khớp với các embedding tài liệu được lưu trữ bằng cùng một thao tác MaxSim.

Dòng mô hình Nemotron ColEmbed V2 nhắm đến các nhà nghiên cứu đang khám phá các ứng dụng truy xuất tài liệu trực quan nơi độ chính xác là tối quan trọng. Điều này phân biệt nó với mô hình đơn vector 1B của chúng tôi được phát hành tháng trước, mô hình được thiết kế cho môi trường thương mại yêu cầu dung lượng lưu trữ tối thiểu và thông lượng cao. Nó đóng vai trò quan trọng trong các hệ thống RAG đa phương thức, nơi các truy vấn văn bản có thể được sử dụng để truy xuất hình ảnh tài liệu, chẳng hạn như trang, văn bản, biểu đồ, bảng biểu hoặc infographic. Các mô hình xuất ra các embedding đa vector cho các truy vấn và tài liệu đầu vào. Các ứng dụng tiềm năng bao gồm các công cụ tìm kiếm đa phương tiện, hệ thống truy xuất chéo phương thức và AI đàm thoại với khả năng hiểu đầu vào phong phú.

Là một tiêu chuẩn mới, ViDoRe V3 được thiết kế để thiết lập một tiêu chuẩn công nghiệp cho truy xuất tài liệu doanh nghiệp đa phương thức. Nó giải quyết một thách thức chính trong các hệ thống RAG sản xuất: trích xuất chính xác thông tin từ các tài liệu phức tạp, giàu hình ảnh. Với khả năng truy xuất tài liệu đa phương thức mạnh mẽ, mô hình nemotron-colembed-vl-8b-v2 xếp hạng #1 trên bảng xếp hạng ViDoRe V3, thiết lập một tiêu chuẩn mới về độ chính xác.

Tiêu chuẩn Truy xuất Tài liệu Trực quan (truy xuất trang) – NDCG@10 trung bình trên các tác vụ công khai và riêng tư của ViDoRe V3.

Mô hình Kích thước Embedding Số lượng tham số Độ chính xác ViDoRe V3 (NDCG@10)
nemotron-colembed-vl-8b-v2 4096 8.8B 63.42
nemotron-colembed-vl-4b-v2 2560 4.8B 61.54
llama-nemotron-colembed-vl-3b-v2 3072 4.4B 59.79
lama-nemoretriever-colembed-3b-v1 3072 4.4B 57.26

Kiến trúc Mô hình

Mô hình llama-nemotron-colembed-vl-3b-v2 là một mô hình nhúng đa phương thức dựa trên transformer, được xây dựng trên nền tảng VLM dựa trên google/siglip2-giant-opt-patch16-384meta-llama/Llama-3.2-3B. Các mô hình mã hóa đa phương thức nemotron-colembed-vl-8b-v2nemotron-colembed-vl-4b-v2 được xây dựng từ Qwen/Qwen3-VL-8B-InstructQwen/Qwen3-VL-4B-Instruct, tương ứng.

Sửa đổi kiến trúc:

  • Các mô hình của chúng tôi sử dụng cơ chế tự chú ý hai chiều thay vì cơ chế chú ý nhân quả một chiều ban đầu từ các mô hình giải mã LLM. Điều này cho phép mô hình học các biểu diễn phong phú từ toàn bộ chuỗi đầu vào.
  • Cơ chế tương tác muộn kiểu ColBERT: Đối với mỗi token đầu vào, mỗi mô hình xuất ra một vector nhúng n chiều gồm các giá trị dấu phẩy động, trong đó n được xác định bởi kích thước ẩn của mô hình.

Phương pháp Huấn luyện

Các mô hình nemotron-colembed-vl-8b-v2, nemotron-colembed-vl-4b-v2llama-nemotron-colembed-vl-3b-v2 đã được huấn luyện bằng kiến trúc song mã, một cách độc lập. Điều này bao gồm việc mã hóa một cặp câu (ví dụ: một truy vấn và một tài liệu) một cách độc lập bằng mô hình nhúng. Sử dụng học tương phản, nó được sử dụng để tối đa hóa sự tương đồng tương tác muộn giữa truy vấn và tài liệu chứa câu trả lời, đồng thời giảm thiểu sự tương đồng giữa truy vấn và các tài liệu phủ định được lấy mẫu không hữu ích để trả lời câu hỏi.

Mô hình llama-nemotron-colembed-vl-3b-v2 được huấn luyện theo quy trình hai giai đoạn: nó được tinh chỉnh trước với 12,5 triệu cặp TextQA, sau đó được tinh chỉnh với các cặp văn bản-hình ảnh (giai đoạn 2). Các mô hình nemotron-colembed-vl-8b-v2, nemotron-colembed-vl-4b-v2 chỉ được tinh chỉnh bằng các cặp văn bản-hình ảnh (giai đoạn 2).

Các tập dữ liệu huấn luyện của chúng tôi chứa cả các cặp chỉ văn bản và văn bản-hình ảnh, và chúng tôi áp dụng phương pháp lấy mẫu phủ định khó theo phương pháp lấy mẫu phủ định khó nhận biết tích cực được trình bày trong bài báo NV-Retriever để cải thiện hiệu suất truy xuất.

Các Cải tiến Chính so với V1:

⚗️ Hợp nhất Mô hình Nâng cao: Sử dụng việc hợp nhất mô hình sau huấn luyện để kết hợp sức mạnh của nhiều checkpoint đã được tinh chỉnh. Điều này mang lại sự ổn định về độ chính xác của tập hợp mà không có bất kỳ độ trễ suy luận bổ sung nào.

🌍 Dữ liệu Tổng hợp được Tăng cường: Chúng tôi đã làm phong phú đáng kể hỗn hợp huấn luyện của mình với dữ liệu tổng hợp đa ngôn ngữ đa dạng, cải thiện sự liên kết ngữ nghĩa giữa các ngôn ngữ và các loại tài liệu phức.

Bắt đầu Xây dựng với Nemotron ColEmbed V2

Các mô hình Nemotron ColEmbed V2 đánh dấu một bước tiến lớn trong truy xuất văn bản-hình ảnh có độ chính xác cao, mang lại kết quả tiên tiến trên các tiêu chuẩn ViDoRe V1, V2 và V3. Việc cung cấp các biến thể mô hình 3B, 4B và 8B càng củng cố nền tảng vững chắc cho nghiên cứu trong tương lai và thử nghiệm nâng cao trong các ứng dụng truy xuất đa phương thức.

Bắt đầu với các mô hình Nemotron ColEmbed V2 bằng cách tải xuống các mô hình: nemotron-colembed-vl-8b-v2, nemotron-colembed-vl-4b-v2llama-nemotron-colembed-vl-3b-v2, có sẵn trên Hugging Face. Hãy xem notebook ví dụ của chúng tôi, trình bày quy trình lập chỉ mục và truy xuất đơn giản bằng cách sử dụng các mô hình nemotron-colembed-vl-4b-v2 và nemotron-colembed-vl-8b-v2. Để tìm hiểu sâu về kiến trúc, phương pháp huấn luyện và các tiêu chuẩn, hãy xem bài báo Nemotron ColEmbed V2 của chúng tôi.

Tìm hiểu thêm về dòng mô hình NeMo Retriever của NVIDIA, các mô hình Nemotron RAG trên trang sản phẩm, hoặc truy cập container dịch vụ siêu nhỏ từ NVIDIA NGC. Đây là một cơ hội tuyệt vời để khám phá khả năng truy xuất tiên tiến trong các ứng dụng và quy trình làm việc của riêng bạn. Hãy thử NVIDIA Enterprise RAG Blueprint, sử dụng các mô hình Nemotron RAG được cung cấp bởi công nghệ tương tự đằng sau giải pháp chiến thắng ViDoRe V3 của chúng tôi.

Recommended for You

Giới thiệu SyGra Studio

Giới thiệu SyGra Studio

Giới thiệu SyGra Studio

Mô hình Holo2 mới của H Company dẫn đầu trong việc bản địa hóa giao diện người dùng

Mô hình Holo2 mới của H Company dẫn đầu trong việc bản địa hóa giao diện người dùng

Mô hình Holo2 mới của H Company dẫn đầu trong việc bản địa hóa giao diện người dùng