Mô hình nhúng mới xáo trộn bảng xếp hạng- Google chiếm vị trí số 1 trong khi giải pháp thay thế mã nguồn mở của Alibaba thu hẹp khoảng cách
Google chiếm vị trí số 1 trong khi giải pháp thay thế mã nguồn mở của Alibaba thu hẹp khoảng cách trên bảng xếp hạng mô hình nhúng.
- 6 min read
Sự thay đổi mới trên bảng xếp hạng mô hình Embedding: Google chiếm vị trí số 1 trong khi lựa chọn mã nguồn mở của Alibaba thu hẹp khoảng cách
Google đã chính thức đưa mô hình Gemini Embedding hiệu suất cao mới của mình vào trạng thái khả dụng chung, hiện đang xếp hạng số một tổng thể trên bảng điểm Massive Text Embedding Benchmark (MTEB) được đánh giá cao. Mô hình (gemini-embedding-001) hiện là một phần cốt lõi của Gemini API và Vertex AI, cho phép các nhà phát triển xây dựng các ứng dụng như tìm kiếm ngữ nghĩa và tạo tăng cường truy xuất (RAG).
Mặc dù xếp hạng số một là một khởi đầu mạnh mẽ, nhưng bối cảnh của các mô hình embedding rất cạnh tranh. Mô hình độc quyền của Google đang bị thách thức trực tiếp bởi các lựa chọn thay thế mã nguồn mở mạnh mẽ. Điều này tạo ra một lựa chọn chiến lược mới cho các doanh nghiệp: áp dụng mô hình độc quyền được xếp hạng hàng đầu hoặc một mô hình thách thức mã nguồn mở gần như tốt, mang lại nhiều quyền kiểm soát hơn.
Điều gì ẩn chứa bên trong mô hình Gemini embedding của Google
Về cốt lõi, embedding chuyển đổi văn bản (hoặc các loại dữ liệu khác) thành danh sách số nắm bắt các đặc điểm chính của đầu vào. Dữ liệu có ý nghĩa ngữ nghĩa tương tự có các giá trị embedding gần nhau hơn trong không gian số này. Điều này cho phép các ứng dụng mạnh mẽ vượt xa việc khớp từ khóa đơn giản, chẳng hạn như xây dựng các hệ thống tạo tăng cường truy xuất (RAG) thông minh cung cấp thông tin liên quan cho LLM.
Embedding cũng có thể được áp dụng cho các phương thức khác như hình ảnh, video và âm thanh. Ví dụ, một công ty thương mại điện tử có thể sử dụng mô hình embedding đa phương thức để tạo ra một biểu diễn số thống nhất cho một sản phẩm, kết hợp cả mô tả văn bản và hình ảnh.
Đối với các doanh nghiệp, mô hình embedding có thể cung cấp sức mạnh cho các công cụ tìm kiếm nội bộ chính xác hơn, phân cụm tài liệu phức tạp, các tác vụ phân loại, phân tích tình cảm và phát hiện bất thường. Embedding cũng đang trở thành một phần quan trọng của các ứng dụng đại diện, trong đó các tác nhân AI phải truy xuất và khớp các loại tài liệu và lời nhắc khác nhau.
Một trong những tính năng chính của Gemini Embedding là tính linh hoạt tích hợp. Nó đã được đào tạo thông qua một kỹ thuật được gọi là Matryoshka Representation Learning (MRL), cho phép các nhà phát triển nhận được một embedding 3072 chiều rất chi tiết nhưng cũng có thể cắt bớt nó thành các kích thước nhỏ hơn như 1536 hoặc 768 trong khi vẫn giữ được các tính năng liên quan nhất của nó. Tính linh hoạt này cho phép một doanh nghiệp đạt được sự cân bằng giữa độ chính xác của mô hình, hiệu suất và chi phí lưu trữ, điều này rất quan trọng để mở rộng quy mô ứng dụng một cách hiệu quả.
Google định vị Gemini Embedding là một mô hình thống nhất được thiết kế để hoạt động hiệu quả “ngay lập tức” trên các lĩnh vực đa dạng như tài chính, pháp lý và kỹ thuật mà không cần tinh chỉnh. Điều này đơn giản hóa việc phát triển cho các nhóm cần một giải pháp đa năng. Hỗ trợ hơn 100 ngôn ngữ và có giá cạnh tranh ở mức 0,15 đô la trên một triệu mã thông báo đầu vào, nó được thiết kế để có khả năng truy cập rộng rãi.
Bối cảnh cạnh tranh của các đối thủ độc quyền và mã nguồn mở
Bảng xếp hạng MTEB cho thấy rằng mặc dù Gemini dẫn đầu, nhưng khoảng cách là rất nhỏ. Nó phải đối mặt với các mô hình đã được thiết lập từ OpenAI, có các mô hình embedding được sử dụng rộng rãi, và các đối thủ chuyên biệt như Mistral, cung cấp một mô hình đặc biệt để truy xuất mã. Sự xuất hiện của các mô hình chuyên biệt này cho thấy rằng đối với một số tác vụ nhất định, một công cụ được nhắm mục tiêu có thể vượt trội hơn một công cụ đa năng.
Một người chơi quan trọng khác, Cohere, nhắm mục tiêu trực tiếp đến doanh nghiệp với mô hình Embed 4 của mình. Trong khi các mô hình khác cạnh tranh trên các chuẩn mực chung, Cohere nhấn mạnh khả năng của mô hình trong việc xử lý “dữ liệu thế giới thực ồn ào” thường thấy trong các tài liệu của doanh nghiệp, chẳng hạn như lỗi chính tả, sự cố định dạng và thậm chí cả chữ viết tay được quét. Nó cũng cung cấp khả năng triển khai trên các đám mây riêng ảo hoặc tại chỗ, cung cấp mức độ bảo mật dữ liệu trực tiếp thu hút các ngành công nghiệp được quản lý như tài chính và chăm sóc sức khỏe.
Mối đe dọa trực tiếp nhất đối với sự thống trị độc quyền đến từ cộng đồng mã nguồn mở. Mô hình Qwen3-Embedding của Alibaba chỉ đứng sau Gemini trên MTEB và có sẵn theo giấy phép Apache 2.0 được phép (có sẵn cho các mục đích thương mại). Đối với các doanh nghiệp tập trung vào phát triển phần mềm, Qodo-Embed-1-1.5B của Qodo đưa ra một lựa chọn thay thế mã nguồn mở hấp dẫn khác, được thiết kế đặc biệt cho mã và tuyên bố vượt trội hơn các mô hình lớn hơn trên các chuẩn mực dành riêng cho miền.
Đối với các công ty đã xây dựng trên Google Cloud và họ mô hình Gemini, việc áp dụng mô hình embedding gốc có thể có một số lợi ích, bao gồm tích hợp liền mạch, đường ống MLOps được đơn giản hóa và sự đảm bảo sử dụng mô hình đa năng được xếp hạng hàng đầu.
Tuy nhiên, Gemini là một mô hình khép kín, chỉ có API. Các doanh nghiệp ưu tiên chủ quyền dữ liệu, kiểm soát chi phí hoặc khả năng chạy các mô hình trên cơ sở hạ tầng của riêng họ hiện có một tùy chọn mã nguồn mở cấp cao nhất đáng tin cậy trong Qwen3-Embedding hoặc có thể sử dụng một trong các mô hình embedding dành riêng cho tác vụ.
<div class="image-container">
<img src="https://venturebeat.com/wp-content/themes/vb-news/brand/img/vb-daily-phone.png" alt="">
</div>
</div>
Link bài viết gốc
- Tags:
- Ai
- 19 July 2025
- Venturebeat.com