Sentence Transformers gia nhập Hugging Face!

announcementnlpopen-source Sentence Transformers is joining Hugging Face!

  • 7 min read
Sentence Transformers gia nhập Hugging Face!
announcementnlpopen-source Sentence Transformers is joining Hugging Face!

Sentence Transformers gia nhập Hugging Face!

Hôm nay, chúng tôi thông báo rằng Sentence Transformers đang chuyển đổi từ Phòng thí nghiệm Xử lý Tri thức Phổ biến (UKP) của Iryna Gurevych tại TU Darmstadt sang Hugging Face. Tom Aarsen của Hugging Face đã duy trì thư viện này từ cuối năm 2023 và sẽ tiếp tục lãnh đạo dự án. Tại ngôi nhà mới này, Sentence Transformers sẽ được hưởng lợi từ cơ sở hạ tầng mạnh mẽ của Hugging Face, bao gồm tích hợp và kiểm tra liên tục, đảm bảo rằng nó luôn được cập nhật những tiến bộ mới nhất trong lĩnh vực Truy xuất Thông tin và Xử lý Ngôn ngữ Tự nhiên.

Sentence Transformers (hay còn gọi là SentenceBERT hoặc SBERT) là một thư viện mã nguồn mở phổ biến để tạo ra các embedding chất lượng cao, nắm bắt ý nghĩa ngữ nghĩa. Kể từ khi được Nils Reimers thành lập vào năm 2019, Sentence Transformers đã được các nhà nghiên cứu và người thực hành áp dụng rộng rãi cho nhiều tác vụ xử lý ngôn ngữ tự nhiên (NLP) khác nhau, bao gồm tìm kiếm ngữ nghĩa, so sánh độ tương đồng ngữ nghĩa của văn bản, phân cụm và khai thác diễn giải. Sau nhiều năm phát triển và đào tạo bởi và cho cộng đồng, hơn 16.000 mô hình Sentence Transformers có sẵn công khai trên Hugging Face Hub, phục vụ hơn một triệu người dùng duy nhất hàng tháng.

“Sentence Transformers là một câu chuyện thành công lớn và là đỉnh cao của nghiên cứu lâu dài của chúng tôi về tính toán sự tương đồng ngữ nghĩa cho toàn bộ phòng thí nghiệm. Nils Reimers đã có một khám phá rất kịp thời và đã tạo ra không chỉ những kết quả nghiên cứu xuất sắc mà còn là một công cụ rất hữu ích. Điều này tiếp tục tác động đến các thế hệ sinh viên và người thực hành trong lĩnh vực xử lý ngôn ngữ tự nhiên và AI. Tôi cũng muốn cảm ơn tất cả người dùng và đặc biệt là những người đóng góp, nếu không có họ thì dự án này sẽ không được như ngày nay. Và cuối cùng, tôi muốn cảm ơn Tom và Hugging Face đã đưa dự án vào tương lai.”

  • GS. TS. Iryna Gurevych, Giám đốc Phòng thí nghiệm Xử lý Tri thức Phổ biến, TU Darmstadt

“Chúng tôi rất vui mừng được chính thức chào đón Sentence Transformers vào gia đình Hugging Face! Trong hai năm qua, thật tuyệt vời khi thấy dự án này phát triển và được chấp nhận trên toàn cầu, nhờ vào nền tảng đáng kinh ngạc từ Phòng thí nghiệm UKP và cộng đồng tuyệt vời xung quanh nó. Đây chỉ là sự khởi đầu: chúng tôi sẽ tiếp tục tăng cường hỗ trợ sự tăng trưởng và đổi mới của nó, đồng thời luôn trung thành với tinh thần hợp tác, cởi mở đã giúp nó phát triển ngay từ đầu.”

  • Clem Delangue, đồng sáng lập & CEO, Hugging Face

Sentence Transformers sẽ vẫn là một dự án hướng đến cộng đồng, mã nguồn mở, với cùng một giấy phép mã nguồn mở (Apache 2.0) như trước đây. Đóng góp từ các nhà nghiên cứu, nhà phát triển và những người đam mê đều được hoan nghênh và khuyến khích. Dự án sẽ tiếp tục ưu tiên tính minh bạch, hợp tác và khả năng tiếp cận rộng rãi.

Lịch sử Dự án

Thư viện Sentence Transformers được giới thiệu vào năm 2019 bởi TS. Nils Reimers tại Phòng thí nghiệm Xử lý Tri thức Phổ biến (UKP) thuộc Đại học Kỹ thuật Darmstadt, dưới sự giám sát của GS. TS. Iryna Gurevych. Được thúc đẩy bởi những hạn chế của các embedding BERT tiêu chuẩn cho các tác vụ ngữ nghĩa ở cấp độ câu, Sentence-BERT đã sử dụng kiến trúc mạng Siamese để tạo ra các embedding câu có ý nghĩa ngữ nghĩa có thể so sánh hiệu quả bằng cách sử dụng độ tương đồng cosine. Nhờ thiết kế mô-đun, mã nguồn mở và hiệu suất thực nghiệm mạnh mẽ trên các tác vụ như so sánh độ tương đồng ngữ nghĩa của văn bản, phân cụm và truy xuất thông tin, thư viện này nhanh chóng trở thành một công cụ chủ lực trong bộ công cụ nghiên cứu NLP, tạo ra một loạt các công việc tiếp theo và các ứng dụng thực tế dựa trên các biểu diễn câu chất lượng cao.

Năm 2020, hỗ trợ đa ngôn ngữ đã được thêm vào thư viện, mở rộng embedding câu sang hơn 400 ngôn ngữ. Năm 2021, với sự đóng góp từ Nandan Thakur và TS. Johannes Daxenberger, thư viện đã mở rộng để hỗ trợ chấm điểm câu theo cặp bằng cách sử dụng các mô hình Cross Encoder và Sentence Transformer. Sentence Transformers cũng được tích hợp với Hugging Face Hub (v2.0). Trong hơn bốn năm, nhóm Phòng thí nghiệm UKP đã duy trì thư viện này như một dự án mã nguồn mở hướng đến cộng đồng và cung cấp sự đổi mới dựa trên nghiên cứu liên tục. Trong giai đoạn này, sự phát triển của dự án đã được hỗ trợ bởi các khoản tài trợ cho GS. Gurevych từ Quỹ Nghiên cứu Đức (DFG), Bộ Giáo dục và Nghiên cứu Liên bang Đức (BMBF) và Bộ Giáo dục Đại học, Nghiên cứu và Nghệ thuật Bang Hessen (HMWK).

Vào cuối năm 2023, Tom Aarsen từ Hugging Face đã tiếp quản việc duy trì thư viện, giới thiệu đào tạo hiện đại hóa cho các mô hình Sentence Transformer (v3.0), cũng như các cải tiến của các mô hình Cross Encoder (v4.0) và Sparse Encoder (v5.0).

Lời Cảm Ơn

Phòng thí nghiệm Xử lý Tri thức Phổ biến (UKP) tại Đại học Kỹ thuật Darmstadt, do GS. TS. Iryna Gurevych lãnh đạo, được quốc tế công nhận vì những nghiên cứu của mình trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và học máy. Phòng thí nghiệm có một lịch sử lâu dài về công việc tiên phong trong học biểu diễn, mô hình ngôn ngữ lớn và truy xuất thông tin, với nhiều ấn phẩm tại các hội nghị và tạp chí hàng đầu. Ngoài Sentence Transformers, Phòng thí nghiệm UKP đã phát triển một số bộ dữ liệu, tiêu chuẩn và công cụ mã nguồn mở được sử dụng rộng rãi, hỗ trợ cả nghiên cứu học thuật và các ứng dụng thực tế.

Hugging Face xin cảm ơn Phòng thí nghiệm UKP và tất cả những người đóng góp trước đây và hiện tại, đặc biệt là TS. Nils Reimers và GS. TS. Iryna Gurevych, vì sự cống hiến của họ cho dự án và vì đã tin tưởng giao cho chúng tôi việc duy trì và giờ là quản lý dự án. Chúng tôi cũng xin bày tỏ lòng biết ơn đến cộng đồng các nhà nghiên cứu, nhà phát triển và người thực hành đã đóng góp vào thành công của thư viện thông qua các đóng góp mô hình, báo cáo lỗi, yêu cầu tính năng, cải tiến tài liệu và các ứng dụng thực tế. Chúng tôi rất vui mừng được tiếp tục xây dựng trên nền tảng vững chắc do Phòng thí nghiệm UKP đặt ra và làm việc với cộng đồng để tiếp tục nâng cao khả năng của Sentence Transformers.

Bắt Đầu

Đối với những người mới sử dụng Sentence Transformers hoặc muốn khám phá các khả năng của nó:


Các bài viết khác từ Blog của chúng tôi

Chào mừng EmbeddingGemma, mô hình embedding hiệu quả mới của Google

Đào tạo và Tinh chỉnh Các Mô hình Embedding Thưa thớt với Sentence Transformers v5

Recommended for You

Xây dựng các tổ chức giáo dục đại học được trao quyền dữ liệu

Xây dựng các tổ chức giáo dục đại học được trao quyền dữ liệu

Khám phá cách Microsoft Fabric trong giáo dục đại học giúp thống nhất dữ liệu, mở rộng quy mô AI và thúc đẩy sự nhanh nhẹn. Tải xuống sách điện tử Tổ chức được trao quyền dữ liệu miễn phí.

Đơn giản hóa ngăn xếp AI- Chìa khóa cho trí tuệ có thể mở rộng, di động từ đám mây đến biên

Đơn giản hóa ngăn xếp AI- Chìa khóa cho trí tuệ có thể mở rộng, di động từ đám mây đến biên

Nội dung được trình bày bởi Arm