LightOnOCR-2-1B- một họ mô hình OCR nhẹ, hiệu suất cao, đầu cuối

Giới thiệu LightOnOCR-2-1B, một họ mô hình OCR nhẹ và hiệu quả.

  • 7 min read
LightOnOCR-2-1B- một họ mô hình OCR nhẹ, hiệu suất cao, đầu cuối
Giới thiệu LightOnOCR-2-1B, một họ mô hình OCR nhẹ và hiệu quả.

LightOnOCR-2-1B: Bộ mô hình OCR hiệu suất cao, nhẹ và kết thúc-đến-kết thúc

Chúng tôi giới thiệu LightOnOCR-2-1B, thế hệ thứ hai của mô hình OCR thị giác-ngôn ngữ với 1 tỷ tham số, được tối ưu hóa để chuyển đổi các trang tài liệu (dưới dạng ảnh PDF) thành văn bản sạch, có thứ tự một cách tự nhiên mà không cần các quy trình nhiều bước. Ngoài khả năng nhận dạng văn bản, nó còn có thể xuất ra các hộp giới hạn (bounding box) cho các hình ảnh/đồ họa nhúng để các quy trình cần các chỉ dẫn bố cục nhẹ nhàng. LightOnOCR-2 được phát hành theo giấy phép Apache 2.0, cùng với một loạt các mô hình có trọng số mở (tập trung vào OCR và các biến thể có khả năng tạo hộp giới hạn, cộng với các mô hình cơ sở) mà cộng đồng có thể sử dụng để tinh chỉnh, điều chỉnh theo miền dữ liệu và các ứng dụng hướng bố cục.

Cập nhật ngày 26/01: Bài báo đã được công bố! Bài báo bao gồm toàn bộ công thức đào tạo bao gồm quy trình dữ liệu/chuẩn hóa, RLVR và chi tiết hợp nhất. Đọc nó tại đây.

Điểm nổi bật:

  • OCR tốt hơn: LightOnOCR-2-1B cải thiện đáng kể so với phiên bản đầu tiên của chúng tôi LightonOCR-1B-1025 và hiện là công nghệ tiên tiến trên bảng xếp hạng OlmOCR, vượt trội hơn Chandra-9B hơn 1.5 điểm phần trăm về tổng thể, trong khi nhỏ hơn gần 9 lần và không cần sử dụng các quy trình.
  • Tốc độ: Nhanh hơn 3.3 lần so với Chandra OCR, 1.7 lần so với OlmOCR, 5 lần so với dots.ocr, 2 lần so với PaddleOCR-VL-0.9B, 1.73 lần so với DeepSeekOCR.
  • Gia đình mô hình: Chúng tôi cũng phát hành các mô hình bổ sung, bao gồm các biến thể hộp giới hạn (để định vị hình ảnh nhúng) và mô hình cơ sở dành cho việc tinh chỉnh / hợp nhất / các công thức sau đào tạo.
  • **Tập dữ liệu đào tạo: Chúng tôi phát hành hai tập dữ liệu chú thích mở được sử dụng trong quá trình đào tạo: lightonai/LightOnOCR-mix-0126 bao gồm hơn 16 triệu trang tài liệu được chú thích chất lượng cao, và lightonai/LightOnOCR-bbox-mix-0126 bao gồm gần 500 nghìn chú thích chất lượng cao bao gồm cả hộp giới hạn cho hình ảnh và đồ họa.

Liên kết:

  • Mô hình:
    • LightOnOCR-2-1B (mặc định; chỉ OCR, nhận dạng văn bản tốt nhất)
    • LightOnOCR-2-1B-bbox (tập trung vào bbox; OCR + định vị hình ảnh nhúng)
    • LightOnOCR-2-1B-ocr-soup (mô hình cân bằng, kết hợp OCR + bbox)
    • LightOnOCR-2-1B-base (mô hình cơ sở, chỉ OCR; để tinh chỉnh / hợp nhất)
    • LightOnOCR-2-1B-bbox-base (mô hình cơ sở có khả năng xuất hộp giới hạn hình ảnh; có thể dùng làm cơ sở cho đào tạo RLVR)
    • LightOnOCR-2-1B-bbox-soup (biến thể bbox đã hợp nhất. Kết hợp các cải tiến RLVR tập trung vào OCR vào mô hình bbox, cân bằng chất lượng OCR và định vị hình ảnh.)
  • Tập dữ liệu:
    • lightonai/LightOnOCR-mix-0126
    • lightonai/LightOnOCR-bbox-mix-0126
    • LightOnOCR-bbox-bench: Bảng xếp hạng để đánh giá định vị hình ảnh trong tài liệu.
  • Bài đăng blog v1
  • Bản thảo

Khả năng:

LightonOCR-2-1B thể hiện hiệu suất tổng thể được cải thiện đáng kể, nhờ vào chất lượng chú thích tốt hơn, tính nhất quán và quy mô; một tập dữ liệu đa dạng hơn tập trung vào các ngôn ngữ châu Âu với sự nhấn mạnh vào việc xử lý ảnh quét và khả năng chống chịu suy giảm chất lượng ảnh; cùng với các quy trình chuyên dụng để giảm thiểu vòng lặp. Chúng tôi cung cấp ở đây một số ví dụ được chọn lọc về nhận dạng văn bản cho LightOnOCR-2-1B, LightOnOCR-2-1B-bbox và để tham khảo, phiên bản đầu tiên của chúng tôi LightOnOCR-1-1025.

Hãy thử nghiệm với tài liệu của riêng bạn trên khu vực demo của chúng tôi!

Bảng xếp hạng chính:

Chất lượng nhận dạng văn bản

Kết quả chính. LightOnOCR-2-1B đạt 83.2 ± 0.9 trên OlmOCR-Bench — tốt nhất trong số các hệ thống chúng tôi đã đánh giá — trong khi chỉ sử dụng 1 tỷ tham số. Các cải tiến nhất quán trên tất cả các danh mục, với những bước đột phá đáng chú ý trên ArXiv, ảnh quét cũ có chứa công thức toán học và bảng biểu, nhờ vào hỗn hợp đào tạo sạch hơn/lớn hơn, phạm vi bao phủ khoa học mạnh mẽ hơn và đào tạo ở độ phân giải cao hơn.

Bảng 1: Kết quả OlmOCR-Bench (không bao gồm danh mục tiêu đề/chân trang). Kết quả tốt nhất theo từng cột được làm nổi bật bằng màu xanh lam và tốt thứ hai được in đậm. Kết quả được lấy từ các công trình đã xuất bản tương ứng; chúng tôi cũng đánh giá DeepSeekOCR và API Mistral OCR 3 vì chúng không báo cáo số liệu OlmOCR-Bench.

Tốc độ

LightOnOCR được thiết kế để tích hợp vào các quy trình tài liệu quy mô lớn trong sản xuất, nơi năng suất thường quan trọng như độ chính xác. Để nắm bắt được ràng buộc thực tế đó, chúng tôi đo lường hiệu quả suy luận bằng cách chạy toàn bộ đánh giá OlmOCR-Bench từ đầu đến cuối (1.403 trang) và báo cáo số trang mỗi giây: tổng số trang chia cho thời gian thực tế cần thiết để hoàn thành việc đánh giá.

Bảng 2: Thông lượng suy luận trên một NVIDIA H100 (80GB).

Chúng tôi đang phát hành gì:

LightOnOCR-2 được phát hành dưới dạng một gia đình mô hình nhỏ để bạn có thể chọn sự cân bằng phù hợp cho quy trình làm việc của mình thay vì ép mọi thứ vào một mô hình duy nhất.

Mô hình mặc định: OCR tốt nhất

LightOnOCR-2-1B là mô hình chỉ OCR và là khuyến nghị mặc định của chúng tôi cho hầu hết các trường hợp sử dụng. Nếu nhiệm vụ của bạn là “chuyển đổi PDF thành văn bản/Markdown sạch một cách đáng tin cậy”, thì đây là lựa chọn tốt nhất để sử dụng vì nó là lựa chọn mạnh mẽ nhất về chất lượng nhận dạng văn bản.

OCR + chỉ dẫn bố cục nhẹ nhàng: các biến thể có khả năng tạo hộp giới hạn (bbox)

Chúng tôi cũng phát hành các mô hình có khả năng bbox có thể xuất hộp giới hạn cho các hình ảnh/đồ họa nhúng (ngoài OCR). Điều này hữu ích khi bạn muốn định vị nhẹ nhàng (ví dụ: “trích xuất văn bản, và cho tôi biết vị trí của các hình ảnh”), mà không cần chuyển sang một quy trình bố cục tài liệu đầy đủ.

Vì mục tiêu OCR và bbox có thể kéo mô hình theo các hướng hơi khác nhau, chúng tôi cung cấp hai tùy chọn thay vì làm quá tải mô hình mặc định:

  • LightOnOCR-2-1B-bbox: mô hình tập trung vào bbox (định vị tốt nhất).
  • LightOnOCR-2-1B-bbox-soup: mô hình cân bằng đã hợp nhất (OCR + bbox cân bằng).

Mô hình cơ sở (để tinh chỉnh / nghiên cứu):

Cuối cùng, chúng tôi phát hành hai mô hình cơ sở (một có bbox, một không có). Chúng dành cho những người muốn:

  • Tinh chỉnh trên dữ liệu/miền riêng của họ.
  • Tái tạo hoặc mở rộng các bước sau đào tạo của chúng tôi (bao gồm cả các công thức RL được mô tả trong bản thảo).
  • Thử nghiệm hợp nhất để xây dựng các biến thể mạnh mẽ hơn nữa.

Chúng tôi cung cấp công thức tại đây để tinh chỉnh bằng các mô hình.

Hỗ trợ Transformers: dễ dàng chạy và tinh chỉnh

LightOnOCR hiện có thể sử dụng trực tiếp thông qua hệ sinh thái Hugging Face Transformers (hỗ trợ đã được hợp nhất vào mã nguồn chính). Trên thực tế, điều đó có nghĩa là:

  • Bạn có thể chạy nó với các công cụ Transformers tiêu chuẩn (không yêu cầu bắt đầu với vLLM).
  • Việc tinh chỉnh rất đơn giản với các quy trình làm việc HF phổ biến (LoRA / PEFT / Trainer).
  • Việc sử dụng CPU/máy tính cá nhân là khả thi cho các cài đặt thông lượng thấp hơn (tùy thuộc vào phần cứng, nhưng dễ tiếp cận hơn nhiều so với “chỉ có GPU”).

Hãy theo dõi để biết liên kết bản thảo!

Cộng đồng

Recommended for You

Cách Sử dụng Nhiều GPU trong Hugging Face Transformers- Device Map so với Tensor Parallelism

Cách Sử dụng Nhiều GPU trong Hugging Face Transformers- Device Map so với Tensor Parallelism

Hướng dẫn cách sử dụng nhiều GPU với Hugging Face Transformers, so sánh Device Map và Tensor Parallelism.

Forge- Khung và Thuật toán Agent RL có thể mở rộng

Forge- Khung và Thuật toán Agent RL có thể mở rộng

Một bài viết về Forge, một khung và thuật toán Agent RL có thể mở rộng.