Falcon Perception

Nhận thức Falcon

April 1, 2026
7 min read

Falcon Perception

TL;DR — Falcon Perception là một Transformer hợp nhất sớm (early-fusion) với 0,6 tỷ tham số, được thiết kế để phân đoạn và xác định vị trí đối tượng theo từ vựng mở (open-vocabulary) dựa trên các yêu cầu bằng ngôn ngữ tự nhiên. Mô hình xử lý các mảnh ảnh (image patches) + văn bản trong một chuỗi duy nhất bằng cách sử dụng mặt nạ chú ý lai (hybrid attention mask), đồng thời tạo ra số lượng đối tượng linh hoạt thông qua một giao diện token có cấu trúc nhỏ gọn và các bộ phân loại nhẹ. Trên bộ benchmark SA-Co, Falcon Perception đạt 68,0 Macro-F1 (so với 62,3 của SAM 3). Chúng tôi cũng giới thiệu PBench, một bộ benchmark chẩn đoán được thiết kế để tách biệt hiệu năng theo từng khả năng cụ thể (thuộc tính, khử nhiễu hướng dẫn bởi OCR, ràng buộc không gian, quan hệ) và các cảnh đông đúc với ngữ cảnh dài.

Chúng tôi cũng phát hành Falcon OCR, một mô hình có 0,3 tỷ tham số đạt điểm số 80,3 và 88,6 trên các bộ benchmark olmOCR và OmniDocBench, đồng thời sở hữu lưu lượng phục vụ (throughput) cao nhất trong số các mô hình OCR mã nguồn mở hiện nay.

Vấn đề: Tại sao hệ thống nhận diện lại trở thành các đường ống (pipelines)?

Nhiều hệ thống nhận diện từ vựng mở hiện nay được xây dựng dưới dạng các đường ống mô-đun: một backbone thị giác (thường bị đóng băng) để trích xuất đặc trưng, một giai đoạn hợp nhất/giải mã riêng biệt để kết hợp với ngôn ngữ, và các thành phần bổ sung để xử lý việc khớp đối tượng và hậu xử lý. Dù các thiết kế này hoạt động tốt, chúng có những đánh đổi: khó mở rộng, khó xác định chính xác thành phần nào gây ra lỗi, và dễ tích tụ sự phức tạp.

Chúng tôi đặt ra một câu hỏi đơn giản hơn: Liệu một backbone Transformer hợp nhất sớm có thể xử lý cả nhận diện và mô hình hóa ngôn ngữ nếu chúng ta chọn đúng mô hình chú ý, giao diện đầu ra và tín hiệu huấn luyện không?

Trong các thử nghiệm của chúng tôi, câu trả lời phần lớn là có.

Kiến trúc: Hợp nhất sớm, chú ý lai và giao diện dày hiệu quả

falcon_inference

Một Transformer tự hồi quy (autoregressive) duy nhất xử lý chuỗi thống nhất bao gồm các mảnh ảnh, văn bản và các token nhiệm vụ. Mô hình dự đoán các thuộc tính đối tượng theo thứ tự cố định: <coord> → <size> → <seg>. Tọa độ và kích thước khung bao được giải mã thông qua các bộ phận chuyên biệt và được đưa ngược lại dưới dạng đặc trưng Fourier. Các mặt nạ phân đoạn độ phân giải cao được tạo ra bằng tích vô hướng giữa token <seg> và đặc trưng ảnh được tăng mẫu.

Một Backbone, Hai Hành vi

Về cốt lõi, Falcon Perception là một Transformer dày đặc xử lý các mảnh ảnh và token văn bản trong không gian tham số chia sẻ ngay từ lớp đầu tiên. Thay vì một backbone thị giác riêng biệt theo sau là bộ giải mã hợp nhất muộn, chúng tôi giữ lại một backbone duy nhất và dựa vào việc làm mặt nạ (masking) cùng giao diện đầu ra nhẹ để giải quyết bài toán dự đoán.

Hình ảnh và văn bản có cấu trúc khác nhau: pixel là 2D và cần ngữ cảnh hai chiều, trong khi giao diện dự đoán mang tính tuần tự. Chúng tôi giải quyết việc này bằng mặt nạ chú ý lai:

Token ảnh chú ý đến tất cả các token ảnh khác theo hướng hai chiều, xây dựng ngữ cảnh thị giác toàn cầu.
Token văn bản và nhiệm vụ chú ý nhân quả (causally) đến tất cả các phần trước chúng — toàn bộ tiền tố thị giác và văn bản đứng trước.

Chain-of-Perception: Giám sát từ thô đến tinh cho đầu ra dày

Chúng tôi sử dụng một giao diện có cấu trúc nhỏ gọi là Chain-of-Perception (Chuỗi nhận diện), phân tách mỗi đối tượng thành ba bước: <coord> → <size> → <seg>

Token tọa độ: Dự đoán tâm của đối tượng.
Token kích thước: Dự đoán không gian mở rộng (độ lớn).
Token phân đoạn: Một embedding duy nhất tạo ra mặt nạ nhị phân độ phân giải đầy đủ khi tính tích vô hướng với các đặc trưng ảnh.

Các bộ phận chuyên biệt, độ trễ tối thiểu

Bộ phận tọa độ & kích thước sử dụng mã hóa đặc trưng Fourier: Ánh xạ tọa độ liên tục vào không gian hình sin đa chiều để đạt được khả năng định vị chính xác.
Bộ phận phân đoạn tính tích vô hướng giữa trạng thái ẩn của token <seg> và các đặc trưng ảnh. Điều này giúp tránh được bộ máy truy vấn mặt nạ phức tạp thường thấy trong các kiến trúc khác.

PBench: Benchmark được thiết kế để phân lập thiếu sót

Chúng tôi giới thiệu PBench, một bộ benchmark chẩn đoán phân tách các mẫu dựa trên khả năng cốt lõi cần thiết:

Cấp độ	Khả năng	Ví dụ câu lệnh
L0	Đối tượng đơn giản	“chiếc xe”
L1	Thuộc tính & loại con	“xe hơi đỏ”, “hàng rào vỡ”
L2	Nhận diện hướng dẫn bởi OCR	“chai Diet Coke”, “giày Nike”
L3	Hiểu không gian	“xe bên trái”, “cửa sổ thứ ba từ trái sang”
L4	Quan hệ & tương tác	“người cầm ô”, “tòa nhà cao nhất”
Dense	Kiểm tra cảnh đông đúc	Hàng trăm đối tượng mỗi ảnh

Kết quả

SA-Co: Chất lượng mặt nạ tốt nhất trong phân khúc

Trên benchmark phân đoạn từ vựng mở SA-Co, Falcon Perception (0,6B tham số) đạt 68,0 Macro-F1, so với 62,3 của SAM 3, với những cải thiện lớn ở các phân nhóm giàu thuộc tính và đồ thể thao.

PBench: Khả năng mở rộng theo độ phức tạp của câu lệnh

Trên các yêu cầu mang tính kết hợp — đòi hỏi sự khử nhiễu qua OCR, ràng buộc không gian hoặc các mối quan hệ — Falcon Perception thể hiện sự vượt trội rõ rệt. Trong phần đánh giá các cảnh đông đúc (Dense), Falcon Perception (0,6B) vượt xa các baseline VLM tổng quát (ví dụ: 72,6 so với 8,9 của Qwen3-VL-30B).

Falcon OCR: Mở rộng hợp nhất sớm sang hiểu tài liệu

Chúng tôi đã huấn luyện riêng một biến thể 0,3 tỷ tham số để chuyên biệt cho OCR. Kết quả là Falcon OCR — một backbone xử lý ảnh và văn bản trong không gian tham số chia sẻ, sử dụng cùng mặt nạ chú ý lai.

Hiệu suất: Đạt 80,3% trên olmOCR, đứng đầu các model về phân tích cột (87,1%) và bảng biểu (90,3%).
Lưu lượng (Throughput): Với 0,3 tỷ tham số, nó nhỏ hơn khoảng 3 lần so với các VLM OCR 0,9 tỷ tham số khác, mang lại tốc độ xử lý nhanh chóng cho việc số hóa tài liệu quy mô lớn.

Suy nghĩ cuối cùng: Một “Bài học đắng cay” cho nhận diện

Falcon Perception được thiết kế một cách tối giản: một backbone, một mục tiêu và các đầu ra chuyên biệt chỉ ở những nơi cần thiết. Giả định làm việc của chúng tôi là hầu hết các cải tiến nên đến từ dữ liệu, tính toán và tín hiệu huấn luyện, thay vì liên tục mở rộng đường ống với các mô-đun chuyên biệt.

Falcon Perception được phát triển bởi Falcon Vision Team tại Viện Đổi mới Công nghệ (TII), Abu Dhabi, UAE.

Trích dẫn

Nếu bạn sử dụng Falcon-Perception, vui lòng trích dẫn:

@article{bevli2026falcon,
  title   = {Falcon Perception},
  author  = {Bevli, Aviraj and Chaybouti, Sofian and Dahou, Yasser and Hacid, Hakim and Huynh, Ngoc Dung and Le Khac, Phuc H. and Narayan, Sanath and Para, Wamiq Reyaz and Singh, Ankit},
  journal = {arXiv preprint arXiv:2603.27365},
  year    = {2026},
  url     = {https://arxiv.org/abs/2603.27365}
}

AI Today - SkyAI

Falcon Perception

Falcon Perception

Vấn đề: Tại sao hệ thống nhận diện lại trở thành các đường ống (pipelines)?

Kiến trúc: Hợp nhất sớm, chú ý lai và giao diện dày hiệu quả

Một Backbone, Hai Hành vi

Chain-of-Perception: Giám sát từ thô đến tinh cho đầu ra dày

Các bộ phận chuyên biệt, độ trễ tối thiểu

PBench: Benchmark được thiết kế để phân lập thiếu sót

Kết quả

SA-Co: Chất lượng mặt nạ tốt nhất trong phân khúc

PBench: Khả năng mở rộng theo độ phức tạp của câu lệnh

Falcon OCR: Mở rộng hợp nhất sớm sang hiểu tài liệu

Suy nghĩ cuối cùng: Một “Bài học đắng cay” cho nhận diện

Trích dẫn

Link bài viết gốc