datasetsopen-sourcevision- Mở khóa sức mạnh của hình ảnh với AI Sheets
Datasetsopen-sourcevision- Mở khóa sức mạnh của hình ảnh với AI Sheets
- 10 min read
Mở khóa sức mạnh của hình ảnh với AI Sheets
Chúng tôi đang trên hành trình phát triển và dân chủ hóa trí tuệ nhân tạo thông qua mã nguồn mở và khoa học mở.
🧭 TÓM LẠI: Hugging Face AI Sheets là một công cụ mã nguồn mở để tăng cường sức mạnh cho các bộ dữ liệu bằng các mô hình AI, không cần viết mã. Giờ đây hỗ trợ cả hình ảnh: trích xuất dữ liệu từ ảnh (biên lai, tài liệu), tạo hình ảnh từ văn bản và chỉnh sửa ảnh — tất cả trong một bảng tính. Được hỗ trợ bởi hàng nghìn mô hình mở thông qua Nhà cung cấp Suy luận.
Chúng tôi vui mừng ra mắt bản cập nhật lớn cho Hugging Face AI Sheets, công cụ mã nguồn mở để xây dựng, chuyển đổi và làm phong phú dữ liệu bằng các mô hình AI mở. AI Sheets tận dụng Nhà cung cấp Suy luận, điều đó có nghĩa là bạn có thể sử dụng hàng nghìn mô hình mở được hỗ trợ bởi các nhà cung cấp suy luận tốt nhất trên thế giới.
Phiên bản đầu tiên của AI Sheets đã giúp việc cấu trúc và làm phong phú nội dung văn bản trở nên dễ dàng. Giờ đây, chúng tôi đang bổ sung khả năng xử lý hình ảnh cho AI Sheets.
Hình ảnh có ở khắp mọi nơi — ảnh sản phẩm, biên lai, ảnh chụp màn hình, sơ đồ, biểu đồ, logo. Những tài liệu này chứa thông tin có cấu trúc đang chờ được trích xuất, phân tích và chuyển đổi. Hôm nay, cuối cùng bạn có thể làm việc trực tiếp với nội dung trực quan trong AI Sheets: xem hình ảnh, phân tích chúng, trích xuất thông tin, tạo hình ảnh mới và thậm chí chỉnh sửa chúng trong thời gian thực — tất cả trong cùng một quy trình làm việc.
Hình ảnh của bạn có những câu chuyện cần kể
Hình ảnh chứa thông tin có giá trị — danh mục sản phẩm, vé hỗ trợ, kho lưu trữ nghiên cứu, biên lai, tài liệu. Giờ đây, bạn có thể tải ảnh trực tiếp hoặc sử dụng các bộ dữ liệu có hình ảnh, và sử dụng các mô hình xử lý hình ảnh để trích xuất, phân tích và cấu trúc thông tin bên trong chúng.
Những gì bạn có thể làm:
- Mô tả và phân loại hình ảnh - Tạo chú thích cho ảnh sản phẩm, phân loại loại tài liệu hoặc gắn thẻ ảnh theo nội dung.
- Trích xuất dữ liệu có cấu trúc - Lấy các mục từ biên lai, dữ liệu từ biểu đồ hoặc văn bản từ tài liệu đã quét.
- Thêm ngữ cảnh và siêu dữ liệu - Tự động gắn nhãn ảnh với các thuộc tính có liên quan, điểm chất lượng hoặc chú thích tùy chỉnh.
Giống như các cột văn bản, bạn có thể lặp lại các lời nhắc, chỉnh sửa thủ công các kết quả đầu ra và sử dụng biểu tượng ngón tay cái để dạy cho mô hình những gì bạn muốn. Phản hồi của bạn trở thành các ví dụ học ít mẫu để cho kết quả tốt hơn.
Ví dụ: Từ biên lai đến chi phí có cấu trúc
Hãy tưởng tượng bạn vừa đi công tác về với một chồng biên lai. Tải chúng lên AI Sheets và tạo một cột với lời nhắc như: Trích xuất tên người bán, ngày, tổng số tiền và danh mục chi phí từ biên lai này.
AI Sheets xử lý từng biên lai và cung cấp cho bạn một bảng sạch với tất cả các chi tiết đã được trích xuất. Bạn có thể chỉnh sửa bất kỳ lỗi nào, xác thực các kết quả tốt bằng biểu tượng ngón tay cái và tạo lại để cải thiện phần còn lại. Xuất bộ dữ liệu cuối cùng dưới dạng CSV hoặc Parquet cho công cụ theo dõi chi phí của bạn.
Hoặc có thể bạn đang số hóa các công thức nấu ăn viết tay từ các cuốn sổ cũ của gia đình. Tạo các cột để trích xuất nguyên liệu, thời gian nấu và loại hình ẩm thực — biến kho lưu trữ cá nhân của bạn thành một bộ dữ liệu có cấu trúc, có thể tìm kiếm được.
Tạo và chuyển đổi văn bản và hình ảnh trong cùng một quy trình làm việc
Cần hình ảnh cho nội dung của bạn? AI Sheets có thể tạo và chỉnh sửa hình ảnh trực tiếp trong bảng tính của bạn bằng các mô hình AI, giữ cho toàn bộ quy trình tạo nội dung của bạn ở một nơi. Bạn có thể làm gì:
- Tạo hình ảnh từ văn bản - Tạo đồ họa mạng xã hội, hình thu nhỏ hoặc hình minh họa phù hợp với nội dung của bạn.
- Chỉnh sửa và chuyển đổi hình ảnh hiện có - Sửa đổi hình ảnh đã tải lên hoặc hình ảnh được tạo — thay đổi kiểu dáng, thêm yếu tố, điều chỉnh bố cục.
- Tạo các biến thể ở quy mô lớn - Tạo nhiều phiên bản hoặc kiểu dáng để kiểm tra xem cái nào cộng hưởng với đối tượng của bạn.
- Xây dựng thư viện nội dung trực quan - Sản xuất các tài sản thương hiệu nhất quán trên các chiến dịch nội dung lớn.
Ví dụ: Tạo lịch nội dung có hình ảnh Hãy tưởng tượng bạn đang lên kế hoạch cho một tháng đăng bài trên mạng xã hội về các công thức nấu ăn lành mạnh. Bạn có một bảng tính với tiêu đề và mô tả bài đăng, nhưng chưa có hình ảnh nào.
Tạo một cột hình ảnh với lời nhắc như: Tạo một bức ảnh ẩm thực hấp dẫn cho: {{tiêu đề}}. Phong cách: tươi sáng, ảnh chụp từ trên xuống, ánh sáng tự nhiên.
AI Sheets tạo ra một hình ảnh độc đáo cho mỗi bài đăng. Chưa ổn lắm? Tạo một cột khác để chỉnh sửa chúng: Chuyển đổi hình ảnh để có nền gỗ mộc mạc và thêm thảo mộc tươi làm vật trang trí.
Bạn có thể lặp lại các lời nhắc tạo và chỉnh sửa và thử các phương pháp tiếp cận khác nhau. Toàn bộ lịch nội dung của bạn — bản sao và hình ảnh — nằm trong một bảng tính, sẵn sàng để lên lịch hoặc xuất.
Hướng dẫn từng bước
Bây giờ chúng ta hãy xem AI Sheets hoạt động như thế nào. Chúng tôi sẽ sử dụng các mô hình mở để mở khóa kiến thức trong các công thức nấu ăn viết tay như những gì bạn có thể tìm thấy từ bà của mình.
Tải dữ liệu của bạn lên
Chúng tôi có một thư mục chứa các ảnh mà chúng ta có thể tải lên ứng dụng.
Kết quả là một bảng tính như thế này:
Hiểu các hành động AI
Mỗi cột trong bảng tính của bạn có thể được chuyển đổi, trích xuất, truy vấn và bất cứ điều gì bạn có thể tưởng tượng bằng các hành động AI.
Để xem điều này hoạt động, hãy nhấp vào lớp phủ trên bất kỳ cột nào:
Các cột hình ảnh đi kèm với các hoạt động hình ảnh như trích xuất văn bản, hỏi hình ảnh, phát hiện đối tượng, tô màu, thêm văn bản và bất kỳ hành động tùy chỉnh nào bạn có thể nghĩ ra.
Các cột văn bản bao gồm tóm tắt, trích xuất từ khóa, dịch và các hành động tùy chỉnh.
Một lời nhắc và một mô hình xác định mỗi hành động AI. Hãy xem chúng ta có thể làm gì với bộ dữ liệu công thức nấu ăn viết tay của mình!
Trích xuất văn bản từ hình ảnh.
AI Sheets đi kèm với một mẫu để trích xuất văn bản từ hình ảnh:
Kết quả của hành động này là một cột do AI tạo ra với văn bản được phiên âm. Hãy xem một ví dụ:
Đối với hình ảnh trên, văn bản được trích xuất như sau:
BIÊN BẢN:
Từ
Đến
1 Hộp Hỗn hợp bánh vàng hiệu Duncan Hines
1 Hộp pudding chanh ăn liền
2/3 cốc nước
1/2 cốc dầu Mozola
4 quả trứng
Hương chanh theo khẩu vị.
Cho vào tô trộn và đánh trong 10 phút.
và HÃY NHỚ… để IN CHẤT LƯỢNG
GỌI HOẶC VIẾT
Gatling & Pierce
NHÀ IN
ĐIỆN THOẠI 332-2579
22 NĂM PHỤC VỤ TẠI CAROLINA ĐÔNG BẮC
Không tệ! Nhưng chúng ta thấy nó đã bao gồm văn bản in cho phần đầu và phần chân trang, và chúng ta quan tâm đến văn bản công thức. Lý do văn bản này được đưa vào là vì chúng ta đã sử dụng mẫu mặc định để trích xuất văn bản, đó là:
Trích xuất và phiên âm tất cả văn bản nhìn thấy được trong hình ảnh, bao gồm biển báo, nhãn, tài liệu hoặc bất kỳ nội dung viết nào.
Bây giờ hãy thử một lời nhắc tùy chỉnh.
Đây là chi tiết công thức được trích xuất:
- 1 hộp Hỗn hợp bánh vàng hiệu Duncan Hines
- 1 hộp pudding chanh ăn liền
- 2/3 cốc nước
- 1/2 cốc dầu Mazola
- 4 quả trứng
- Hương chanh theo khẩu vị
- Cho vào tô trộn và đánh trong 10 phút
Điều này thật tuyệt vời! Nhưng còn những hình ảnh phức tạp hơn thì sao? Mặc định, AI Sheets sử dụng các mô hình có sự cân bằng tốt giữa tốc độ và độ chính xác, nhưng bạn có thể thử nghiệm với hàng nghìn mô hình. Ví dụ trên sử dụng mô hình ngôn ngữ thị giác mặc định Qwen/Qwen2.5-VL-7B-Instruct.
Hãy thử nghiệm một mô hình suy luận SoTA, Qwen/Qwen3-VL-235B-A22B-Reasoning, với một hình ảnh thử thách hơn.
Đây là so sánh giữa các mô hình:
Cả hai mô hình đều cho ra kết quả rất giống nhau, nhưng có hai chi tiết tinh tế nhưng quan trọng (in đậm): nhiệt độ và một thành phần chính: rau bina.
Làm sạch, chuyển đổi và làm phong phú văn bản
Sau khi chúng tôi hài lòng với văn bản được trích xuất, chúng ta có thể tiếp tục chuyển đổi và làm phong phú nó. Chúng ta cần thực hiện một hành động AI với cột mới như sau:
Bây giờ chúng ta có một trang HTML được cấu trúc đẹp cho mỗi công thức nấu ăn:
Chỉnh sửa và chuyển đổi hình ảnh.
Cuối cùng, AI Sheets tích hợp các mô hình ảnh-sang-ảnh như Qwen-Image-Edit. Điều này có nghĩa là bạn có thể chạy các hành động AI để chuyển đổi và làm phong phú hình ảnh của mình.
Ví dụ, giả sử bạn muốn tạo phong cách cũ cho các công thức nấu ăn của mình, bạn cần vào cột và sử dụng mẫu B&W như sau:
Kết quả:
Xuất bộ dữ liệu của bạn
Khi bạn hài lòng với bộ dữ liệu mới của mình, hãy xuất nó lên Hub! Bạn có thể xuất nó vào một tổ chức, hồ sơ cá nhân của bạn hoặc làm cho nó riêng tư nếu bạn không muốn chia sẻ nó với cộng đồng.
Bạn có thể xem bộ dữ liệu mà chúng ta vừa tạo.
Sắp tới thì sao?
Bạn có thể thử AI Sheets mà không cần cài đặt hoặc tải xuống và triển khai nó cục bộ từ kho lưu trữ GitHub. Để chạy cục bộ và tận dụng tối đa nó, chúng tôi khuyên bạn nên đăng ký gói PRO và nhận gấp 20 lần mức sử dụng suy luận hàng tháng.
Nếu bạn có câu hỏi hoặc đề xuất, hãy cho chúng tôi biết trong tab Cộng đồng hoặc bằng cách mở một vấn đề trên GitHub.
Bài viết liên quan từ Blog của chúng tôi
Cộng đồng
Link bài viết gốc
- Tags:
- Ai
- 21 October 2025
- Huggingface.co