Giới thiệu AI Sheets- một công cụ để làm việc với các bộ dữ liệu bằng cách sử dụng các mô hình AI mở!
- 17 min read
Giới thiệu AI Sheets: một công cụ để làm việc với các tập dữ liệu sử dụng các mô hình AI mở!
🧭TL;DR
Hugging Face AI Sheets là một công cụ mã nguồn mở mới, mã nguồn mở để xây dựng, làm phong phú và chuyển đổi các tập dữ liệu bằng cách sử dụng các mô hình AI mà không cần mã. Công cụ này có thể được triển khai cục bộ hoặc trên Hub. Nó cho phép bạn sử dụng hàng ngàn mô hình mở từ Hugging Face Hub thông qua Inference Providers hoặc các mô hình cục bộ, bao gồm cả gpt-oss từ OpenAI!
Các liên kết hữu ích
Dùng thử công cụ miễn phí (không cần cài đặt): https://huggingface.co/spaces/aisheets/sheets Cài đặt và chạy cục bộ: https://github.com/huggingface/aisheets
AI Sheets là gì
- AI Sheets * là một công cụ không cần code để xây dựng, chuyển đổi và làm phong phú các tập dữ liệu bằng cách sử dụng các mô hình AI (mở). Nó được tích hợp chặt chẽ với Hub và hệ sinh thái AI mã nguồn mở.
AI Sheets sử dụng giao diện người dùng dễ học, tương tự như bảng tính. Công cụ này được xây dựng dựa trên thử nghiệm nhanh chóng, bắt đầu với các tập dữ liệu nhỏ trước khi chạy các quy trình tạo dữ liệu tốn kém/dài.
Trong AI Sheets, các cột mới được tạo bằng cách viết lời nhắc và bạn có thể lặp lại bao nhiêu lần tùy thích và chỉnh sửa các ô/xác thực các ô để dạy cho mô hình những gì bạn muốn. Nhưng sẽ nói thêm về điều này sau!
Tôi có thể sử dụng nó để làm gì
Bạn có thể sử dụng AI Sheets để:
So sánh và kiểm tra mô hình. Hãy tưởng tượng bạn muốn kiểm tra các mô hình mới nhất trên dữ liệu của mình. Bạn có thể nhập một tập dữ liệu với các lời nhắc/câu hỏi và tạo một số cột (mỗi cột cho một mô hình) với một lời nhắc như sau: Trả lời những điều sau: {{prompt}}, trong đó prompt là một cột trong tập dữ liệu của bạn. Bạn có thể xác thực kết quả theo cách thủ công hoặc tạo một cột mới với LLM làm lời nhắc đánh giá như sau: Đánh giá các câu trả lời cho câu hỏi sau: {{prompt}}. Câu trả lời 1: {{model1}}. Câu trả lời 2: {{model2}}, trong đó model1 và model2 là các cột trong tập dữ liệu của bạn với các câu trả lời mô hình khác nhau.
Cải thiện lời nhắc cho dữ liệu và các mô hình cụ thể của bạn. Hãy tưởng tượng bạn muốn xây dựng một ứng dụng để xử lý các yêu cầu của khách hàng và đưa ra các câu trả lời tự động. Bạn có thể tải một tập dữ liệu mẫu với các yêu cầu của khách hàng và bắt đầu chơi và lặp lại với các lời nhắc và mô hình khác nhau để tạo ra các phản hồi. Một tính năng thú vị của AI Sheets là bạn có thể cung cấp phản hồi bằng cách chỉnh sửa hoặc xác thực các ô. Các ô ví dụ này sẽ được thêm vào lời nhắc của bạn một cách tự động. Bạn có thể coi nó như một công cụ để tinh chỉnh lời nhắc và thêm một vài ví dụ vào lời nhắc của bạn một cách rất hiệu quả, bằng cách xem dữ liệu của bạn trong thời gian thực!
Chuyển đổi một tập dữ liệu. Hãy tưởng tượng bạn muốn dọn dẹp một cột trong tập dữ liệu của mình. Bạn có thể thêm một cột mới với một lời nhắc như Xóa các dấu chấm câu thừa khỏi văn bản sau: {{text}}, trong đó text là một cột trong tập dữ liệu của bạn chứa các văn bản bạn muốn dọn dẹp.
Phân loại một tập dữ liệu. Hãy tưởng tượng bạn muốn phân loại một số nội dung trong tập dữ liệu của mình. Bạn có thể thêm một cột mới với một lời nhắc như Phân loại văn bản sau: {{text}}, trong đó text là một cột trong tập dữ liệu của bạn chứa các văn bản bạn muốn phân loại.
Phân tích một tập dữ liệu. Hãy tưởng tượng bạn muốn trích xuất những ý tưởng chính trong tập dữ liệu của mình. Bạn có thể thêm một cột mới với một lời nhắc như sau: Trích xuất những ý tưởng quan trọng nhất từ những điều sau: {{text}}, trong đó text là một cột trong tập dữ liệu của bạn chứa các văn bản bạn muốn phân tích.
Làm phong phú một tập dữ liệu. Hãy tưởng tượng bạn có một tập dữ liệu với các địa chỉ bị thiếu mã zip. Bạn có thể thêm một cột mới với một lời nhắc như sau: Tìm mã zip của địa chỉ sau: {{address}} (trong trường hợp này, bạn phải bật tùy chọn “Tìm kiếm trên web” để đảm bảo kết quả chính xác).
Tạo một tập dữ liệu tổng hợp. Hãy tưởng tượng bạn cần một tập dữ liệu với các email thực tế, nhưng dữ liệu đó không có sẵn vì lý do bảo mật dữ liệu. Bạn có thể tạo một tập dữ liệu với một lời nhắc như sau: Viết một mô tả ngắn gọn về một chuyên gia trong lĩnh vực các công ty dược phẩm và đặt tên cho cột là person_bio. Sau đó, bạn có thể tạo một cột khác với một lời nhắc như thế này Viết một email chuyên nghiệp thực tế như thể nó được viết bởi người sau: {{person_bio}}.
Bây giờ, hãy đi sâu vào cách sử dụng nó!
Cách sử dụng nó
AI Sheets cung cấp cho bạn hai cách để bắt đầu: nhập dữ liệu hiện có hoặc tạo tập dữ liệu từ đầu. Sau khi dữ liệu của bạn được tải, bạn có thể tinh chỉnh nó bằng cách thêm cột, chỉnh sửa ô và tạo lại nội dung.

Bắt đầu
Để bắt đầu, bạn cần tạo một cái từ đầu bằng cách mô tả nó bằng ngôn ngữ tự nhiên hoặc nhập một tập dữ liệu hiện có.
Tạo tập dữ liệu từ đầu
Phù hợp nhất cho: Làm quen với AI Sheets, động não, thử nghiệm nhanh và tạo các tập dữ liệu thử nghiệm.
Hãy coi đây là một tính năng tự động tạo tập dữ liệu hoặc chuyển lời nhắc thành tập dữ liệu—bạn mô tả những gì bạn muốn và AI Sheets tạo cấu trúc và nội dung tập dữ liệu cho bạn.
Khi nào nên sử dụng điều này:
- Bạn đang khám phá AI Sheets lần đầu tiên
- Bạn cần dữ liệu tổng hợp để thử nghiệm hoặc tạo mẫu
- Độ chính xác và tính đa dạng của dữ liệu không quan trọng (ví dụ: các trường hợp sử dụng động não, nghiên cứu nhanh, tạo tập dữ liệu thử nghiệm)
- Bạn muốn thử nghiệm các ý tưởng một cách nhanh chóng
Cách thức hoạt động:
- Mô tả tập dữ liệu bạn muốn trong khu vực lời nhắc
- Ví dụ: “Một danh sách các công ty khởi nghiệp hư cấu có tên, ngành và khẩu hiệu”
- AI Sheets tạo lược đồ và tạo 5 hàng mẫu
- Mở rộng tối đa 1.000 hàng hoặc sửa đổi lời nhắc để thay đổi cấu trúc
Ví dụ
Nếu bạn nhập lời nhắc sau: các thành phố trên thế giới, cùng với các quốc gia mà chúng thuộc về và hình ảnh mang tính bước ngoặt cho mỗi thành phố, được tạo theo phong cách Ghibli:

AI Sheets sẽ tự động tạo một tập dữ liệu có ba cột, như hình bên dưới:

Tập dữ liệu này chỉ chứa năm hàng, nhưng bạn có thể thêm nhiều ô hơn bằng cách kéo xuống trên mỗi cột, bao gồm cả cột hình ảnh! Bạn cũng có thể viết các mục vào bất kỳ ô nào và hoàn thành các ô khác bằng cách kéo.

Các phần sau đây sẽ hướng dẫn bạn cách lặp lại và mở rộng tập dữ liệu.
Nhập tập dữ liệu của bạn (được đề xuất)
- Phù hợp nhất cho: Hầu hết các trường hợp sử dụng nơi bạn muốn chuyển đổi, phân loại, làm phong phú và phân tích dữ liệu thế giới thực.
Đề xuất cho hầu hết các trường hợp sử dụng, vì việc nhập dữ liệu thực tế cho phép bạn kiểm soát và linh hoạt hơn so với việc bắt đầu từ đầu.
-
Khi nào nên sử dụng điều này:
- Bạn có dữ liệu hiện có để chuyển đổi hoặc làm phong phú bằng các mô hình AI
- Bạn muốn tạo dữ liệu tổng hợp và độ chính xác và tính đa dạng là quan trọng
-
Cách thức hoạt động:
- Tải lên dữ liệu của bạn ở định dạng XLS, TSV, CSV hoặc Parquet
- Đảm bảo tệp của bạn bao gồm ít nhất một tên cột và một hàng dữ liệu
- Tải lên tối đa 1.000 hàng (số cột không giới hạn)
- Dữ liệu của bạn xuất hiện ở định dạng bảng tính quen thuộc
-
Mẹo chuyên nghiệp: Nếu tệp của bạn chứa dữ liệu tối thiểu, bạn có thể thêm thủ công nhiều mục hơn bằng cách nhập trực tiếp vào bảng tính.
Làm việc với tập dữ liệu của bạn
Sau khi dữ liệu của bạn được tải (bất kể bạn bắt đầu như thế nào), bạn sẽ thấy nó trong một giao diện bảng tính có thể chỉnh sửa. Đây là những gì bạn cần biết:
Tìm hiểu về AI Sheets
- Các ô đã nhập: Có thể chỉnh sửa thủ công nhưng không thể sửa đổi bằng các lời nhắc AI
- Các ô do AI tạo: Có thể tạo lại và tinh chỉnh bằng các lời nhắc và phản hồi của bạn (chỉnh sửa + thumbs-up)
- Các cột mới: Luôn được hỗ trợ bởi AI và có thể tùy chỉnh hoàn toàn
Bắt đầu với các cột AI
- Nhấp vào nút “+” để thêm một cột mới
- Chọn từ các hành động được đề xuất:
- Trích xuất thông tin cụ thể
- Tóm tắt văn bản dài
- Dịch nội dung
- Hoặc viết lời nhắc tùy chỉnh với “Làm điều gì đó với {{column}}”
Tinh chỉnh và mở rộng tập dữ liệu
Bây giờ bạn đã có các cột AI, bạn có thể cải thiện kết quả và mở rộng dữ liệu của mình. Bạn có thể cải thiện kết quả bằng cách cung cấp phản hồi thông qua các chỉnh sửa thủ công và thích hoặc bằng cách điều chỉnh cấu hình cột. Cả hai đều yêu cầu tạo lại để có hiệu lực.

1. Cách thêm nhiều ô hơn
- Kéo xuống: Từ ô cuối cùng trong một cột để tạo thêm các hàng ngay lập tức
- Không cần tạo lại - các ô mới được tạo ngay lập tức
- Bạn có thể sử dụng cái này để tạo lại các ô bị lỗi
2. Chỉnh sửa thủ công và phản hồi
- Chỉnh sửa ô: Nhấp vào bất kỳ ô nào để chỉnh sửa trực tiếp nội dung - điều này cung cấp cho mô hình các ví dụ về đầu ra ưa thích của bạn
- Thích kết quả: Sử dụng thumbs-up để đánh dấu các ví dụ về đầu ra tốt
- Tạo lại để áp dụng phản hồi cho các ô khác trong cột.
Dưới lớp vỏ, các ô được chỉnh sửa thủ công và thích này sẽ được sử dụng làm một vài ví dụ để tạo các ô khi bạn tạo lại hoặc thêm nhiều ô hơn trong cột!
3. Điều chỉnh cấu hình cột Thay đổi lời nhắc, chuyển đổi mô hình hoặc nhà cung cấp hoặc sửa đổi cài đặt, sau đó tạo lại để có kết quả tốt hơn.
Viết lại lời nhắc
- Mỗi cột có lời nhắc tạo của riêng nó
- Chỉnh sửa bất cứ lúc nào để thay đổi hoặc cải thiện đầu ra
- Cột được tạo lại với các kết quả mới
Chuyển đổi mô hình/nhà cung cấp
- Thử các mô hình khác nhau để có hiệu suất khác nhau hoặc so sánh chúng.
- Một số chính xác hơn, sáng tạo hơn hoặc có cấu trúc hơn những mô hình khác cho các tác vụ cụ thể.
- Một số nhà cung cấp có suy luận nhanh hơn và độ dài ngữ cảnh khác nhau; kiểm tra các nhà cung cấp khác nhau cho mô hình đã chọn.
Chuyển đổi Tìm kiếm
- Bật: Mô hình kéo thông tin cập nhật từ web
- Tắt: Tạo ngoại tuyến, chỉ mô hình
Xuất tập dữ liệu cuối cùng của bạn lên Hub
Sau khi bạn hài lòng với tập dữ liệu mới của mình, hãy xuất nó lên Hub! Điều này có thêm lợi ích là tạo ra một tệp cấu hình mà bạn có thể sử dụng lại để (1) tạo thêm dữ liệu với HF jobs sử dụng tập lệnh này và (2) sử dụng lại lời nhắc cho các ứng dụng hạ nguồn, bao gồm một vài ảnh chụp từ các ô được chỉnh sửa và thích của bạn.

Đây là một ví dụ tập dữ liệu được tạo bằng AISheets, tạo cấu hình này.
Chạy các tập lệnh tạo dữ liệu bằng HF Jobs
Nếu bạn muốn tạo một tập dữ liệu lớn hơn, bạn có thể sử dụng cấu hình và tập lệnh đã nói ở trên, như sau:
hf jobs uv run \
-s HF_TOKEN=<HF_TOKEN> \
https://huggingface.co/datasets/aisheets/uv-scripts/raw/main/extend_dataset/script.py \ # tập lệnh để chạy pipeline
--config https://huggingface.co/datasets/dvilasuero/nemotron-personas-kimi-questions/raw/main/config.yml \ # cấu hình với các lời nhắc
--num-rows 100 \ # giới hạn ở 100 hàng, để trống để có tập dữ liệu đầy đủ
nvidia/Nemotron-Personas dvilasuero/nemotron-kimi-qa-distilled
Ví dụ
Phần này cung cấp các ví dụ về các tập dữ liệu bạn có thể xây dựng với AI Sheets để truyền cảm hứng cho dự án tiếp theo của bạn.
Kiểm tra và so sánh mô hình
AI Sheets là người bạn đồng hành hoàn hảo của bạn nếu bạn muốn kiểm tra các mô hình mới nhất trên các lời nhắc và dữ liệu khác nhau mà bạn quan tâm.
Bạn chỉ cần nhập một tập dữ liệu (hoặc tạo một tập dữ liệu từ đầu) và sau đó thêm các cột khác nhau với các mô hình bạn muốn kiểm tra.
Sau đó, bạn có thể kiểm tra kết quả theo cách thủ công hoặc thêm một cột để sử dụng LLM để đánh giá chất lượng của từng mô hình.
Dưới đây là một ví dụ, so sánh các mô hình biên giới mở cho các ứng dụng web mini. AI Sheets cho phép bạn xem các kết quả tương tác và chơi với từng ứng dụng. Ngoài ra, tập dữ liệu bao gồm một số cột sử dụng LLM để đánh giá và so sánh chất lượng của các ứng dụng.

Ví dụ tập dữ liệu được xuất từ phiên như cái chúng ta vừa mô tả: : https://huggingface.co/datasets/dvilasuero/jsvibes-qwen-gpt-oss-judged
Cấu hình:
columns:
gpt-oss:
modelName: openai/gpt-oss-120b
modelProvider: groq
userPrompt: Create a complete, runnable HTML+JS file implementing {{description}}
searchEnabled: false
columnsReferences:
- description
eval-qwen-coder:
modelName: Qwen/Qwen3-Coder-480B-A35B-Instruct
modelProvider: cerebras
userPrompt: "Please compare the two apps and tell me which one is better and why:\n\nApp description:\n\n{{description}}\n\nmodel 1:\n\n{{qwen3-coder}}\n\nmodel 2:\n\n{{gpt-oss}}\n\nKeep it very short and focus on whether they work well for the purpose, make sure they work and are not incomplete, and the code quality, not on visual appeal and unrequested features. Assume the models might provide non working solutions, so be careful to assess that\n\nRespond with:\n\nchosen: {model 1, model 2}\n\nreason: ..."
searchEnabled: false
columnsReferences:
- gpt-oss
- description
- qwen3-coder
eval-gpt-oss:
modelName: openai/gpt-oss-120b
modelProvider: groq
userPrompt: "Please compare the two apps and tell me which one is better and why:\n\nApp description:\n\n{{description}}\n\nmodel 1:\n\n{{qwen3-coder}}\n\nmodel 2:\n\n{{gpt-oss}}\n\nKeep it very short and focus on whether they work well for the purpose, make sure they work and are not incomplete, and the code quality, not on visual appeal and unrequested features. Assume the models might provide non working solutions, so be careful to assess that\n\nRespond with:\n\nchosen: {model 1, model 2}\n\nreason: ..."
searchEnabled: false
columnsReferences:
- gpt-oss
- description
- qwen3-coder
eval-kimi:
modelName: moonshotai/Kimi-K2-Instruct
modelProvider: groq
userPrompt: "Please compare the two apps and tell me which one is better and why:\n\nApp description:\n\n{{description}}\n\nmodel 1:\n\n{{qwen3-coder}}\n\nmodel 2:\n\n{{gpt-oss}}\n\nKeep it very short and focus on whether they work well for the purpose, make sure they work and are not incomplete, and the code quality, not on visual appeal and unrequested features. Assume the models might provide non working solutions, so be careful to assess that\n\nRespond with:\n\nchosen: {model 1, model 2}\n\nreason: ..."
searchEnabled: false
columnsReferences:
- gpt-oss
- description
- qwen3-coder
Thêm danh mục vào tập dữ liệu Hub
AI Sheets cũng có thể tăng cường các tập dữ liệu hiện có và giúp bạn thực hiện các dự án khoa học dữ liệu và phân tích dữ liệu nhanh chóng liên quan đến phân tích các tập dữ liệu văn bản.
Đây là một ví dụ về cách thêm danh mục vào một tập dữ liệu Hub hiện có.

Một tính năng thú vị là bạn có thể xác thực hoặc chỉnh sửa thủ công các đầu ra phân loại ban đầu và tạo lại toàn bộ cột để cải thiện kết quả, như hình bên dưới:

Cấu hình:
columns:
category:
modelName: moonshotai/Kimi-K2-Instruct
modelProvider: groq
userPrompt: |-
Categorize the main topics of the following question:
{{question}}
prompt: "
You are a rigorous, intelligent data-processing engine. Generate only the
requested response format, with no explanations following the user
instruction. You might be provided with positive, accurate examples of how
the user instruction must be completed.
# Examples
The following are correct, accurate example outputs with respect to the
user instruction:
## Example
### Input
question: Given the area of a parallelogram is 420 square centimeters and
its height is 35 cm, find the corresponding base. Show all work and label
your answer.
### Output
Mathematics – Geometry
## Example
### Input
question: What is the minimum number of red squares required to ensure
that each of $n$ green axis-parallel squares intersects 4 red squares,
assuming the green squares can be scaled and translated arbitrarily
without intersecting each other?
### Output
Geometry, Combinatorics
# User instruction
Categorize the main topics of the following question:
{{question}}
# Your response
"
searchEnabled: false
columnsReferences:
- question
Đánh giá các mô hình bằng LLM-as-Judge
Một trường hợp sử dụng khác là đánh giá đầu ra của các mô hình bằng cách sử dụng phương pháp LLM làm người phán xét. Điều này có thể hữu ích để so sánh các mô hình hoặc đánh giá chất lượng của một tập dữ liệu hiện có, ví dụ: tinh chỉnh một mô hình trên một tập dữ liệu hiện có trên Hugging Face Hub.
Trong ví dụ đầu tiên, chúng tôi đã kết hợp thử nghiệm tính rung cảm với một cột LLM làm người phán xét. Đây là lời nhắc của người phán xét:

Ví dụ tập dữ liệu: https://huggingface.co/datasets/dvilasuero/jsvibes-qwen-gpt-oss-judged
Cấu hình:
columns:
object_name:
modelName: meta-llama/Llama-3.3-70B-Instruct
modelProvider: groq
userPrompt: Generate the name of a common day to day object
searchEnabled: false
columnsReferences: []
object_description:
modelName: meta-llama/Llama-3.3-70B-Instruct
modelProvider: groq
userPrompt: Describe a {{object_name}} with adjectives and short word groups separated by commas. No more than 10 words
searchEnabled: false
columnsReferences:
- object_name
object_image_with_desc:
modelName: multimodalart/isometric-skeumorphic-3d-bnb
modelProvider: fal-ai
userPrompt: RBNBICN, icon, white background, isometric perspective, {{object_name}} , {{object_description}}
searchEnabled: false
columnsReferences:
- object_description
- object_name
object_image_without_desc:
modelName: multimodalart/isometric-skeumorphic-3d-bnb
modelProvider: fal-ai
userPrompt: "RBNBICN, icon, white background, isometric perspective, {{object_name}} "
searchEnabled: false
columnsReferences:
- object_name
glowing_colors:
modelName: multimodalart/isometric-skeumorphic-3d-bnb
modelProvider: fal-ai
userPrompt: "RBNBICN, icon, white background, isometric perspective, {{object_name}}, glowing colors "
searchEnabled: false
columnsReferences:
- object_name
flux:
modelName: black-forest-labs/FLUX.1-dev
modelProvider: fal-ai
userPrompt: Create an isometric icon for the object {{object_name}} based on {{object_description}}
searchEnabled: false
columnsReferences:
- object_description
- object_name
Các bước tiếp theo
Bạn có thể dùng thử AI Sheets mà không cần cài đặt bất cứ thứ gì hoặc tải xuống và triển khai nó cục bộ từ kho lưu trữ GitHub. Để chạy cục bộ và tận dụng tối đa, chúng tôi khuyên bạn nên đăng ký PRO và nhận 20 lần sử dụng suy luận hàng tháng.
Nếu bạn có câu hỏi hoặc đề xuất, hãy cho chúng tôi biết trong tab Cộng đồng hoặc bằng cách mở một vấn đề trên GitHub.
Link bài viết gốc
- Tags:
- Ai
- August 8, 2025
- Huggingface.co