🧠 SQaLe- Kích hoạt các mô hình Text-to-SQL mới với bộ dữ liệu khổng lồ của chúng tôi

November 19, 2025
7 min read

🧠 SQaLe: Mở ra các mô hình Text-to-SQL mới với bộ dữ liệu khổng lồ của chúng tôi

Đăng bởi Cornelius Wolff trên Hugging Face

TL;DR

SQaLe là một bộ dữ liệu lớn từ văn bản đến SQL, được xây dựng từ hơn 139.000 lược đồ cơ sở dữ liệu và hơn 500.000 bộ ba đã được xác thực bao gồm lược đồ, câu hỏi và truy vấn. Nó được tạo ra để khắc phục những hạn chế của các tài nguyên hiện có về quy mô, sự đa dạng và tính chân thực, cung cấp nền tảng để đào tạo và đánh giá các mô hình dịch ngôn ngữ tự nhiên thành SQL. Bộ dữ liệu phản ánh độ phức tạp thực tế của lược đồ và có thể được tải trực tiếp từ Hugging Face Hub cho mục đích nghiên cứu hoặc tinh chỉnh:

python from datasets import load_dataset

dataset = load_dataset(“trl-lab/SQaLe-text-to-SQL-dataset”, split=“train”) example = dataset[0] print(example[“schema”], example[“question”], example[“query”])

Link bài báo: OpenReview

Link bộ dữ liệu: trl-lab/SQaLe-text-to-SQL-dataset

Tại sao chúng tôi xây dựng SQaLe

Những tiến bộ gần đây trong các mô hình ngôn ngữ lớn đã đạt được những bước tiến đáng kể trong việc dịch ngôn ngữ tự nhiên thành SQL. Tuy nhiên, hầu hết các điểm chuẩn chỉ chứa vài nghìn ví dụ, điều này hạn chế khả năng đào tạo hoặc kiểm tra các mô hình cần khái quát hóa cho các cơ sở dữ liệu mới. Nhiều bộ dữ liệu cũng dựa trên các lược đồ học thuật nhỏ với ít bảng và quy ước đặt tên được tiêu chuẩn hóa, trong khi các cơ sở dữ liệu sản xuất phức tạp và đa dạng hơn nhiều.

SQaLe được phát triển để thu hẹp khoảng cách này. Nó cung cấp một nguồn tài nguyên đủ lớn để hỗ trợ việc đào tạo LLM, đủ thực tế để phản ánh sự đa dạng của lược đồ thực tế và đã được xác thực để đảm bảo rằng mỗi truy vấn SQL đều có thể thực thi được và phù hợp với câu hỏi ngôn ngữ tự nhiên của nó. Mục tiêu là đưa nghiên cứu text-to-SQL đến gần hơn với hiệu suất trong thế giới thực và cho phép đào tạo cũng như đánh giá đáng tin cậy hơn các mô hình text-to-SQL mới.

Cách nó được tạo ra

Tổng quan về quy trình tạo SQaLe.

Thu thập và mở rộng lược đồ Quy trình bắt đầu với 22.989 lược đồ được lấy từ SchemaPile, một bộ sưu tập lớn các lược đồ cơ sở dữ liệu quan hệ thực tế. Mỗi lược đồ được mở rộng bằng cách sử dụng một mô hình ngôn ngữ lớn trong khi vẫn duy trì các quy ước đặt tên, chuẩn hóa và cấu trúc khóa ngoại thực tế. Điều này tạo ra tổng cộng 135.875 lược đồ riêng lẻ.
Tổng hợp câu hỏi Đối với mỗi lược đồ, các câu hỏi ngôn ngữ tự nhiên đa dạng được tạo ra dựa trên các ví dụ từ Spider 2.0 và BIRD. Các câu hỏi có phong cách và độ khó khác nhau và được thiết kế để tạo ra các truy vấn có số lượng join và toán tử khác nhau.
Tạo và xác thực SQL Các câu lệnh SQL ứng cử viên được tạo ra và sau đó được xác thực thông qua việc thực thi đối với các lược đồ tương ứng của chúng. Chỉ những truy vấn chạy thành công và phù hợp về ngữ nghĩa với câu hỏi của chúng mới được giữ lại.

Quy trình này, được thực hiện ở quy mô lớn trên tối đa một trăm GPU, đã tạo ra 517.676 bộ ba đã được xác minh kết hợp thông tin lược đồ, câu hỏi và truy vấn.

Tổng quan về bộ dữ liệu

Thống kê	SQaLe	Spider 2.0	BIRD	SynSQL
Lược đồ	135.875	236	80	16.575
Số bảng trung bình mỗi lược đồ	91	7	5	10
Số cột trung bình mỗi lược đồ	435	89	39	72
Khóa ngoại	13.201.052	0	526	159.547
Bộ ba	517.676	250	10.962	2.544.390
Truy vấn có JOIN	76%	72%	76%	89%

Phân phối số lượng cột	Phân phối số lượng bảng liên quan

Đặc điểm chính

Độ phức tạp lược đồ thực tế bao gồm các cơ sở dữ liệu từ lược đồ đơn miền nhỏ đến hệ thống doanh nghiệp lớn.
Thành phần truy vấn đa dạng bao gồm tổng hợp, truy vấn con lồng nhau, phép toán tập hợp và so sánh.
Biến thể tự nhiên về cách diễn đạt và ý định với các câu hỏi nắm bắt ngôn ngữ phân tích hàng ngày.
SQL đã xác thực thực thi đảm bảo tính nhất quán giữa câu hỏi, lược đồ và truy vấn.

Ví dụ mẫu

text Schema (DDL): CREATE TABLE employees (id INT, name TEXT, dept TEXT, salary INT, … ); Question: “Find total salary by department.” Query: SELECT dept, SUM(salary) FROM employees GROUP BY dept;

Cách sử dụng bộ dữ liệu

Bạn có thể tải SQaLe trực tiếp từ thư viện Hugging Face Datasets:

python from datasets import load_dataset

dataset = load_dataset(“trl-lab/SQaLe-text-to-SQL-dataset”, split=“train”)

Xem nhanh một bộ ba mẫu

example = dataset[0] print(example[“schema”], example[“question”], example[“query”])

Mỗi mục chứa lược đồ cơ sở dữ liệu đầy đủ, một câu hỏi ngôn ngữ tự nhiên, truy vấn SQL tương ứng và siêu dữ liệu như số lượng join và độ dài token.

Bạn có thể sử dụng bộ dữ liệu để đào tạo trước hoặc tinh chỉnh các mô hình sequence-to-sequence cho việc tạo text-to-SQL, để đánh giá khả năng suy luận lược đồ hoặc để thiết kế các thử nghiệm học theo chương trình dựa trên độ phức tạp của truy vấn.

Mục đích sử dụng

Đào tạo và đánh giá các mô hình text-to-SQL và phân tích ngữ nghĩa.
Nghiên cứu về hiểu lược đồ, khái quát hóa theo thành phần và suy luận join.
Đánh giá LLM trên các ngữ cảnh cơ sở dữ liệu thực tế.
Tạo các tập dữ liệu con cho các thử nghiệm tập trung vào loại truy vấn hoặc quy mô lược đồ.

Trích dẫn

Nếu bạn sử dụng SQaLe trong nghiên cứu của mình, vui lòng trích dẫn:

bibtex @inproceedings{ wolff2025sqale, title={{SQ}aLe: A large text-to-{SQL} corpus grounded in real schemas}, author={Cornelius Wolff and Daniel Gomm and Madelon Hulsebos}, booktitle={EurIPS 2025 Workshop: AI for Tabular Data}, year={2025}, url={https://openreview.net/forum?id=6PsKDjgoEy} }

Suy nghĩ kết thúc

SQaLe đại diện cho một bước tiến đáng kể hướng tới nghiên cứu text-to-SQL quy mô lớn thực tế, tuy nhiên nó vẫn chưa phải là câu trả lời cuối cùng. Mặc dù quy mô và sự đa dạng của lược đồ của nó vượt xa các điểm chuẩn hiện có, nó vẫn chưa đạt được các yêu cầu dữ liệu thực tế cần thiết để đào tạo và đánh giá thế hệ tiếp theo của các mô hình rất lớn. Việc xây dựng các bộ dữ liệu kết hợp tính chân thực của môi trường sản xuất với quy mô khổng lồ mà các kiến trúc hiện đại đòi hỏi vẫn là một thách thức mở. Vẫn còn nhiều điều để khám phá trong việc tạo ra các kho dữ liệu text-to-SQL phong phú hơn, đa dạng hơn và giàu ngữ cảnh hơn phản ánh cách cơ sở dữ liệu thực sự được sử dụng trong thực tế. SQaLe là nền tảng để xây dựng - một bước tiến tới các tài nguyên toàn diện, có độ trung thực cao sẽ cung cấp năng lượng cho làn sóng giao diện ngôn ngữ tự nhiên tiếp theo cho dữ liệu có cấu trúc.

AI Today - SkyAI