SYNTH- biên giới dữ liệu mới

Không có mô tả

November 11, 2025
15 min read

SYNTH: Biên giới dữ liệu mới

Kể từ GPT-3, các mô hình ngôn ngữ chủ yếu được huấn luyện trên các bộ sưu tập lớn các kho lưu trữ web. Trong năm qua, các phòng thí nghiệm AI tiên phong đã xem xét lại phương pháp này khi họ chuyển sang các mô hình suy luận và tác nhân yêu cầu một lượng lớn dấu vết suy nghĩ, hành động hoặc lệnh gọi công cụ chưa được viết ra.

Chúng tôi phát hành SYNTH, một tập dữ liệu tổng hợp hoàn toàn tổng quát, đại diện cho một bước đột phá cơ bản so với mô hình tiền huấn luyện phổ biến: điều gì sẽ xảy ra nếu chúng ta huấn luyện để suy luận và tập trung vào việc đồng hóa kiến thức và kỹ năng quan trọng? Các điểm chuẩn cổ điển đã hoạt động dựa trên giả định này: MMLU, gsm8k, MATH, cuối cùng đều dựa trên các bộ sưu tập bài tập trung học.

SYNTH bắt nguồn từ 50.000 bài viết Wikipedia quan trọng, được mở rộng thành một bộ sưu tập rộng lớn các vấn đề và đường dẫn giải quyết, từ các bài tập toán học đến viết sáng tạo, trích xuất thông tin hoặc tổng hợp dựa trên nguồn. Mặc dù các dấu vết tương tự có thể có sẵn trong các tập dữ liệu tiền huấn luyện tiêu chuẩn, chúng bị cô lập và nhiễu, cuối cùng làm chậm quá trình học và trì hoãn việc tiếp thu các kỹ năng suy luận có giá trị.

Chúng tôi đã huấn luyện hai bộ suy luận nhỏ SOTA trên chưa đến 200 tỷ token từ SYNTH, tức là ít hơn 10 đến 50 lần dữ liệu so với các mô hình có hiệu suất tương tự hoặc thấp hơn. Baguettotron hiện là sản phẩm tốt nhất trong lớp trên các điểm chuẩn ngành chính (MMLU, gsm8k, HotPotQA). Monad với 56 triệu tham số là một đối thủ cạnh tranh cho mô hình khả dụng nhỏ nhất, vì nó đạt được hiệu suất không ngẫu nhiên trên cùng bộ điểm chuẩn.

Trực quan hóa Corpus chung Một biên giới mới về hiệu quả dữ liệu cho các mô hình nhỏ

Với bản phát hành này, chúng tôi đưa ra một số tuyên bố:

Với dữ liệu tổng hợp tập trung vào suy luận, các mô hình có thể đạt được kết quả SOTA với chi phí tính toán thấp: các lần chạy huấn luyện cuối cùng của chúng tôi đại diện cho chưa đến 1000 giờ H100. Toàn bộ dự án (bao gồm cả việc tạo synth và thử nghiệm) đã tiêu tốn 20.000 giờ H100, tất cả là nhờ kế hoạch tính toán Genci/Jean Zay.
Phạm vi bao phủ mở rộng các tác vụ và nguồn dữ liệu giải quyết hầu hết các vấn đề (“sự sụp đổ của mô hình”) liên quan đến việc tạo tổng hợp: SYNTH không chỉ dành cho tiếng Anh hay chỉ một lượt tương tác. Nó bao gồm một phần đáng kể nội dung bằng các ngôn ngữ Châu Âu khác và cho các trường hợp sử dụng hội thoại.
Các nguồn mở chất lượng cao nhỏ ngày càng có giá trị hơn các bộ sưu tập dữ liệu lớn có nguồn gốc không xác định. Sự kết hợp giữa các seed theo giấy phép mở và đầu ra của mô hình mà không có hạn chế sẽ giải quyết vấn đề có thể phát hành dữ liệu theo hầu hết các khu vực pháp lý.

Thiết kế một sân chơi tổng hợp mở

SYNTH kết hợp một bộ sưu tập gồm nhiều đường ống tổng hợp. Điều này có nghĩa trong thực tế là dữ liệu tổng hợp không chỉ đơn giản được tạo ra bằng cách gợi ý một mô hình lớn, mà là tích hợp các mô hình nhỏ được tinh chỉnh vào các quy trình làm việc phức tạp hơn hoặc ít phức tạp hơn. Động thái này được thúc đẩy bởi bốn yếu tố:

Kinh tế suy luận. Mặc dù huấn luyện tổng hợp hiệu quả dữ liệu hơn nhưng vẫn yêu cầu tạo ra hàng chục tỷ token.
Cơ sở hóa. Chúng tôi liên tục sử dụng các bài viết Wikipedia làm seed, đảm bảo mọi khẳng định thực tế trong dữ liệu được tạo ra có thể truy ngược lại nội dung bách khoa toàn thư có thể xác minh.
Đa dạng. Chúng tôi triển khai các ràng buộc ngẫu nhiên ở các giai đoạn khác nhau của đường ống tổng hợp, hoặc trong quá trình truy vấn hoặc tạo câu trả lời. Chúng tôi nhận thấy chúng giúp trình bày sự sụp đổ của mô hình và củng cố khả năng phục hồi của mô hình đối với nội dung không có kế hoạch.
Xác minh. Một số đường ống cho phép kiểm tra chính thức hoặc quản lý với tư cách LLM-làm-giám khảo. Chúng tôi thường nhận thấy hiệu suất tăng lên khi loại bỏ các dấu vết suy luận xấu/khó ngay cả khi hy sinh khối lượng dữ liệu.

Trên thực tế, cách tiếp cận này có nghĩa là toàn bộ hệ thống tốt hơn các thành phần riêng lẻ của nó. Quan trọng nhất, các mô hình được sử dụng để tạo tổng hợp có quyền truy cập vào thông tin mà mô hình huấn luyện cuối cùng sẽ không thấy trực tiếp: điều này có thể bao gồm, ví dụ, câu trả lời số cuối cùng từ các vấn đề toán học được chính thức hóa, thông tin bách khoa, các trao đổi hội thoại trước đó. Từ điểm này trở đi, chúng tạo ra các dấu vết suy luận và câu trả lời bằng cách mô phỏng rằng chúng không biết câu trả lời. Quá trình suy luận ngược (hoặc truy vết) này là một khối xây dựng cơ bản của việc huấn luyện bộ suy luận nhỏ: các mô hình không bao giờ đối mặt với câu trả lời thẳng thắn mà là một quy trình liên tục xây dựng câu trả lời.

Tổng quan về các đường ống tổng hợp SYNTH.

Để vận hành chương trình này, chúng tôi đã lấy cảm hứng đáng kể từ các ứng dụng LLM. Các khối xây dựng cốt lõi của mỗi đường ống bao gồm:

Các mô hình được tinh chỉnh được thiết kế để nhận đầu vào có cấu trúc và tạo đầu ra có cấu trúc, thay vì gợi ý tùy chỉnh.
Điều phối các quy trình suy luận ở quy mô lớn, thường liên quan đến nhiều bước/đầu vào.
Mở rộng tìm kiếm và truy xuất cho các seed bằng các mô hình nhúng.

Chúng tôi mong đợi mối liên hệ này giữa việc huấn luyện và triển khai LLM sẽ ngày càng sâu sắc hơn khi chúng tôi mở rộng SYNTH cho nhiều trường hợp sử dụng tác nhân hơn.

SYNTH được cấu trúc xung quanh một “lõi bộ nhớ”, đó là các bài viết Wikipedia quan trọng. Trong hai thập kỷ qua, hàng nghìn người đóng góp đã chọn một bộ chủ đề cốt lõi mà mọi bách khoa toàn thư nên có: đó là một lựa chọn đồng tâm bắt đầu ở cấp 1 (10 bài viết) lên đến cấp 5 (50.000 bài viết). SYNTH bao gồm điểm khởi đầu là tất cả các bài viết được giới thiệu ở cấp 5. Nó tiếp tục mở rộng dựa trên lựa chọn này bằng cách tăng cường phạm vi phủ sóng của các lĩnh vực chuyên biệt hơn (vật lý, hóa học, luật…) thông qua việc mở rộng có mục tiêu các biểu đồ tri thức wikidata. Khả năng sử dụng của tài nguyên này còn được tăng cường bởi dự án Structured Wikipedia từ Wikimedia Enterprise: bằng cách phân tích trực tiếp các bài viết Wikipedia được hiển thị dưới dạng html, Structured Wikipedia khắc phục hầu hết các sự cố định dạng liên quan đến cú pháp mediawiki và cung cấp một phiên bản sạch, dựa trên phần của tất cả các trang Wikipedia.

Từ lõi ban đầu này, SYNTH được xây dựng theo mô-đun bằng cách dần dần tích hợp một loạt các tác vụ và đường ống hoạt động rộng hơn cho đến khi nó khám phá ra hầu hết các trường hợp sử dụng dự kiến của các bộ suy luận nhỏ:

Ghi nhớ/truy xuất với các truy vấn được dịch ngược từ các cơ sở kiến thức khác nhau (chủ yếu là các bài viết Wikipedia quan trọng) và được mở rộng bằng tìm kiếm nhúng.
Sinh tăng cường truy xuất. Quá trình tương tự như đường ống ghi nhớ ngoại trừ với nhiều nguồn hơn (tối đa 10) và mô hình có quyền truy cập vào các nguồn và tập trung vào việc cơ sở hóa thay vì ghi nhớ.
Các vấn đề số học. Chúng tôi đã thu thập một bộ sưu tập gồm 3000 bài tập được chính thức hóa, chủ yếu từ tập dữ liệu Kimina và mở rộng nó thông qua sự biến đổi ngẫu nhiên của các biến ban đầu.
Các tác vụ biên tập. Điều này bao gồm nhiều loại sửa đổi văn bản khác nhau, từ dịch thuật đến trích xuất thông tin hoặc sửa chữa. Chúng tôi cho phép mô hình tổng hợp chọn tác vụ phù hợp nhất tùy thuộc vào đầu vào được gửi.
Viết sáng tạo. Chúng tôi đã kết hợp seed Wikipedia (cho kiến thức/bối cảnh môi trường) với một bộ ràng buộc ngẫu nhiên, một phần lấy cảm hứng từ phong trào văn học Pháp Oulipo. Điều này thường bao gồm lipogram (viết mà không sử dụng chữ ’e’).
Các cuộc trò chuyện đa lượt. Chúng được tạo từ tương tác một lượt đã được tạo trước đó, rút ra từ tất cả các bài tập trước đó.

Khoảng 20% SYNTH là đa ngôn ngữ với, hiện tại, tập trung vào các ngôn ngữ Châu Âu hàng đầu được thể hiện trong Common Corpus: tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, tiếng Ý và tiếng Ba Lan (cũng như tiếng Hà Lan và tiếng Latin ở mức độ ít hơn). Ngược lại, chúng tôi cố tình loại trừ mã từ SYNTH, vì điều này sẽ yêu cầu nhiều phát triển cơ sở hạ tầng bổ sung làm chậm đáng kể việc phát hành này.

SYNTH đã được thiết kế dựa trên một bộ tiêu chuẩn mở cho dữ liệu tổng hợp được thiết lập với sự hợp tác của AI Alliance cho OTDI. Chúng tôi đã triển khai hai yêu cầu quan trọng cho khả năng phát hành và tái sử dụng dữ liệu tổng hợp:

Ghi nhận mô hình: điều này hiện đã khả thi ở mức độ lớn vì các mô hình trọng số mở chính (Qwen, DeepSeek, GPT-OSS) không còn thực hiện các hạn chế đối với đầu ra tổng hợp.
Ghi nhận seed: mọi văn bản được sử dụng trong đường ống tổng hợp đều đã được ghi nhận và, nhờ sự sẵn có của dữ liệu gốc theo CC-By-SA, được phát hành lại.

Chúng tôi tin rằng các môi trường tổng hợp mở có tiềm năng trở nên hiệu quả hơn các môi trường đóng. Để tiến xa hơn, các đường ống tổng hợp hiện nay phần lớn yêu cầu sự hợp tác mở rộng với các lĩnh vực và ngành công nghiệp chuyên biệt cũng như làm quen với các nguồn mở và tương tác hiện có lớn.

Trường hợp cho các bộ suy luận sâu

Chúng tôi đã huấn luyện hai bộ suy luận trên SYNTH, Baguettotron (321 tham số) và, theo hiểu biết của chúng tôi, mô hình ngôn ngữ khả dụng nhỏ nhất cho đến nay, Monad với 56 triệu tham số (hơn một nửa so với GPT-2 nhỏ). Cùng với việc chỉ được huấn luyện trên một kho lưu trữ suy luận tổng hợp, cả hai mô hình đều có một lựa chọn thiết kế bất thường được biện minh bằng các thí nghiệm có kiểm soát trên SYNTH: độ sâu cực lớn. Như được chỉ ra trong sơ đồ mô hình dưới đây, Monad có 64 lớp và Baguettotron có 80 lớp.

Cấu trúc bên trong của Monad và Baguettotron. Thiết kế lấy cảm hứng từ Sebastian Raschka.

Monad và Baguettotron được huấn luyện trên 16 H100 từ Jean Zay bằng khung Nanotron từ HuggingFace. Cài đặt này cho phép thử nghiệm và lặp lại nhanh chóng, Monad được huấn luyện trong chưa đầy sáu giờ. Trong khi Baguettotron tái sử dụng trình mã hóa Pleias tiêu chuẩn được tối ưu hóa cho các ngôn ngữ Châu Âu, Monad sử dụng trình mã hóa tùy chỉnh được huấn luyện trên phân đoạn tiếng Anh của SYNTH: đây là một biện pháp quan trọng để hạn chế không gian tham số, đưa các embedding token trở lại từ 20 triệu xuống dưới 2 triệu.

Chúng tôi đã đánh giá hai mô hình trên ba điểm chuẩn ngành chính MMLU (suy luận chung và ghi nhớ), toán học (gsm8k) và truy xuất (HotPotQA), cũng như các điểm chuẩn tổng hợp tùy chỉnh được dịch ngược từ bộ Wikipedia của chúng tôi. Cái sau tỏ ra thuận tiện hơn để đánh giá khả năng ghi nhớ bất kể sự ngắt kết nối tiềm ẩn giữa MMLU và các nguồn dữ liệu bách khoa của chúng tôi. Vào cuối chu kỳ huấn luyện này, hiệu suất của Baguettotron là tốt nhất trong lớp:

Nhất quán với giả thuyết về Vật lý của các mô hình ngôn ngữ, việc huấn luyện cho các tác vụ và mẫu suy luận đã cho phép “sự xuất hiện sớm và nhất quán của các kỹ năng nâng cao”. Các mô hình nhỏ được huấn luyện trên dữ liệu tiền huấn luyện web crawl chỉ bắt đầu có kết quả không ngẫu nhiên sau hàng nghìn tỷ token, nếu có. Tuy nhiên, với Baguettotron, chúng tôi đã có thể nhận được các tín hiệu nhất quán trên MMLU trong hai giờ huấn luyện đầu tiên (bắt đầu từ bước 9.000 trở đi).

Kết quả MMLU của Baguettotron trong quá trình huấn luyện, cho thấy tín hiệu suy luận rất sớm.

Tính năng độc đáo này của SYNTH đã tạo điều kiện cho các thí nghiệm có kiểm soát trên các kiến trúc mô hình ngoài các phép loại trừ giới hạn. Chúng tôi đã đo lường thực nghiệm những cải tiến nhất quán từ việc xếp chồng nhiều lớp hơn. Giả thuyết hiện tại của chúng tôi là kiến trúc sâu hơn hưởng lợi nhiều hơn từ dữ liệu suy luận dày đặc, vì mô hình thường xuyên tiếp xúc với các chuỗi ký tự yêu cầu tính toán chuyên sâu hoặc kết nối kiến thức. Và các kiến trúc sâu cũng giảm thiểu học bề mặt bằng cách thêm quán tính nhiều hơn vào việc đồng hóa dữ liệu.

Sân chơi tổng hợp như kỹ thuật ngữ cảnh.

Làm việc trên SYNTH đã buộc chúng tôi phải suy nghĩ khác về ý nghĩa của “dữ liệu huấn luyện”. Chúng tôi không thu thập văn bản internet đa dạng với hy vọng mô hình sẽ học mọi thứ. Chúng tôi đã cố tình thiết kế các khả năng cụ thể: bắc cầu ngữ nghĩa giữa các khái niệm, mở rộng truy vấn, hài hòa đa ngôn ngữ, suy luận dựa trên ràng buộc. Đường ống tổng hợp tạo ra dữ liệu có hình dạng. Dữ liệu được thiết kế để truyền tải các phép biến đổi cụ thể, các cách kết nối thông tin cụ thể, các mẫu suy luận cụ thể.

Huấn luyện hoàn toàn tổng hợp sẽ không (chưa?) thực tế xây dựng một “gpt-5 tại nhà”. Tuy nhiên, chúng tôi tin rằng nó đã có thể có tác động biến đổi xung quanh các mô hình tiên phong. Mô hình chính yếu hiện tại để triển khai AI giả định một kiến trúc đơn giản: thu thập thông tin liên quan, đưa nó vào cửa sổ ngữ cảnh của mô hình nền tảng, hy vọng điều tốt nhất. Nó có tác dụng, phần nào đó. Nhưng nó cũng cực kỳ kém hiệu quả và dễ gặp lỗi.

Bài học thực sự chúng tôi rút ra từ hiệu quả dữ liệu tổng hợp không chỉ đơn giản là “bạn có thể huấn luyện các mô hình nhỏ hơn” với chi phí rất nhỏ - mà là “chuẩn bị ngữ cảnh quan trọng không kém gì bản thân mô hình”. Trong khi thiết kế các đường ống tổng hợp, chúng tôi mô phỏng một loạt các tác vụ và quy trình làm việc đang được triển khai tích cực trong sản xuất. Quá trình này lên đến đỉnh điểm là một sự điều phối thực tế của các mô hình tinh chỉnh nhỏ hơn, các phương pháp biểu tượng với các ràng buộc được mã hóa cứng và các luồng truy xuất đạt được mức độ thông minh cao hơn so với các thành phần riêng lẻ của nó.

Điều gì sẽ xảy ra nếu thay vì gửi dữ liệu doanh nghiệp thô trực tiếp đến các mô hình sinh của bạn (mã nguồn mở hoặc đóng), nó được định tuyến trước thông qua một lớp kỹ thuật để định hình dữ liệu theo cách mà:

Hiểu bản thể học miền và có thể làm phong phú các truy vấn theo ngữ nghĩa
Hài hòa nội dung đa ngôn ngữ thành các biểu diễn nhất quán
Tạo ra các biến thể tổng hợp làm lộ các mẫu suy luận
Làm phong phú thêm các cấu trúc suy luận theo ngữ cảnh
Khám phá các mối quan hệ mới bên trong cơ sở kiến thức hiện có, thông qua truy xuất, tìm kiếm lặp đi lặp lại hoặc biểu đồ dữ liệu (được tạo ra).
Phân tách các quy trình phức tạp thành các quy trình làm việc sinh và biểu tượng tích hợp với các kiểm tra tuần tự.
Đánh giá hiệu suất theo lĩnh vực cụ thể thông qua các điểm chuẩn tổng hợp.

Điều này sẽ không thay thế các mô hình nền tảng, chúng sẽ chuẩn bị ngữ cảnh để chúng hoạt động tốt hơn đáng kể. Hãy xem nó như một lớp tiền xử lý, nhưng một lớp thực sự hiểu ngữ cảnh thay vì chỉ áp dụng các quy tắc.

Điều gì tiếp theo

Trong những tháng tới, chúng tôi sẽ:

Xuất bản thêm chi tiết về đường ống tạo tổng hợp
Khám phá các điều chỉnh cho các lĩnh vực cụ thể (tài liệu pháp lý, y tế, kỹ thuật)
Triển khai các thí nghiệm có kiểm soát về khả năng ghi nhớ và học liên tục
Kiểm tra các mẫu kiến trúc khác nhau để chuẩn bị ngữ cảnh
Làm việc với các đối tác sớm về việc triển khai trong thế giới thực.

AI Today - SkyAI