Học Toán lần cuối cùng
Học Toán lần cuối cùng
- 9 min read
Học Toán Lần Cuối Cùng
Hướng dẫn cho người du hành đến Hugging Face
Hãy theo dõi và xem qua các đồng tác giả, họ có những sản phẩm rất ấn tượng. Cảm ơn vì đã tạo ra một không gian để thảo luận về các mô hình nhỏ mà không bị coi là kẻ ngốc. CompactAI thực sự rất tuyệt ♥
Chào mọi người, lại là tôi, Shane đây…
Hôm nay sẽ là một bài viết dài, hãy chuẩn bị tinh thần nhé. Tôi đã giữ câu chuyện này suốt một thế kỷ rồi và hôm nay là ngày tôi công khai tất cả.
Tôi chẳng đủ khả năng để chi trả cho một số bộ dữ liệu mà mình đã công bố
Đó là sự thật. Nếu nhìn trên giấy tờ, những con số sẽ không khớp. Bạn có thể thắc mắc: làm thế nào mà một “kẻ tối cổ” đang nổi trên Hugging Face, làm việc tại bàn bếp, lại có thể tiêu tốn lượng tài nguyên tính toán (compute) khổng lồ đến vậy?
Năm ngoái, tôi đã kiếm được một công việc.
Tôi vừa tung ra một bản fine-tune đạt điểm cao ngất ngưởng về EQ — benchmark về sự thấu cảm, thứ mà chẳng ai thực sự đặt cược vào. Một tuần sau, một đơn vị xuất bản đã nhắn tin cho tôi. Họ muốn viết sách. Những cuốn sách hoàn chỉnh, từ bìa đến bìa, từ đầu đến cuối, được tạo ra từ Claude chính xác theo cách mà một nhà xuất bản thường làm.
Tôi không thể tiết lộ họ là ai vì thỏa thuận bảo mật (NDA) rất nghiêm ngặt.
Nhưng những gì tôi có thể kể cho bạn…
══════════════════════════════════════════════════
Số tiền tính vào thẻ của họ thông qua Claude API:
25.000+ USD
Tôi là người thiết kế mọi câu lệnh (prompt).
60% dữ liệu mà "tác giả bóng ma" này sử dụng hiện nay
là do chính tôi tạo ra và chọn lọc.
══════════════════════════════════════════════════
Đó là công việc đầu tiên không thể quên trong lĩnh vực AI. Tất cả là nhờ một mô hình nhỏ với “trái tim nhân hậu” trên một benchmark mà chẳng ai thèm nhắc tới. Điều nực cười là tôi chưa bao giờ mong đợi ai đó thực sự sử dụng điểm EQ để tuyển dụng. Có lẽ tôi là người bị trêu chọc, nhưng đó là trò đùa tuyệt vời nhất mà tôi từng gặp.
Từ kẻ ghét “máy móc” trở thành người tạo ra “máy móc”
Công việc đó đã thay đổi tôi. Tôi không bao giờ nghĩ rằng kẻ ghét AI của một năm trước giờ đây lại là người hò hét “hết công suất” trước màn hình máy tính lúc 3 giờ sáng… nhưng chúng ta đang ở đây.
Sự thay đổi thực sự là khi tôi nhận ra mình không muốn chỉ sử dụng các mô hình nữa. Tôi muốn xây dựng chúng.
Những mô hình tí hon. Những mô hình siêu nhỏ. Nhỏ đến mức có thể nằm gọn trong một chiếc card 12 GB. Nhỏ đến mức mọi quyết định về kiến trúc đều hiện rõ mồn một. Và đủ lớn để khiến tôi xấu hổ khi làm sai.
Đó là lúc FANT ra đời.
“Thủ phạm” chính là đây. Nguồn cảm hứng cho tất cả các sáng tạo AI của tôi kể từ thời điểm đó.
FANT 1, FANT 2, FANT 3. Mỗi phiên bản sau lại kỳ quặc hơn phiên bản trước. Mỗi lần là một lần viết lại hoàn toàn. Mỗi phiên bản dạy tôi một mảnh ghép mà tôi không biết là mình đang thiếu.
Chiến thắng chứng minh rằng những thứ “kỳ quặc” thực sự hiệu quả

Đây là điều tôi liên tục học lại được… những chiến thắng không bao giờ nằm ở nơi mà các tờ quảng cáo GPU nói với bạn. Chúng nằm ở những thứ kỳ quặc.
Hãy để tôi kể cho bạn về SleepGate.
SleepGate là một quy trình củng cố bộ nhớ (memory consolidation). Nó chạy sau mỗi 100 bước huấn luyện. Nghe có vẻ chẳng có gì. Nhìn cũng chẳng có gì. Chỉ nửa màn hình mã code, phần lớn là các ghi chú.
Nhưng trên FANT 2 với 5 triệu tham số, trong một bài kiểm tra toán học quy trình gồm 1.000 bài toán, nó đã làm được điều này:

Tăng thêm 5,3 điểm. Chỉ nhờ một quyết định về kiến trúc. Với 5 triệu tham số. Mà không hề thay đổi bộ tối ưu hóa (optimizer), dữ liệu hay lịch trình huấn luyện.
Đó là kiểu phát hiện khiến bạn mất ngủ cả cuối tuần, vì đột nhiên danh sách việc cần làm của bạn không còn là “triển khai tính năng tiếp theo”, mà là “triển khai tính năng tiếp theo VÀ tìm hiểu tại sao một bước củng cố nhỏ lại có thể thay đổi kết quả đến 5 điểm”.
Đó chính là lý do FANT được tạo ra.
Đây chính là sự tiến bộ.
Một thứ kỳ quặc mới — Bộ nhớ SpinorApollonian
Thí nghiệm tiếp theo thậm chí còn bất thường hơn.
Tôi đã đọc một bài báo của một nhà toán học người Ba Lan tên là Jerzy Kocik về tangency spinors — một cách phân loại các phép đóng gói đĩa Apollonian bằng cách sử dụng các spinor Minkowski hai chiều. (Bạn có thể nghĩ tôi đang bịa ra, nhưng không đâu. Định lý đường tròn Descartes hóa ra lại là dạng quadratic Minkowski trong chữ ký (1,3). Toán học thật điên rồ.)
Sau đó, tôi đã áp dụng cấu trúc này vào bộ định tuyến bộ nhớ (memory router) của FANT.
Nói một cách dễ hiểu… nó chia việc ghi bộ nhớ theo độ xoắn (chirality). Các gói xoáy trái đi vào một nhóm. Các gói xoáy phải đi vào một nhóm khác. Định tuyến theo hình học thay vì định tuyến theo ngưỡng. Lỗi mà tôi đã theo đuổi suốt hai tháng — việc các gói bộ nhớ “triệt tiêu” lẫn nhau dẫn đến vô dụng — đã biến mất chỉ sau một đêm. Cùng một mô hình, trên mọi quy mô tôi thử nghiệm, từ 5M cho đến 742M.
Toán học đã đúng.
Nghe có vẻ như “bơ phết lên hamburger” (kỳ quặc), nhưng bảng phân tích (ablation table) cho thấy nó hoạt động. Ghi chú thiết kế đầy đủ có trong repo FANT 3 nếu bạn muốn nghiên cứu sâu.
Giờ thì — Hãy gặp gỡ Sparrow

Tôi đã làm những thứ khác, chủ yếu là Toán học. Tôi sẽ kể chi tiết hơn sau.
Sparrow là mô hình toán học. Nó có tính phân tích. Hơi bướng bỉnh một chút. Nó làm toán như một học sinh lớp 9 — điều mà nếu bạn biết tôi, thì đó là một chiến thắng, vì tuần trước nó làm toán như một chiếc máy tính bị hỏng, và tuần trước nữa nó là một con robot biến dạng tên là Scamp.
Sparrow không phải là FANT. Khung xương khác, bộ định tuyến khác, mọi thứ đều khác. Nó nhỏ. Nó có tính chính xác cao.
Và — đây mới là điểm mấu chốt:

Trong 1.900 câu hỏi đánh giá, Sparrow đạt điểm 95,6%. Owl Alpha chỉ đạt 61,4% trên cùng một bộ câu hỏi. Với chỉ 1.000.000 tham số.
Một. Triệu. Tham số.
Tôi đã kiểm tra hai lần. Làm phiền ba người bạn. Chạy lại đánh giá ở ba mức nhiệt độ (temperature) khác nhau. Kết quả luôn như vậy. Thật khó tin, đúng không?
Đây là kết quả đối đầu trực tiếp qua 38 bài đánh giá (n=50 mỗi bài, chấm điểm số):

Sparrow hòa hoặc thắng Owl Alpha trong 33 trên 38 bài đối đầu (87%). Năm trận thua đều nằm ở các phép nhân và chia đơn giản với số chữ số mà dữ liệu huấn luyện của Owl Alpha rất dày đặc — một cuộc chiến công bằng, và Owl thắng tuyệt đối.
Nhưng ở những tác vụ thú vị — Goldbach, Collatz, Fermat-little, mô-đun phức, tích vô hướng, khoảng cách, định thức, nhân 5 chữ số với sự hỗ trợ của thẻ tính toán (calc-tag) — Sparrow trở thành một “chiếc máy băm gỗ” (đè bẹp đối thủ):

+100 pp. +98 pp. +88 pp. Một mô hình đồ chơi cấp độ byte với 1M tham số đánh bại một mô hình tiên phong cấp độ 70B ở những tác vụ này với khoảng cách mà bạn thường chỉ thấy trong các hình vẽ của bài báo khoa học (và thường là do lỗi bug).
Đây là kết quả cụ thể của phép nhân 5 chữ số ở phiên bản iter34 — thứ khiến tôi phải kiểm tra lại hệ thống đánh giá ba lần trước khi dám tin:

Owl Alpha đạt 12%. Gemma 3 27B đạt 0%. Sparrow đạt 100%. Lớp bọc thẻ tính toán (Calc-tag wrapper) đảm nhận phần tính toán nặng nhọc — Sparrow học cách gọi nó một cách chính xác. Đó chính là bí quyết.

Mỗi cụm là một phiên bản lặp. Hồng = Sparrow-1M, xanh lam = Owl Alpha (qua OpenRouter), vàng = Gemma 3 27B (qua OpenRouter). Chấm điểm số, n=50 câu hỏi mỗi bài, k=1.
Điều bất ngờ cuối cùng là… tôi không thể làm cho bí quyết của Sparrow hoạt động mượt mà với kiến trúc của FANT. Tôi đã cố gắng hợp nhất chúng trong nhiều tuần. Tôi biết có một sợi dây liên kết giữa chúng — điều gì đó về cách Sparrow xử lý trạng thái biểu tượng (symbolic state) mà lẽ ra phải khớp thẳng vào ngăn xếp đệ quy của FANT — nhưng tôi vẫn chưa tìm ra.
Vì vậy, tôi công khai những “mẩu bánh mì” này, với hy vọng một trong số những người tài giỏi trên Hugging Face có thể hoàn thành điều tôi chưa làm được. Repo đã mở. Issues đã mở. DMs luôn sẵn sàng.
Những con tàu vũ trụ xây dở là những thứ tốt nhất để chia sẻ.
Điều gì tiếp theo
Dù sao thì, Sparrow cần được gỡ lỗi (debug) nhiều hơn trước khi tôi có thể giao nó cho một người lạ. Khi nó hoàn thiện, nó sẽ được phát hành dưới tên @CompactAI như những công trình đã hoàn thành khác của tôi.
Hiện tại tôi đăng bài khoảng một tuần một lần (đăng hàng ngày khiến tôi kiệt sức). Discord là nơi mọi thứ diễn ra sôi động nhất — những bộ dữ liệu được tung ra hàng đêm, những tiếng hò hét khi chạy huấn luyện, hay bất cứ ý tưởng điên rồ nào tôi theo đuổi trong tuần.
Chào tạm biệt, và cảm ơn vì tất cả các gradients.
- Shane
P.S Tham gia Discord để cùng “ồn ào”: discord.gg/8ZscHNmJYE
P.P.S Các công trình hoàn thiện tại đây: @CompactAI. Nguồn cảm hứng tại đây: github.com/Crownelius/fant3
Link bài viết gốc
- Tags:
- Ai
- 07 May 2026
- Huggingface.co