Chúng tôi đã nhận được Claude để tinh chỉnh một LLM mã nguồn mở

December 4, 2025
13 min read

Chúng ta đã nhờ Claude tinh chỉnh một mô hình ngôn ngữ lớn mã nguồn mở

Chúng tôi đã trang bị cho Claude khả năng tinh chỉnh các mô hình ngôn ngữ bằng một công cụ mới có tên là Hugging Face Skills. Không chỉ viết các tập lệnh đào tạo, mà còn có thể gửi công việc đến GPU đám mây, theo dõi tiến độ và đẩy các mô hình đã hoàn thành lên Hugging Face Hub. Hướng dẫn này cho bạn biết cách thức hoạt động và cách bạn có thể tự sử dụng nó.

Claude Code có thể sử dụng “kỹ năng”—các hướng dẫn, tập lệnh và kiến thức chuyên môn được đóng gói—để hoàn thành các tác vụ chuyên biệt. Kỹ năng hf-llm-trainer dạy cho Claude mọi thứ nó cần biết về đào tạo: GPU nào cần chọn cho kích thước mô hình của bạn, cách cấu hình xác thực Hub, khi nào nên sử dụng LoRA so với tinh chỉnh toàn bộ và cách xử lý hàng tá quyết định khác góp phần tạo nên một quy trình đào tạo thành công.

Với kỹ năng này, bạn có thể nói với Claude những điều như:

Tinh chỉnh Qwen3-0.6B trên tập dữ liệu open-r1/codeforces-cots

Và Claude sẽ:

Xác thực định dạng tập dữ liệu của bạn
Chọn phần cứng phù hợp (t4-small cho mô hình 0.6B)
Sử dụng và cập nhật một tập lệnh đào tạo với giám sát Trackio
Gửi công việc đến Hugging Face Jobs
Báo cáo ID công việc và chi phí ước tính
Kiểm tra tiến độ khi bạn hỏi
Giúp bạn gỡ lỗi nếu có sự cố xảy ra

Mô hình được đào tạo trên GPU Hugging Face trong khi bạn làm những việc khác. Khi hoàn thành, mô hình được tinh chỉnh của bạn sẽ xuất hiện trên Hub, sẵn sàng để sử dụng.

Đây không phải là một bản demo đồ chơi. Kỹ năng này hỗ trợ các phương pháp đào tạo giống như được sử dụng trong sản xuất: tinh chỉnh có giám sát, tối ưu hóa tùy chọn trực tiếp và học tăng cường với phần thưởng có thể xác minh. Bạn có thể đào tạo các mô hình từ 0,5B đến 70B tham số, chuyển đổi chúng sang GGUF để triển khai cục bộ và chạy các quy trình nhiều giai đoạn kết hợp các kỹ thuật khác nhau.

Thiết lập và Cài đặt

Trước khi bắt đầu, bạn sẽ cần:

Tài khoản Hugging Face với gói Pro hoặc Team (Jobs yêu cầu gói trả phí)
Một token có quyền ghi từ huggingface.co/settings/tokens
Một tác nhân mã hóa như Claude Code, OpenAI Codex hoặc Gemini CLI của Google

Các kỹ năng của Hugging Face tương thích với Claude Code, Codex và Gemini CLI. Với các tích hợp Cursor, Windsurf và Continue, chúng tôi đang trên đường hoàn thiện.

Claude Code

Đăng ký kho lưu trữ làm thị trường plugin:
```
/plugin marketplace add huggingface/skills
```

Để cài đặt một kỹ năng, hãy chạy:

/plugin install <skill-folder>@huggingface-skills

Ví dụ:

/plugin install hf-llm-trainer@huggingface-skills

Codex

Codex sẽ xác định các kỹ năng thông qua tệp AGENTS.md. Bạn có thể xác minh các hướng dẫn đã được tải bằng lệnh:
```
codex --ask-for-approval never "Summarize the current instructions."
```
Để biết thêm chi tiết, hãy xem hướng dẫn AGENTS của Codex.

Gemini CLI

Kho lưu trữ này bao gồm gemini-extension.json để tích hợp với Gemini CLI.

Cài đặt cục bộ:

gemini extensions install . --consent

hoặc sử dụng URL GitHub:

gemini extensions install https://github.com/huggingface/skills.git --consent

Xem tài liệu về tiện ích mở rộng của Gemini CLI để được trợ giúp thêm.

Kết nối với Hugging Face

Bạn sẽ cần xác thực tài khoản Hugging Face của mình bằng token có quyền ghi để công việc có thể tạo kho lưu trữ mô hình.

Thiết lập token của bạn:

hf auth login
# hoặc
export HF_TOKEN=hf_your_write_access_token_here

LƯU Ý Cấu hình máy chủ Hugging Face MCP để sử dụng token ghi của bạn bằng cách gửi nó trong các tiêu đề HTTP HF_TOKEN hoặc Authorization: Bearer.

Chạy Tinh chỉnh Đầu tiên của Bạn

Hãy cùng xem xét một ví dụ hoàn chỉnh. Chúng ta sẽ tinh chỉnh một mô hình nhỏ để xem toàn bộ quy trình làm việc, sau đó khám phá các khả năng nâng cao hơn.

Hướng dẫn tác nhân mã hóa để tinh chỉnh

Bắt đầu với một hướng dẫn đơn giản và rõ ràng để tinh chỉnh một mô hình cụ thể

Tinh chỉnh Qwen3-0.6B trên tập dữ liệu open-r1/codeforces-cots để làm theo hướng dẫn.

Tác nhân mã hóa phân tích yêu cầu của bạn và chuẩn bị một cấu hình đào tạo. Đối với mô hình 0.6B trên tập dữ liệu demo, nó chọn t4-small—đủ GPU cho kích thước mô hình này và là tùy chọn rẻ nhất có sẵn.

Tập dữ liệu open-r1/codeforces-cots là một tập dữ liệu gồm các bài toán và giải pháp của Codeforces. Đây là một tập dữ liệu tốt để tinh chỉnh hướng dẫn một mô hình nhằm giải quyết các bài toán mã hóa khó.

Xem lại Trước khi Gửi

Trước khi tác nhân mã hóa của bạn gửi bất kỳ thứ gì, bạn sẽ thấy cấu hình:

Tôi sẽ tinh chỉnh Qwen/Qwen3-0.6B trên open-r1/codeforces-cots bằng SFT.

Cấu hình:
- Phần cứng: t4-small (~$0.75/giờ)
- Thời gian ước tính: ~20 phút
- Chi phí ước tính: ~$0.30
- Đầu ra: username/qwen-codeforces-cots-sft

Mô hình sẽ được đẩy lên Hub tự động. Tôi có nên gửi không?

Đây là cơ hội để bạn điều chỉnh bất cứ điều gì. Thay đổi tên kho lưu trữ đầu ra, chọn phần cứng khác hoặc yêu cầu Claude sửa đổi các tham số đào tạo. Sau khi bạn phê duyệt, tác nhân sẽ gửi công việc.

Ví dụ, bạn có thể yêu cầu tác nhân chạy thử nghiệm:

Thực hiện một lần chạy thử nghiệm nhanh trên 100 ví dụ.

Theo dõi Tiến độ

Sau khi gửi, bạn sẽ nhận được chi tiết công việc:

✅ Công việc đã gửi thành công!

ID công việc: abc123xyz
Giám sát: https://huggingface.co/jobs/username/abc123xyz

Thời gian dự kiến: ~20 phút
Chi phí ước tính: ~$0.30

Xem số liệu thống kê thời gian thực tại: https://huggingface.co/spaces/username/trackio

Kỹ năng này tích hợp Trackio theo mặc định, vì vậy bạn có thể theo dõi mức giảm mất mát đào tạo trong thời gian thực. Các công việc chạy không đồng bộ, vì vậy bạn có thể đóng thiết bị đầu cuối và quay lại sau. Khi bạn muốn cập nhật:

Công việc đào tạo của tôi đang tiến triển thế nào?

Sau đó, tác nhân sẽ lấy nhật ký và tóm tắt tiến độ.

Sử dụng Mô hình của Bạn

Khi quá trình đào tạo hoàn tất, mô hình của bạn sẽ có trên Hub:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("username/qwen-codeforces-cots-sft")
tokenizer = AutoTokenizer.from_pretrained("username/qwen-codeforces-cots-sft")

Đó là toàn bộ vòng lặp. Bạn đã mô tả những gì mình muốn bằng ngôn ngữ tự nhiên, và tác nhân đã xử lý việc chọn GPU, tạo tập lệnh, gửi công việc, xác thực và lưu trữ. Toàn bộ quá trình này tốn khoảng ba mươi xu.

Phương pháp Đào tạo

Kỹ năng này hỗ trợ ba phương pháp đào tạo. Hiểu khi nào nên sử dụng từng phương pháp sẽ giúp bạn đạt được kết quả tốt hơn.

Tinh chỉnh có Giám sát (SFT)

SFT là nơi hầu hết các dự án bắt đầu. Bạn cung cấp dữ liệu minh họa—các ví dụ về đầu vào và đầu ra mong muốn—và quá trình đào tạo sẽ điều chỉnh mô hình để khớp với các mẫu đó.

Sử dụng SFT khi bạn có các ví dụ chất lượng cao về hành vi bạn muốn. Các cuộc trò chuyện hỗ trợ khách hàng, các cặp tạo mã, hỏi đáp theo lĩnh vực cụ thể—bất cứ điều gì bạn có thể cho mô hình thấy điều gì là tốt.

Tinh chỉnh Qwen3-0.6B trên my-org/support-conversations trong 3 epoch.

Tác nhân xác thực tập dữ liệu, chọn phần cứng (a10g-large với LoRA cho mô hình 7B) và cấu hình đào tạo với các điểm kiểm tra và giám sát.

Đối với các mô hình lớn hơn 3B tham số, tác nhân sẽ tự động sử dụng LoRA (Low-Rank Adaptation) để giảm yêu cầu bộ nhớ. Điều này làm cho việc đào tạo các mô hình 7B hoặc 13B trở nên khả thi trên GPU đơn lẻ, đồng thời bảo toàn hầu hết chất lượng của việc tinh chỉnh toàn bộ.

Tối ưu hóa Tùy chọn Trực tiếp (DPO)

DPO đào tạo dựa trên các cặp tùy chọn—các phản hồi mà một trong số đó được “chọn” và một phản hồi khác bị “từ chối”. Điều này căn chỉnh đầu ra của mô hình với sở thích của con người, thường là sau giai đoạn SFT ban đầu.

Sử dụng DPO khi bạn có các chú thích tùy chọn từ người dán nhãn thủ công hoặc so sánh tự động. DPO tối ưu hóa trực tiếp cho phản hồi được ưu tiên mà không cần mô hình phần thưởng riêng biệt.

Chạy DPO trên my-org/preference-data để căn chỉnh mô hình SFT mà tôi vừa đào tạo.
Tập dữ liệu có các cột 'chosen' và 'rejected'.

DPO nhạy cảm với định dạng tập dữ liệu. Nó yêu cầu các cột có tên chính xác là chosen và rejected, hoặc một cột prompt với đầu vào. Tác nhân sẽ xác thực điều này trước và cho bạn biết cách ánh xạ các cột nếu tập dữ liệu của bạn sử dụng các tên khác.

Tối ưu hóa Chính sách Tương đối Nhóm (GRPO)

GRPO là một tác vụ học tăng cường đã được chứng minh là có hiệu quả trên các tác vụ có thể xác minh như giải bài toán, viết mã hoặc bất kỳ tác vụ nào có tiêu chí thành công theo chương trình.

Đào tạo mô hình lập luận toán học bằng GRPO trên tập dữ liệu openai/gsm8k dựa trên Qwen3-0.6B.

Mô hình tạo ra các phản hồi, nhận phần thưởng dựa trên độ chính xác và học hỏi từ các kết quả. Điều này phức tạp hơn SFT hoặc DPO, nhưng cấu hình tương tự.

Phần cứng và Chi phí

Tác nhân chọn phần cứng dựa trên kích thước mô hình của bạn, nhưng hiểu các đánh đổi giúp bạn đưa ra quyết định tốt hơn.

Ánh xạ Kích thước Mô hình sang GPU

Đối với các mô hình nhỏ dưới 1B tham số, t4-small hoạt động tốt. Các mô hình này đào tạo nhanh chóng—dự kiến $1-2 cho một lần chạy đầy đủ. Điều này hoàn hảo cho các lần chạy giáo dục hoặc thử nghiệm.

Đối với các mô hình nhỏ (1-3B), hãy nâng cấp lên t4-medium hoặc a10g-small. Quá trình đào tạo mất vài giờ và chi phí $5-15.

Đối với các mô hình trung bình (3-7B), bạn cần a10g-large hoặc a100-large với LoRA. Tinh chỉnh toàn bộ không phù hợp, nhưng LoRA làm cho những mô hình này rất dễ đào tạo. Ngân sách $15-40 cho sản xuất.

Đối với các mô hình lớn (7B+), công việc Hugging Face skills này không phù hợp.

Demo so với Sản xuất

Khi kiểm thử một quy trình làm việc, hãy bắt đầu nhỏ:

Thực hiện một lần chạy thử nghiệm nhanh để SFT Qwen-0.6B với 100 ví dụ từ my-org/support-conversations.

Tác nhân mã hóa cấu hình đào tạo tối thiểu—đủ để xác minh quy trình của bạn hoạt động mà không tốn chi phí thực tế.

Để sản xuất, hãy rõ ràng:

SFT Qwen-0.6B cho sản xuất trên toàn bộ my-org/support-conversations.
Các điểm kiểm tra sau mỗi 500 bước, 3 epoch, tốc độ học cosine.

Luôn chạy bản demo trước khi cam kết một công việc sản xuất kéo dài nhiều giờ. Bản demo trị giá $0.50 giúp phát hiện lỗi định dạng sẽ tiết kiệm chi phí cho một lần chạy thất bại trị giá $30.

Xác thực Tập dữ liệu

Định dạng tập dữ liệu là nguồn gây ra lỗi đào tạo phổ biến nhất. Tác nhân có thể xác thực các tập dữ liệu trước khi bạn tiêu tốn thời gian GPU.

Kiểm tra xem my-org/conversation-data có hoạt động cho đào tạo SFT không.

Tác nhân chạy một cuộc kiểm tra nhanh trên CPU (vài xu) và báo cáo:

Xác thực tập dữ liệu cho my-org/conversation-data:

SFT: ✓ SẴN SÀNG
  Tìm thấy cột 'messages' với định dạng hội thoại

DPO: ✗ KHÔNG TƯƠNG THÍCH
  Thiếu cột 'chosen' và 'rejected'

Nếu tập dữ liệu của bạn cần biến đổi, tác nhân có thể chỉ cho bạn cách thực hiện:

Tập dữ liệu DPO của tôi sử dụng 'good_response' và 'bad_response' thay vì
'chosen' và 'rejected'. Làm thế nào để khắc phục điều này?

Tác nhân cung cấp mã ánh xạ và có thể tích hợp nó trực tiếp vào tập lệnh đào tạo của bạn.

Giám sát Đào tạo

Giám sát thời gian thực giúp bạn phát hiện sớm các vấn đề. Kỹ năng này cấu hình Trackio theo mặc định—sau khi gửi công việc, bạn có thể theo dõi các số liệu tại:

https://huggingface.co/spaces/username/trackio

Điều này hiển thị mức mất mát đào tạo, tốc độ học và các số liệu xác thực. Một lần chạy lành mạnh cho thấy mức mất mát giảm dần.

Hãy hỏi tác nhân về trạng thái bất cứ lúc nào:

Công việc đào tạo của tôi đang tiến triển thế nào?

Công việc abc123xyz đang chạy (45 phút đã trôi qua)

Bước hiện tại: 850/1200
Mất mát đào tạo: 1.23 (↓ từ 2.41 lúc bắt đầu)
Tốc độ học: 1.2e-5

Hoàn thành dự kiến: ~20 phút

Nếu có sự cố xảy ra, tác nhân sẽ giúp chẩn đoán. Hết bộ nhớ? tác nhân gợi ý giảm kích thước lô hoặc nâng cấp phần cứng. Lỗi tập dữ liệu? tác nhân xác định sự không khớp. Hết thời gian? tác nhân đề xuất thời lượng dài hơn hoặc cài đặt đào tạo nhanh hơn.

Chuyển đổi sang GGUF

Sau khi đào tạo, bạn có thể muốn chạy mô hình của mình cục bộ. Định dạng GGUF hoạt động với llama.cpp và các công cụ phụ thuộc như LM Studio, Ollama, v.v.

Chuyển đổi mô hình đã tinh chỉnh của tôi sang GGUF với định lượng Q4_K_M.
Đẩy lên username/my-model-gguf.

Tác nhân gửi một công việc chuyển đổi, hợp nhất các bộ chuyển đổi LoRA, chuyển đổi sang GGUF, áp dụng định lượng và đẩy lên Hub.

Sau đó, sử dụng nó cục bộ:

llama-server -hf <username>/<model-name>:<quantization>

# Ví dụ, để chạy mô hình Qwen3-1.7B-GGUF trên máy cục bộ của bạn:
llama-server -hf unsloth/Qwen3-1.7B-GGUF:Q4_K_M

Sắp tới

Chúng tôi đã chứng minh rằng các tác nhân mã hóa như Claude Code, Codex hoặc Gemini CLI có thể xử lý toàn bộ vòng đời của việc tinh chỉnh mô hình: xác thực dữ liệu, chọn phần cứng, tạo tập lệnh, gửi công việc, giám sát tiến độ và chuyển đổi đầu ra. Điều này biến những gì từng là một kỹ năng chuyên môn thành một thứ bạn có thể thực hiện thông qua trò chuyện.

Một số điều cần thử:

Tinh chỉnh một mô hình trên tập dữ liệu của riêng bạn
Xây dựng một mô hình được căn chỉnh theo sở thích với SFT → DPO
Đào tạo một mô hình lập luận với GRPO về toán hoặc mã
Chuyển đổi mô hình sang GGUF và chạy nó với Ollama

Kỹ năng này là mã nguồn mở. Bạn có thể mở rộng nó, tùy chỉnh nó cho các quy trình làm việc của mình hoặc sử dụng nó làm điểm khởi đầu cho các tình huống đào tạo khác.

Tài nguyên

SKILL.md — Tài liệu kỹ năng đầy đủ
Training Methods — SFT, DPO, GRPO được giải thích
Hardware Guide — Lựa chọn GPU và chi phí
Tài liệu TR L — Thư viện đào tạo cơ bản
Hugging Face Jobs — Cơ sở hạ tầng đào tạo đám mây
Trackio — Giám sát đào tạo thời gian thực

AI Today - SkyAI