Chúng tôi đã khiến Claude xây dựng các Kernel CUDA và dạy các mô hình mở!

Một bài viết khám phá cách Claude có thể được sử dụng để tạo các Kernel CUDA và hỗ trợ việc giảng dạy các mô hình nguồn mở.

January 31, 2026
7 min read

Chúng tôi đã khiến Claude xây dựng các Kernel CUDA và dạy các mô hình mở! — Một bài viết khám phá cách Claude có thể được sử dụng để tạo các Kernel CUDA và hỗ trợ việc giảng dạy các mô hình nguồn mở.

Claude đã giúp các mô hình mã nguồn mở học cách viết CUDA kernel!

Trong bài viết này, chúng ta sẽ khám phá cách sử dụng công cụ mới có tên upskill để tạo và đánh giá các kỹ năng của agent. Chúng ta sẽ lấy ví dụ về việc viết CUDA kernel cho các mô hình diffusers để tối ưu hóa hiệu suất, nhưng quy trình này cũng có thể áp dụng cho nhiều tác vụ phức tạp khác.

Agent skills là một cách để đóng gói kiến thức chuyên môn cho các mô hình AI. Chúng cho phép bạn chia sẻ khả năng giữa các mô hình và công cụ, đặc biệt hữu ích cho các tác vụ chuyên biệt hoặc khó khăn mà mô hình hiện tại chưa làm tốt.

Agent Skills là gì?

Agent skills giúp “nâng cấp” khả năng của các agent AI bằng cách cung cấp cho chúng kiến thức chuyên môn về một lĩnh vực cụ thể. Chúng được đóng gói dưới dạng các tệp tin, chẳng hạn như markdown cho hướng dẫn và code cho script, giúp việc chia sẻ và đánh giá trở nên dễ dàng.

Hướng dẫn chi tiết: Xây dựng Kernel CUDA với Agent Skills

Bài viết này minh họa cách sử dụng Claude để tạo một skill, sau đó áp dụng skill đó cho các mô hình mã nguồn mở nhỏ hơn để tối ưu hóa hiệu suất.

1. Sử dụng Claude Opus 4.5 để tạo Kernel

Đầu tiên, chúng ta sử dụng Claude Code để tạo một kernel một cách tương tác và xuất ra “agent trace”. Quá trình này bao gồm việc hướng dẫn, xác thực và thêm các liên kết tài liệu. Mặc dù ban đầu có thể gặp khó khăn, nhưng bằng cách lặp đi lặp lại và thử nghiệm với các mô hình nhỏ hơn, chúng ta có thể cải thiện skill.

Ví dụ về một skill đã được tạo: h100-diffusers-kernel-builder.

2. Tạo Agent Skill từ Trace

Sau khi mô hình “giáo viên” (Claude Opus) hoàn thành nhiệm vụ, chúng ta cần nó tạo ra một skill. Có nhiều cách để thực hiện:

Yêu cầu agent tạo skill: Trong cùng một phiên làm việc, yêu cầu agent tạo tệp skill cho tác vụ vừa hoàn thành.
Sử dụng “skill creator” của Anthropic: Sử dụng skill này trong phiên agent hoặc với một trace đã xuất.
Sử dụng công cụ upskill: Tạo skill dựa trên trace đã xuất.

Công cụ upskill không chỉ tạo skill mà còn tạo các trường hợp thử nghiệm để đánh giá hiệu suất của skill trên các mô hình khác nhau.

3. Chuyển giao Skill cho Mô hình Nhỏ hơn

Cuối cùng, chúng ta chuyển giao skill đã tạo sang công cụ hoặc mô hình mong muốn. Hầu hết các công cụ hiện nay đều sử dụng định dạng thư mục {agent}/skills/{skill_name}/SKILL.md.

Sử dụng lệnh upskill eval, chúng ta có thể so sánh hiệu suất của mô hình với và không có skill. Kết quả cho thấy skill có thể tăng độ chính xác trên một số mô hình mã nguồn mở, nhưng không phải tất cả.

Chúng ta cũng có thể đánh giá mức độ hiệu quả của skill về mặt sử dụng token. Một số mô hình giảm đáng kể lượng token tiêu thụ, trong khi những mô hình khác lại tăng.

Tóm lại: Hãy thử nghiệm và đánh giá mô hình của bạn với các skill đã tạo. Sử dụng upskill eval hoặc các công cụ tương tự để đo lường hiệu suất.

Cài đặt và Sử dụng `upskill`

Cài đặt:

bash pip install upskill

Hoặc sử dụng uvx cho các lần chạy một lần

uvx upskill –help

Thiết lập API Key:

bash export ANTHROPIC_API_KEY=sk-ant-… export HF_TOKEN=hf_…

upskill mặc định sử dụng mô hình Claude Opus-4.5 nhưng cũng hỗ trợ OpenAI và các mô hình cục bộ thông qua các endpoint tương thích với OpenAI.

Ví dụ lệnh:

Tạo skill: bash upskill generate “build optimized CUDA kernels for PyTorch using HuggingFace kernel-builder”

Hoặc từ một trace: bash upskill generate “write kernels” –from <agent-trace>.md
Đánh giá mô hình: bash upskill eval ./skills/my-skill/ –model haiku –model sonnet
Tạo skill cho mô hình cục bộ: bash upskill generate “parse YAML”
–model opus
–eval-model “unsloth/GLM-4.7-Flash-GGUF:Q4_0”
–eval-base-url http://localhost:8080/v1

Hướng dẫn chuyên sâu: Xây dựng Kernel với Agent Skills

Chúng ta đã có cái nhìn tổng quan về việc nâng cấp agent. Giờ hãy xem xét trường hợp sử dụng cụ thể: viết CUDA kernel.

Skill kernel-builder-cuda-kernels dạy cho Claude mọi thứ cần biết về phát triển CUDA, bao gồm kiến trúc GPU mục tiêu, cấu trúc dự án, tối ưu hóa bộ nhớ chia sẻ và tạo các ràng buộc PyTorch.

Với skill này, bạn có thể yêu cầu Claude: "Build a fused LayerNorm + GELU kernel optimized for H100."

Claude sẽ tạo ra toàn bộ cấu trúc dự án, triển khai CUDA và cấu hình build theo đúng quy ước mà kernel-builder mong đợi.

Đánh giá trên Mô hình Khác

Quan trọng là kiểm tra xem skill có giúp các mô hình cục bộ hoặc rẻ hơn tạo kernel hay không.

bash

Khởi động server OpenAI tương thích cục bộ với giao diện web

llama-server -hf unsloth/GLM-4.7-Flash-GGUF:Q4_K_M

Đánh giá trên mô hình cục bộ (server llama.cpp)

upskill eval ./skills/my-skill/
–model “unsloth/GLM-4.7-Flash-GGUF:Q4_0”
–base-url http://localhost:8080/v1

Kết quả cho thấy unsloth/GLM-4.7-Flash-GGUF:Q4_0 đã cải thiện 45% khi sử dụng skill. Điều này chứng tỏ khả năng chuyển giao kiến thức từ mô hình mạnh sang mô hình nhanh và rẻ hơn.

Cách `upskill` hoạt động để đánh giá

upskill sử dụng cách tiếp cận “giáo viên - học sinh” để đánh giá:

Mô hình giáo viên (Opus) tạo skill.
Trường hợp thử nghiệm (Opus) được tạo tự động từ mô tả tác vụ.
Mô hình học sinh (mô hình cục bộ) được đánh giá có và không có skill.
“Skill lift” đo lường mức độ cải thiện.

Chúng ta cũng có thể kiểm tra hiệu suất của skill trên các mô hình khác nhau:

bash upskill eval ./skills/kernel-builder-cuda-kernels/
–model haiku –m kimi –runs 5

Bảng kết quả cho thấy Haiku đạt tỷ lệ vượt qua 80% và Kimi đạt 100%. Điều này giúp tìm ra điểm cân bằng giữa chi phí và hiệu suất.

Sắp tới

upskill có thể tạo các skill đã được xác thực, chuyển giao kiến thức chuyên môn từ các mô hình mạnh mẽ sang các mô hình rẻ hơn. Skill kernel-builder chỉ là một ví dụ.

Bạn có thể:

Tạo skill cho các công cụ nội bộ của bạn.
Xây dựng thư viện skill cho codebase của bạn.
Thu thập kiến thức chuyên môn.
Đánh giá hiệu suất trên nhiều mô hình.

Cách tiếp cận này hoạt động cho bất kỳ tác vụ chuyên biệt nào mà bạn thường xuyên phải viết lại các câu lệnh chi tiết. Skills có thể di chuyển được giữa Claude Code, Codex, Cursor và các công cụ khác hỗ trợ thông số kỹ thuật Agent Skills.

Tài nguyên

Bình luận

NJX-njx (1 ngày trước): Bài viết này rất truyền cảm hứng. 1. Vì skills đã trở thành một công cụ tuyệt vời để cải thiện khả năng của mô hình, liệu chúng ta có thể thử chắt lọc skills, giống như chúng ta đã làm với chắt lọc mô hình trước đây không? Tôi nghĩ điều này có thể đạt được thông qua nhiều lần lặp. 2. Các chức năng hiện tại của upskill thực sự khá hoàn chỉnh, nhưng tôi tự hỏi liệu chúng ta có thể thử làm cho nó tạo ra một ma trận tương thích giữa nhiều skills, để hiệu quả kết hợp lớn hơn tổng các phần không. Ngoài ra, Mô hình A tạo skills, và Mô hình B tìm các ví dụ phản chứng, để chúng có thể cùng nhau phát triển.
ClementeH (1 ngày trước): Bài viết tuyệt vời! Tôi chưa thử upskill, nhưng tôi sẽ thử xem sao. Tôi nghĩ liên kết agent trace bị lỗi — nó trỏ đến trace.md nhưng tệp thực tế là agent-trace.txt: https://huggingface.co/hf-skills/h100-diffusers-kernel-builder/blob/main/agent-trace.txt
- pcuenq (1 ngày trước): Cảm ơn @ClementeH! Bạn có muốn mở một PR để sửa nó không? :) Nếu bạn không có thời gian, chúng tôi sẽ làm! [Ảnh chụp màn hình]
- ClementeH (1 ngày trước): Xong rồi! https://github.com/huggingface/blog/pull/3267

AI Today - SkyAI

Chúng tôi đã khiến Claude xây dựng các Kernel CUDA và dạy các mô hình mở!

Claude đã giúp các mô hình mã nguồn mở học cách viết CUDA kernel!

Agent Skills là gì?

Hướng dẫn chi tiết: Xây dựng Kernel CUDA với Agent Skills

1. Sử dụng Claude Opus 4.5 để tạo Kernel

2. Tạo Agent Skill từ Trace

3. Chuyển giao Skill cho Mô hình Nhỏ hơn

Cài đặt và Sử dụng `upskill`

Hoặc sử dụng uvx cho các lần chạy một lần

Hướng dẫn chuyên sâu: Xây dựng Kernel với Agent Skills

Đánh giá trên Mô hình Khác

Khởi động server OpenAI tương thích cục bộ với giao diện web

Đánh giá trên mô hình cục bộ (server llama.cpp)

Cách `upskill` hoạt động để đánh giá

Sắp tới

Tài nguyên

Bình luận

Bài viết liên quan

Link bài viết gốc

Claude đã giúp các mô hình mã nguồn mở học cách viết CUDA kernel!

Agent Skills là gì?

Hướng dẫn chi tiết: Xây dựng Kernel CUDA với Agent Skills

1. Sử dụng Claude Opus 4.5 để tạo Kernel

2. Tạo Agent Skill từ Trace

3. Chuyển giao Skill cho Mô hình Nhỏ hơn

Cài đặt và Sử dụng upskill

Hoặc sử dụng uvx cho các lần chạy một lần

Hướng dẫn chuyên sâu: Xây dựng Kernel với Agent Skills

Đánh giá trên Mô hình Khác

Khởi động server OpenAI tương thích cục bộ với giao diện web

Đánh giá trên mô hình cục bộ (server llama.cpp)

Cách upskill hoạt động để đánh giá

Sắp tới

Tài nguyên

Bình luận

Bài viết liên quan

Link bài viết gốc

Cài đặt và Sử dụng `upskill`

Cách `upskill` hoạt động để đánh giá