Nâng cao mô hình của bạn trong 5 phút với Hugging Face Kernel Hub

Tìm hiểu cách tăng tốc quy trình làm việc của bạn bằng cách sử dụng môi trường mã hóa dựa trên đám mây, tích hợp và có thể nhân rộng.

June 13, 2025
17 min read

Nâng cao mô hình của bạn trong 5 phút với Hugging Face Kernel Hub — Tìm hiểu cách tăng tốc quy trình làm việc của bạn bằng cách sử dụng môi trường mã hóa dựa trên đám mây, tích hợp và có thể nhân rộng.

🏎️ Tăng Cường Mô Hình Của Bạn Trong 5 Phút Với Hugging Face Kernel Hub

Tăng hiệu suất mô hình của bạn với các kernel được tối ưu hóa trước, dễ dàng tải từ Hub.

Hôm nay, chúng ta sẽ khám phá một phát triển thú vị từ Hugging Face: Kernel Hub! Là những người thực hành ML, chúng ta biết rằng tối đa hóa hiệu suất thường liên quan đến việc đi sâu vào mã được tối ưu hóa, các kernel CUDA tùy chỉnh hoặc các hệ thống xây dựng phức tạp. Kernel Hub đơn giản hóa quá trình này một cách đáng kể!

Dưới đây là một ví dụ ngắn gọn về cách sử dụng một kernel trong mã của bạn.

import torch

from kernels import get_kernel

# Tải xuống các kernel được tối ưu hóa từ Hugging Face hub
activation = get_kernel("kernels-community/activation")

# Tensor ngẫu nhiên
x = torch.randn((10, 10), dtype=torch.float16, device="cuda")

# Chạy kernel
y = torch.empty_like(x)
activation.gelu_fast(y, x)

print(y)

Trong các phần tiếp theo, chúng ta sẽ đề cập đến các chủ đề sau:

Kernel Hub là gì? - Hiểu khái niệm cốt lõi.
Cách sử dụng Kernel Hub - Một ví dụ mã nhanh.
Thêm Kernel vào Mô Hình Đơn Giản - Tích hợp thực tế bằng RMSNorm.
Đánh Giá Tác Động Hiệu Suất - Điểm chuẩn sự khác biệt của RMSNorm.
Các trường hợp sử dụng thực tế - Các ví dụ về cách thư viện kernel đang được sử dụng trong các dự án khác.

Chúng ta sẽ giới thiệu những khái niệm này một cách nhanh chóng – ý tưởng cốt lõi có thể được nắm bắt trong khoảng 5 phút (mặc dù thử nghiệm và đo điểm chuẩn có thể mất nhiều thời gian hơn!).

1. Kernel Hub Là Gì?

Kernel Hub (👈 Hãy xem!) cho phép các thư viện và ứng dụng Python tải các kernel tính toán được tối ưu hóa trực tiếp từ Hugging Face Hub. Hãy nghĩ về nó như Model Hub, nhưng dành cho các đoạn mã (kernel) cấp thấp, hiệu suất cao, giúp tăng tốc các hoạt động cụ thể, thường trên GPU.

Các ví dụ bao gồm các cơ chế attention nâng cao (như FlashAttention để tăng tốc đáng kể và tiết kiệm bộ nhớ). Các kernel lượng tử hóa tùy chỉnh (cho phép tính toán hiệu quả với các kiểu dữ liệu có độ chính xác thấp hơn như INT8 hoặc INT4). Các kernel chuyên dụng cần thiết cho các kiến trúc phức tạp như các lớp Mixture of Experts (MoE), bao gồm các mẫu định tuyến và tính toán phức tạp. Cũng như các hàm kích hoạt và các lớp chuẩn hóa (như LayerNorm hoặc RMSNorm).

Thay vì tự quản lý các phụ thuộc phức tạp, vật lộn với các flag biên dịch hoặc xây dựng các thư viện như Triton hoặc CUTLASS từ nguồn, bạn có thể sử dụng thư viện kernels để tìm nạp và chạy ngay lập tức các kernel được biên dịch và tối ưu hóa trước.

Ví dụ: để bật FlashAttention, bạn chỉ cần một dòng—không cần build, không cần flag:

from kernels import get_kernel

flash_attention = get_kernel("kernels-community/flash-attn")

kernels phát hiện chính xác các phiên bản Python, PyTorch và CUDA của bạn, sau đó tải xuống binary được biên dịch sẵn phù hợp—thường trong vài giây (hoặc một hoặc hai phút đối với kết nối chậm).

Ngược lại, việc tự biên dịch FlashAttention đòi hỏi:

Clone repository và cài đặt mọi phụ thuộc.
Cấu hình các flag build và các biến môi trường.
Dành ra ~96 GB RAM và nhiều lõi CPU.
Chờ 10 phút đến vài giờ, tùy thuộc vào phần cứng của bạn. (Xem hướng dẫn cài đặt của chính dự án để biết chi tiết.)

Kernel Hub xóa bỏ tất cả những khó khăn đó: một lệnh gọi hàm, tăng tốc tức thì.

Lợi Ích Của Kernel Hub:

Truy Cập Tức Thì Vào Các Kernel Được Tối Ưu Hóa: Tải và chạy các kernel được tối ưu hóa cho nhiều loại phần cứng, bắt đầu với GPU NVIDIA và AMD, mà không gặp rắc rối về biên dịch cục bộ.
Chia Sẻ và Tái Sử Dụng: Khám phá, chia sẻ và tái sử dụng các kernel trên các dự án khác nhau và cộng đồng.
Dễ Dàng Cập Nhật: Luôn cập nhật những cải tiến kernel mới nhất bằng cách chỉ cần kéo phiên bản mới nhất từ Hub.
Tăng Tốc Phát Triển: Tập trung vào kiến trúc và logic mô hình của bạn, không phải vào sự phức tạp của việc biên dịch và triển khai kernel.
Cải Thiện Hiệu Suất: Tận dụng các kernel được tối ưu hóa bởi các chuyên gia để có khả năng tăng tốc quá trình huấn luyện và suy luận.
Đơn Giản Hóa Triển Khai: Giảm độ phức tạp của môi trường triển khai của bạn bằng cách tìm nạp các kernel theo yêu cầu.
Phát Triển và Chia Sẻ Kernel Của Riêng Bạn: Nếu bạn tạo các kernel được tối ưu hóa, bạn có thể dễ dàng chia sẻ chúng trên Hub để người khác sử dụng. Điều này khuyến khích sự hợp tác và chia sẻ kiến thức trong cộng đồng.

Như nhiều nhà phát triển machine learning đã biết, việc quản lý các phụ thuộc và xây dựng mã cấp thấp từ nguồn có thể là một quá trình tốn thời gian và dễ xảy ra lỗi. Kernel Hub nhằm mục đích đơn giản hóa điều này bằng cách cung cấp một repository tập trung các kernel tính toán được tối ưu hóa có thể dễ dàng tải và chạy.

Dành nhiều thời gian hơn để xây dựng các mô hình tuyệt vời và ít thời gian hơn để chiến đấu với các hệ thống xây dựng!

2. Cách Sử Dụng Kernel Hub (Ví Dụ Cơ Bản)

Việc sử dụng Kernel Hub được thiết kế đơn giản. Thư viện kernels cung cấp giao diện chính. Dưới đây là một ví dụ nhanh tải một kernel hàm kích hoạt GELU được tối ưu hóa. (Sau này, chúng ta sẽ thấy một ví dụ khác về cách tích hợp một kernel trong mô hình của chúng ta).

Tệp: activation_validation_example.py

# /// script
# dependencies = [
#  "numpy",
#  "torch",
#  "kernels",
# ]
# ///

import torch
import torch.nn.functional as F
from kernels import get_kernel

DEVICE = "cuda"

# Tạo khả năng tái tạo
torch.manual_seed(42)

# Tải xuống các kernel kích hoạt được tối ưu hóa từ Hub
activation_kernels = get_kernel("kernels-community/activation")

# Tạo một tensor ngẫu nhiên trên GPU
x = torch.randn((4, 4), dtype=torch.float16, device=DEVICE)

# Chuẩn bị một tensor đầu ra
y = torch.empty_like(x)

# Chạy kernel GELU nhanh
activation_kernels.gelu_fast(y, x)

# Lấy đầu ra dự kiến bằng cách sử dụng GELU tích hợp của PyTorch
expected = F.gelu(x)

# So sánh đầu ra kernel với kết quả của PyTorch
torch.testing.assert_close(y, expected, rtol=1e-2, atol=1e-2)

print("✅ Đầu ra kernel khớp với PyTorch GELU!")

# Tùy chọn: in cả hai tensor để kiểm tra
print("\nTensor đầu vào:")
print(x)
print("\nĐầu ra kernel GELU nhanh:")
print(y)
print("\nĐầu ra PyTorch GELU:")
print(expected)

# Liệt kê các hàm khả dụng trong mô-đun kernel đã tải
print("\nCác hàm khả dụng trong 'kernels-community/activation':")
print(dir(activation_kernels))

(Lưu ý: Nếu bạn đã cài đặt uv, bạn có thể lưu script này dưới dạng script.py và chạy uv run script.py để tự động xử lý các phụ thuộc.)

Điều Gì Đang Xảy Ra Ở Đây?

Import get_kernel: Hàm này là điểm vào Kernel Hub thông qua thư viện kernels.
get_kernel("kernels-community/activation"): Dòng này tìm repository kernel activation trong organization kernels-community. Nó tải xuống, lưu vào bộ nhớ cache và tải binary kernel được biên dịch sẵn thích hợp.
Chuẩn Bị Tensors: Chúng ta tạo các tensor đầu vào (x) và đầu ra (y) trên GPU.
activation_kernels.gelu_fast(y, x): Chúng ta gọi hàm được tối ưu hóa cụ thể (gelu_fast) được cung cấp bởi mô-đun kernel đã tải.
Xác Minh: Chúng ta kiểm tra đầu ra.

Ví dụ đơn giản này cho thấy bạn có thể dễ dàng tìm nạp và thực thi mã được tối ưu hóa cao như thế nào. Bây giờ hãy xem xét một tích hợp thực tế hơn bằng cách sử dụng RMS Normalization.

3. Thêm Kernel Vào Mô Hình Đơn Giản

Hãy tích hợp một kernel RMS Normalization được tối ưu hóa vào một mô hình cơ bản. Chúng ta sẽ sử dụng implementation LlamaRMSNorm được cung cấp trong repository kernels-community/triton-layer-norm (lưu ý: repo này chứa các kernel chuẩn hóa khác nhau) và so sánh nó với implementation RMSNorm PyTorch cơ bản.

Đầu tiên, xác định một mô-đun RMSNorm đơn giản trong PyTorch và một mô hình cơ sở sử dụng nó:

Tệp: rmsnorm_baseline.py

# /// script
# dependencies = [
#  "numpy",
#  "torch",
#  "kernels",
# ]
# ///
import torch
import torch.nn as nn

DEVICE = "cuda"

DTYPE = torch.float16  # Sử dụng float16 để có tiềm năng hiệu suất kernel tốt hơn


# Implementation PyTorch đơn giản của RMSNorm để so sánh cơ bản
class RMSNorm(nn.Module):
    def __init__(self, hidden_size, variance_epsilon=1e-5):
        super().__init__()
        self.weight = nn.Parameter(torch.ones(hidden_size))
        self.eps = variance_epsilon
        self.hidden_size = hidden_size

    def forward(self, x):
        # Giả sử x là (batch_size, ..., hidden_size)
        input_dtype = x.dtype
        # Tính phương sai trong float32 để ổn định
        variance = x.to(torch.float32).pow(2).mean(-1, keepdim=True)
        x = x * torch.rsqrt(variance + self.eps)

        # Áp dụng trọng số và chuyển đổi trở lại dtype ban đầu
        return (self.weight * x).to(input_dtype)


class BaselineModel(nn.Module):
    def __init__(self, input_size, hidden_size, output_size, eps=1e-5):
        super().__init__()
        self.linear1 = nn.Linear(input_size, hidden_size)
        self.norm = RMSNorm(hidden_size, variance_epsilon=eps)
        self.activation = nn.GELU()
        self.linear2 = nn.Linear(hidden_size, output_size)

        # đảm bảo tất cả các trọng số của các lớp tuyến tính là 1 để kiểm tra
        with torch.no_grad():
            self.linear1.weight.fill_(1)
            self.linear1.bias.fill_(0)
            self.linear2.weight.fill_(1)
            self.linear2.bias.fill_(0)
            self.norm.weight.fill_(1)

    def forward(self, x):
        x = self.linear1(x)
        x = self.norm(x)  # Áp dụng RMSNorm
        x = self.activation(x)
        x = self.linear2(x)
        return x


# Ví dụ sử dụng
input_size = 128
hidden_size = 256
output_size = 10
eps_val = 1e-5

baseline_model = (
    BaselineModel(input_size, hidden_size, output_size, eps=eps_val)
    .to(DEVICE)
    .to(DTYPE)
)
dummy_input = torch.randn(32, input_size, device=DEVICE, dtype=DTYPE)  # Batch gồm 32
output = baseline_model(dummy_input)
print("Hình dạng đầu ra của mô hình Baseline RMSNorm:", output.shape)

Bây giờ, hãy tạo một phiên bản bằng cách sử dụng kernel LlamaRMSNorm được tải qua kernels.

Tệp: rmsnorm_kernel.py

# /// script
# dependencies = [
#  "numpy",
#  "torch",
#  "kernels",
# ]
# ///
import torch
import torch.nn as nn
from kernels import get_kernel, use_kernel_forward_from_hub

# tái sử dụng mô hình từ đoạn mã trước hoặc sao chép lớp
# định nghĩa ở đây để chạy script này một cách độc lập
from rmsnorm_baseline import BaselineModel

DEVICE = "cuda"
DTYPE = torch.float16  # Sử dụng float16 để có tiềm năng hiệu suất kernel tốt hơn


layer_norm_kernel_module = get_kernel("kernels-community/triton-layer-norm")

# Đơn giản chỉ cần thêm decorator vào lớp LlamaRMSNorm để tự động thay thế hàm forward
# với phiên bản kernel được tối ưu hóa
#
# Lưu ý: lưu ý tất cả các kernel đều được ship với các lớp đã được ánh xạ và sẽ yêu cầu gọi hàm trực tiếp
# Tuy nhiên, trong trường hợp này, lớp LlamaRMSNorm đã được ánh xạ tới hàm kernel. Nếu không, chúng ta cần
# gọi hàm trực tiếp như sau:
# ```python
# layer_norm_kernel_module.rms_norm_fn(
#     hidden_states,
#     self.weight,
#     bias=None,
#     residual=None,
#     eps=self.variance_epsilon,
#     dropout_p=0.0,
#     prenorm=False,
#     residual_in_fp32=False,
# )
# ```
@use_kernel_forward_from_hub("LlamaRMSNorm")
class OriginalRMSNorm(nn.Module):
    def __init__(self, hidden_size, variance_epsilon=1e-5):
        super().__init__()
        self.weight = nn.Parameter(torch.ones(hidden_size))
        self.eps = variance_epsilon
        self.hidden_size = hidden_size

    def forward(self, x):
        # Giả sử x là (batch_size, ..., hidden_size)
        input_dtype = x.dtype
        # Tính phương sai trong float32 để ổn định
        variance = x.to(torch.float32).pow(2).mean(-1, keepdim=True)
        x = x * torch.rsqrt(variance + self.eps)

        # Áp dụng trọng số và chuyển đổi trở lại dtype ban đầu
        return (self.weight * x).to(input_dtype)


class KernelModel(nn.Module):
    def __init__(
        self,
        input_size,
        hidden_size,
        output_size,
        device="cuda",
        dtype=torch.float16,
        eps=1e-5,
    ):
        super().__init__()
        self.linear1 = nn.Linear(input_size, hidden_size)
        # OriginalRMSNorm sẽ được thay thế bằng lớp kernel được tối ưu hóa
        # khi mô hình được tải
        self.norm = OriginalRMSNorm(hidden_size, variance_epsilon=eps)
        self.activation = nn.GELU()
        self.linear2 = nn.Linear(hidden_size, output_size)

        # đảm bảo tất cả các trọng số của các lớp tuyến tính là 1 để kiểm tra
        with torch.no_grad():
            self.linear1.weight.fill_(1)
            self.linear1.bias.fill_(0)
            self.linear2.weight.fill_(1)
            self.linear2.bias.fill_(0)
            self.norm.weight.fill_(1)

    def forward(self, x):
        x = self.linear1(x)
        x = self.norm(x)
        x = self.activation(x)
        x = self.linear2(x)
        return x


# Ví dụ sử dụng
input_size = 128
hidden_size = 256
output_size = 10
eps_val = 1e-5

kernel_model = (
    KernelModel(
        input_size, hidden_size, output_size, device=DEVICE, dtype=DTYPE, eps=eps_val
    )
    .to(DEVICE)
    .to(DTYPE)
)

baseline_model = (
    BaselineModel(input_size, hidden_size, output_size, eps=eps_val)
    .to(DEVICE)
    .to(DTYPE)
)

dummy_input = torch.randn(32, input_size, device=DEVICE, dtype=DTYPE)  # Batch gồm 32

output = baseline_model(dummy_input)
output_kernel = kernel_model(dummy_input)
print("Hình dạng đầu ra của mô hình Kernel RMSNorm:", output_kernel.shape)

# Xác minh các đầu ra gần nhau (các implementations RMSNorm phải gần nhau về mặt số)
try:
    torch.testing.assert_close(output, output_kernel, rtol=1e-2, atol=1e-2)
    print("\nCác đầu ra của mô hình Baseline và Kernel RMSNorm khớp nhau!")
except AssertionError as e:
    print("\nCác đầu ra của mô hình Baseline và Kernel RMSNorm hơi khác nhau:")
    print(e)
except NameError:
    print("\nBỏ qua so sánh đầu ra vì đầu ra của mô hình kernel không được tạo.")

Lưu Ý Quan Trọng Về KernelModel:

Kế thừa Kernel: Lớp KernelRMSNorm kế thừa từ layer_norm_kernel_module.layers.LlamaRMSNorm, là implementation RMSNorm trong kernel. Điều này cho phép chúng ta sử dụng trực tiếp kernel được tối ưu hóa.
Truy Cập Hàm: Cách chính xác để truy cập hàm RMSNorm (layer_norm_kernel_module.layers.LlamaRMSNorm.forward, layer_norm_kernel_module.rms_norm_forward hoặc một cái gì đó khác) hoàn toàn phụ thuộc vào cách người tạo kernel cấu trúc repository trên Hub. Bạn có thể cần kiểm tra đối tượng layer_norm_kernel_module đã tải (ví dụ: sử dụng dir()) hoặc kiểm tra tài liệu của kernel trên Hub để tìm hàm/phương thức chính xác và signature của nó. Tôi đã sử dụng rms_norm_forward làm trình giữ chỗ hợp lý và thêm xử lý lỗi.
Tham Số: Bây giờ chúng ta chỉ xác định rms_norm_weight (không có bias), nhất quán với RMSNorm.

4. Đánh Giá Tác Động Hiệu Suất

Kernel RMSNorm Triton được tối ưu hóa nhanh hơn bao nhiêu so với phiên bản PyTorch tiêu chuẩn? Hãy benchmark lượt forward để tìm hiểu.

Tệp: rmsnorm_benchmark.py

# /// script
# dependencies = [
#  "numpy",
#  "torch",
#  "kernels",
# ]
# ///
import torch

# tái sử dụng các mô hình từ các đoạn mã trước hoặc sao chép lớp
# các định nghĩa ở đây để chạy script này một cách độc lập
from rmsnorm_baseline import BaselineModel
from rmsnorm_kernel import KernelModel

DEVICE = "cuda"
DTYPE = torch.float16  # Sử dụng float16 để có tiềm năng hiệu suất kernel tốt hơn


# Sử dụng torch.cuda.Event để có thời gian GPU chính xác (đảm bảo hàm được xác định)
def benchmark_model(model, input_tensor, num_runs=100, warmup_runs=10):
    model.eval()  # Đặt mô hình ở chế độ đánh giá
    dtype = input_tensor.dtype
    model = model.to(input_tensor.device).to(dtype)

    # Các lần chạy khởi động
    for _ in range(warmup_runs):
        _ = model(input_tensor)
    torch.cuda.synchronize()

    # Các lần chạy được tính thời gian
    start_event = torch.cuda.Event(enable_timing=True)
    end_event = torch.cuda.Event(enable_timing=True)
    start_event.record()
    for _ in range(num_runs):
        _ = model(input_tensor)
    end_event.record()
    torch.cuda.synchronize()
    elapsed_time_ms = start_event.elapsed_time(end_event)
    avg_time_ms = elapsed_time_ms / num_runs
    return avg_time_ms


input_size_bench = 4096
hidden_size_bench = 4096  # Hiệu suất RMSNorm nhạy cảm với chiều này
output_size_bench = 10
eps_val_bench = 1e-5

# Tạo các mô hình lớn hơn và đầu vào để benchmark
# Đảm bảo cả hai mô hình đều được chuyển đổi hoàn toàn sang DEVICE và DTYPE mục tiêu
baseline_model_bench = (
    BaselineModel(
        input_size_bench, hidden_size_bench, output_size_bench, eps=eps_val_bench
    )
    .to(DEVICE)
    .to(DTYPE)
)
kernel_model_bench = (
    KernelModel(
        input_size_bench,
        hidden_size_bench,
        output_size_bench,
        device=DEVICE,
        dtype=DTYPE,
        eps=eps_val_bench,
    )
    .to(DEVICE)
    .to(DTYPE)
)

# gọi cả hai với kích thước batch lớn hơn để khởi động GPU
# và đảm bảo các mô hình được tải
warmup_input = torch.randn(4096, input_size_bench, device=DEVICE, dtype=DTYPE)
_ = kernel_model_bench(warmup_input)
_ = baseline_model_bench(warmup_input)

batch_sizes = [
    256,
    512,
    1024,
    2048,
    4096,
    8192,
    16384,
    32768,
]

print(
    f"{'Batch Size':<12} | {'Baseline Time (ms)':<18} | {'Kernel Time (ms)':<18} | {'Speedup'}"
)
print("-" * 74)

for batch_size in batch_sizes:
    # Gọi cuda synchronize để đảm bảo tất cả các hoạt động GPU trước đó đã hoàn thành
    torch.cuda.synchronize()

    # Tạo tensor đầu vào ngẫu nhiên
    # Đảm bảo tensor đầu vào nằm trên thiết bị và dtype chính xác
    bench_input = torch.randn(batch_size, input_size_bench, device=DEVICE, dtype=DTYPE)

    # Chạy benchmark chỉ khi kernel được tải thành công
    baseline_time = benchmark_model(baseline_model_bench, bench_input)

    kernel_time = -1  # Giá trị sentinel

    kernel_time = benchmark_model(kernel_model_bench, bench_input)

    baseline_time = round(baseline_time, 4)
    kernel_time = round(kernel_time, 4)
    speedup = round(baseline_time / kernel_time, 2) if kernel_time > 0 else "N/A"
    if kernel_time < baseline_time:
        speedup = f"{speedup:.2f}x"
    elif kernel_time == baseline_time:
        speedup = "1.00x (giống hệt nhau)"
    else:
        speedup = f"{kernel_time / baseline_time:.2f}x chậm hơn"
    print(f"{batch_size:<12} | {baseline_time:<18} | {kernel_time:<18} | {speedup}")

Kết Quả Dự Kiến: Cũng như LayerNorm, một implementation RMSNorm được điều chỉnh tốt bằng cách sử dụng Triton có thể mang lại tốc độ đáng kể so với phiên bản mặc định của PyTorch—đặc biệt đối với khối lượng công việc bị giới hạn bộ nhớ trên phần cứng tương thích (ví dụ: GPU NVIDIA Ampere hoặc Hopper) và với các kiểu dữ liệu có độ chính xác thấp như float16 hoặc bfloat16.

Hãy Nhớ Rằng:

Kết quả có thể khác nhau tùy thuộc vào GPU, kích thước đầu vào và kiểu dữ liệu của bạn.
Điểm chuẩn vi mô có thể xuyên tạc hiệu suất trong thế giới thực.
Hiệu suất phụ thuộc vào chất lượng của implementation kernel.
Các kernel được tối ưu hóa có thể không mang lại lợi ích cho các kích thước batch nhỏ do chi phí chung.

Kết quả thực tế sẽ phụ thuộc vào phần cứng của bạn và implementation kernel cụ thể. Dưới đây là một ví dụ về những gì bạn có thể thấy (trên GPU L4):

Batch Size	Baseline Time (ms)	Kernel Time (ms)	Speedup
256	0.2122	0.2911	0.72x
512	0.4748	0.3312	1.43x
1024	0.8946	0.6864	1.30x
2048	2.0289	1.3889	1.46x
4096	4.4318	2.2467	1.97x
8192	9.2438	4.8497	1.91x
16384	18.6992	9.8805	1.89x
32768	37.079	19.9461	1.86x
65536	73.588	39.593	1.86x

5. Các Trường Hợp Sử Dụng Thực Tế

Thư viện kernels vẫn đang phát triển nhưng đã được sử dụng trong nhiều dự án công việc thực tế khác nhau, bao gồm:

Text Generation Inference: Dự án TGI sử dụng thư viện kernels để tải các kernel được tối ưu hóa cho các tác vụ tạo văn bản, cải thiện hiệu suất và hiệu quả.
Transformers: Thư viện Transformers đã tích hợp thư viện kernels để sử dụng drop in các lớp được tối ưu hóa mà không yêu cầu bất kỳ thay đổi nào đối với mã mô hình. Điều này cho phép người dùng dễ dàng chuyển đổi giữa các implementation tiêu chuẩn và được tối ưu hóa.

Bắt Đầu và Các Bước Tiếp Theo!

Bạn đã thấy việc tìm nạp và sử dụng các kernel được tối ưu hóa dễ dàng như thế nào với Hugging Face Kernel Hub. Bạn đã sẵn sàng tự mình thử chưa?

Cài đặt thư viện:

pip install kernels torch numpy

Đảm bảo bạn đã cài đặt phiên bản PyTorch và trình điều khiển gpu tương thích.

Duyệt Hub: Khám phá các kernel khả dụng trên Hugging Face Hub dưới tag kernels hoặc trong các organization như kernels-community. Tìm kiếm các kernel có liên quan đến các hoạt động của bạn (kích hoạt, attention, chuẩn hóa như LayerNorm/RMSNorm, v.v.).
Thử Nghiệm: Thử thay thế các thành phần trong mô hình của riêng bạn. Sử dụng get_kernel("user-or-org/kernel-name"). Điều quan trọng là, hãy kiểm tra đối tượng kernel đã tải (ví dụ: print(dir(loaded_kernel)) ) hoặc kiểm tra tài liệu repository Hub của nó để hiểu cách gọi chính xác các hàm/phương thức của nó và những tham số (trọng số, bias, đầu vào, epsilon) mà nó mong đợi.
Đo Điểm Chuẩn: Đo lường tác động hiệu suất trên phần cứng và khối lượng công việc cụ thể của bạn. Đừng quên kiểm tra tính chính xác về mặt số học (torch.testing.assert_close).
(Nâng cao) Đóng Góp: Nếu bạn phát triển các kernel được tối ưu hóa, hãy cân nhắc chia sẻ chúng trên Hub!

Kết Luận

Hugging Face Kernel Hub cung cấp một cách mạnh mẽ nhưng đơn giản để truy cập và tận dụng các kernel tính toán được tối ưu hóa. Bằng cách thay thế các thành phần PyTorch tiêu chuẩn bằng các phiên bản được tối ưu hóa cho các hoạt động như RMS Normalization, bạn có thể mở khóa những cải thiện hiệu suất đáng kể mà không gặp những phức tạp truyền thống của các bản build tùy chỉnh. Hãy nhớ kiểm tra các thông số kỹ thuật của từng kernel trên Hub để sử dụng chính xác. Hãy thử và xem nó có thể tăng tốc quy trình làm việc của bạn như thế nào!

AI Today - SkyAI