Groq trên các nhà cung cấp suy luận Hugging Face 🔥

Giới thiệu Groq trên Hugging Face Inference Providers

  • 5 min read
Groq trên các nhà cung cấp suy luận Hugging Face 🔥
Giới thiệu Groq trên Hugging Face Inference Providers

Groq trên Hugging Face Inference Providers 🔥

banner image

Chúng tôi rất vui mừng thông báo rằng Groq hiện là một Inference Provider (Nhà cung cấp suy luận) được hỗ trợ trên Hugging Face Hub!

Groq tham gia hệ sinh thái đang phát triển của chúng tôi, tăng cường phạm vi và khả năng của suy luận không máy chủ (serverless inference) trực tiếp trên các trang mô hình của Hub. Inference Providers cũng được tích hợp liền mạch vào client SDK của chúng tôi (cho cả JS và Python), giúp bạn cực kỳ dễ dàng sử dụng nhiều loại mô hình với các nhà cung cấp ưa thích của mình.

Groq hỗ trợ nhiều loại mô hình văn bản và đàm thoại, bao gồm các mô hình nguồn mở mới nhất như LLama 4 của Meta, QWQ-32B của Qwen và nhiều mô hình khác.

Trọng tâm của công nghệ Groq là Language Processing Unit (LPU™), một loại hệ thống đơn vị xử lý end-to-end mới cung cấp suy luận nhanh nhất cho các ứng dụng tốn nhiều tính toán với thành phần tuần tự, chẳng hạn như Large Language Models (LLMs). LPU được thiết kế để vượt qua các hạn chế của GPU đối với suy luận, mang lại độ trễ thấp hơn và thông lượng cao hơn đáng kể. Điều này làm cho chúng trở nên lý tưởng cho các ứng dụng AI thời gian thực.

Groq cung cấp suy luận AI nhanh chóng cho các mô hình có sẵn công khai. Họ cung cấp một API cho phép các nhà phát triển dễ dàng tích hợp các mô hình này vào ứng dụng của họ. Nó cung cấp một mô hình theo yêu cầu, trả tiền khi bạn sử dụng để truy cập vào một loạt các LLM có sẵn công khai.

Giờ đây, bạn có thể sử dụng Inference API của Groq làm Inference Provider trên Huggingface. Chúng tôi rất vui khi thấy những gì bạn sẽ xây dựng với nhà cung cấp mới này.

Đọc thêm về cách sử dụng Groq làm Inference Provider trong trang tài liệu chuyên dụng.

Xem danh sách các mô hình được hỗ trợ tại đây.

Cách thức hoạt động

Trong giao diện người dùng trang web

  1. Trong cài đặt tài khoản người dùng của bạn, bạn có thể:
    • Đặt khóa API của riêng bạn cho các nhà cung cấp mà bạn đã đăng ký. Nếu không có khóa tùy chỉnh nào được đặt, các yêu cầu của bạn sẽ được định tuyến qua HF.
    • Sắp xếp các nhà cung cấp theo sở thích. Điều này áp dụng cho tiện ích và đoạn mã trong các trang mô hình.

Inference Providers

  1. Như đã đề cập, có hai chế độ khi gọi Inference Providers:
    • Khóa tùy chỉnh (các cuộc gọi đi trực tiếp đến nhà cung cấp suy luận, sử dụng khóa API của riêng bạn của nhà cung cấp suy luận tương ứng)
    • Được định tuyến bởi HF (trong trường hợp đó, bạn không cần mã thông báo từ nhà cung cấp và các khoản phí được áp dụng trực tiếp vào tài khoản HF của bạn thay vì tài khoản của nhà cung cấp)

Inference Providers

  1. Các trang mô hình giới thiệu các nhà cung cấp suy luận của bên thứ ba (những nhà cung cấp tương thích với mô hình hiện tại, được sắp xếp theo sở thích của người dùng)

Inference Providers

Từ các SDK của ứng dụng khách

Từ Python, sử dụng huggingface_hub

Ví dụ sau đây cho thấy cách sử dụng LLama 4 của Meta bằng Groq làm nhà cung cấp suy luận. Bạn có thể sử dụng Hugging Face token để tự động định tuyến qua Hugging Face hoặc khóa API Groq của riêng bạn nếu bạn có.

Cài đặt huggingface_hub từ nguồn (xem hướng dẫn). Hỗ trợ chính thức sẽ sớm được phát hành trong phiên bản v0.33.0.

import os
from huggingface_hub import InferenceClient

client = InferenceClient(
    provider="groq",
    api_key=os.environ["HF_TOKEN"],
)

messages = [
    {
        "role": "user",
        "content": "What is the capital of France?"
    }
]

completion = client.chat.completions.create(
    model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
    messages=messages,
)

print(completion.choices[0].message)

Từ JS sử dụng @huggingface/inference

import { InferenceClient } from "@huggingface/inference";

const client = new InferenceClient(process.env.HF_TOKEN);

const chatCompletion = await client.chatCompletion({
  model: "meta-llama/Llama-4-Scout-17B-16E-Instruct",
  messages: [
    {
      role: "user",
      content: "What is the capital of France?",
    },
  ],
  provider: "groq",
});

console.log(chatCompletion.choices[0].message);

Thanh toán

Đối với các yêu cầu trực tiếp, tức là khi bạn sử dụng khóa từ nhà cung cấp suy luận, bạn sẽ bị nhà cung cấp tương ứng tính phí. Ví dụ: nếu bạn sử dụng khóa API Groq, bạn sẽ bị tính phí trên tài khoản Groq của mình.

Đối với các yêu cầu được định tuyến, tức là khi bạn xác thực qua Hugging Face Hub, bạn sẽ chỉ phải trả mức phí API tiêu chuẩn của nhà cung cấp. Chúng tôi không tính thêm bất kỳ khoản phí nào, chúng tôi chỉ chuyển trực tiếp chi phí của nhà cung cấp. (Trong tương lai, chúng tôi có thể thiết lập các thỏa thuận chia sẻ doanh thu với các đối tác cung cấp của mình.)

Lưu ý quan trọng ‼️ Người dùng PRO nhận được tín dụng suy luận trị giá 2 đô la mỗi tháng. Bạn có thể sử dụng chúng trên tất cả các nhà cung cấp. 🔥

Đăng ký gói Hugging Face PRO để có quyền truy cập vào tín dụng suy luận, ZeroGPU, Chế độ phát triển Spaces, giới hạn cao hơn gấp 20 lần, v.v.

Chúng tôi cũng cung cấp suy luận miễn phí với một hạn ngạch nhỏ cho người dùng miễn phí đã đăng nhập của chúng tôi, nhưng vui lòng nâng cấp lên PRO nếu bạn có thể!

Phản hồi và các bước tiếp theo

Chúng tôi rất mong nhận được phản hồi của bạn! Chia sẻ suy nghĩ và/hoặc nhận xét của bạn tại đây: https://huggingface.co/spaces/huggingface/HuggingDiscussions/discussions/49

Recommended for You

CodeAgents + Cấu trúc- Một Cách Tốt Hơn để Thực Hiện Hành Động

CodeAgents + Cấu trúc- Một Cách Tốt Hơn để Thực Hiện Hành Động

Đánh giá các tác nhân GUI của bạn một cách dễ dàng!

Giới thiệu cụm đào tạo dưới dạng dịch vụ - một sự hợp tác mới với NVIDIA

Giới thiệu cụm đào tạo dưới dạng dịch vụ - một sự hợp tác mới với NVIDIA

Cụm đào tạo giúp bạn dễ dàng hơn bao giờ hết để bắt đầu đào tạo mô hình AI.