OVHcloud trên các nhà cung cấp suy luận của Hugging Face 🔥

OVHcloud trên các nhà cung cấp suy luận của Hugging Face

  • 5 min read
OVHcloud trên các nhà cung cấp suy luận của Hugging Face 🔥
OVHcloud trên các nhà cung cấp suy luận của Hugging Face

OVHcloud trên Hugging Face Inference Providers 🔥

Chúng tôi vui mừng thông báo rằng OVHcloud hiện đã trở thành Nhà cung cấp Suy luận được hỗ trợ trên Hugging Face Hub! OVHcloud gia nhập hệ sinh thái ngày càng phát triển của chúng tôi, nâng cao sự đa dạng và khả năng suy luận serverless trực tiếp trên các trang mô hình của Hub. Các Nhà cung cấp Suy luận cũng được tích hợp liền mạch vào các SDK khách hàng của chúng tôi (cho cả JS và Python), giúp việc sử dụng nhiều loại mô hình với các nhà cung cấp ưa thích của bạn trở nên cực kỳ dễ dàng.

Việc ra mắt này giúp việc truy cập các mô hình mã nguồn mở phổ biến như gpt-oss, Qwen3, DeepSeek R1 và Llama trở nên dễ dàng hơn bao giờ hết – ngay từ Hugging Face. Bạn có thể duyệt qua tổ chức OVHcloud trên Hub tại https://huggingface.co/ovhcloud và thử các mô hình xu hướng được hỗ trợ tại https://huggingface.co/models?inference_provider=ovhcloud&sort=trending.

OVHcloud AI Endpoints là một dịch vụ được quản lý hoàn toàn, serverless cung cấp quyền truy cập vào các mô hình AI tiên tiến từ các phòng thí nghiệm nghiên cứu hàng đầu thông qua các lệnh gọi API đơn giản. Dịch vụ cung cấp mức giá cạnh tranh theo token, bắt đầu từ €0.04 cho mỗi triệu token.

Dịch vụ chạy trên cơ sở hạ tầng an toàn đặt tại các trung tâm dữ liệu Châu Âu, đảm bảo chủ quyền dữ liệu và độ trễ thấp cho người dùng Châu Âu. Nền tảng hỗ trợ các tính năng nâng cao bao gồm đầu ra có cấu trúc, gọi hàm và khả năng đa phương thức cho cả xử lý văn bản và hình ảnh.

Được xây dựng cho mục đích sử dụng trong sản xuất, cơ sở hạ tầng suy luận của OVHcloud mang lại thời gian phản hồi dưới 200ms cho các token đầu tiên, làm cho nó trở nên lý tưởng cho các ứng dụng tương tác và quy trình làm việc dạng tác tử. Dịch vụ hỗ trợ cả mô hình sinh văn bản và mô hình nhúng. Bạn có thể tìm hiểu thêm về nền tảng và cơ sở hạ tầng của OVHcloud tại https://www.ovhcloud.com/en/public-cloud/ai-endpoints/catalog/.

Đọc thêm về cách sử dụng OVHcloud làm Nhà cung cấp Suy luận trong trang tài liệu chuyên dụng của nó.

Xem danh sách các mô hình được hỗ trợ tại đây.

Cách thức hoạt động

Trong giao diện người dùng trang web

Trong cài đặt tài khoản người dùng của bạn, bạn có thể:

  • Đặt khóa API của riêng bạn cho các nhà cung cấp mà bạn đã đăng ký. Nếu không có khóa tùy chỉnh nào được đặt, các yêu cầu của bạn sẽ được định tuyến qua HF.
  • Sắp xếp thứ tự các nhà cung cấp. Điều này áp dụng cho widget và các đoạn mã trong trang mô hình.

Như đã đề cập, có hai chế độ khi gọi các Nhà cung cấp Suy luận:

  • Khóa tùy chỉnh (các lệnh gọi đi trực tiếp đến nhà cung cấp suy luận, sử dụng khóa API của riêng bạn cho nhà cung cấp suy luận tương ứng)
  • Được định tuyến bởi HF (trong trường hợp đó, bạn không cần mã thông báo từ nhà cung cấp và các khoản phí sẽ được áp dụng trực tiếp vào tài khoản HF của bạn thay vì tài khoản của nhà cung cấp)

Các trang mô hình hiển thị các nhà cung cấp suy luận của bên thứ ba (những nhà cung cấp tương thích với mô hình hiện tại, được sắp xếp theo sở thích của người dùng)

Từ SDK khách hàng

Từ Python, sử dụng huggingface_hub

Ví dụ sau cho thấy cách sử dụng gpt-oss-120b của OpenAI với OVHcloud làm nhà cung cấp suy luận. Bạn có thể sử dụng mã thông báo Hugging Face để định tuyến tự động qua Hugging Face, hoặc khóa API OVHcloud AI Endpoints của riêng bạn nếu bạn có.

Lưu ý: điều này yêu cầu sử dụng phiên bản mới nhất của huggingface_hub (>= 1.1.5).

python import os from huggingface_hub import InferenceClient

client = InferenceClient( api_key=os.environ[“HF_TOKEN”], )

completion = client.chat.completions.create( model=“openai/gpt-oss-120b:ovhcloud”, messages=[ { “role”: “user”, “content”: “What is the capital of France?” } ], )

print(completion.choices[0].message)

Từ JS sử dụng @huggingface/inference

javascript import { InferenceClient } from “@huggingface/inference”;

const client = new InferenceClient(process.env.HF_TOKEN);

const chatCompletion = await client.chatCompletion({ model: “openai/gpt-oss-120b:ovhcloud”, messages: [ { role: “user”, content: “What is the capital of France?”, }, ], });

console.log(chatCompletion.choices[0].message);

Thanh toán

Đây là cách hoạt động của thanh toán:

  • Đối với yêu cầu trực tiếp, nghĩa là khi bạn sử dụng khóa từ nhà cung cấp suy luận, bạn sẽ được thanh toán bởi nhà cung cấp tương ứng. Ví dụ: nếu bạn sử dụng khóa API OVHcloud, bạn sẽ được thanh toán trên tài khoản OVHcloud của mình.
  • Đối với yêu cầu được định tuyến, nghĩa là khi bạn xác thực qua Hugging Face Hub, bạn sẽ chỉ trả phí API tiêu chuẩn của nhà cung cấp. Chúng tôi không tính thêm phí; chúng tôi chỉ chuyển tiếp chi phí của nhà cung cấp. (Trong tương lai, chúng tôi có thể thiết lập các thỏa thuận chia sẻ doanh thu với các đối tác nhà cung cấp của mình.)

Lưu ý quan trọng ‼️ Người dùng PRO nhận được 2 đô la tín dụng Suy luận mỗi tháng. Bạn có thể sử dụng chúng trên tất cả các nhà cung cấp. 🔥

Đăng ký gói Hugging Face PRO để nhận tín dụng Suy luận, ZeroGPU, Chế độ Dev Spaces, giới hạn cao hơn 20 lần và hơn thế nữa.

Chúng tôi cũng cung cấp suy luận miễn phí với một hạn ngạch nhỏ cho người dùng miễn phí đã đăng nhập của chúng tôi, nhưng vui lòng nâng cấp lên PRO nếu bạn có thể!

Phản hồi và các bước tiếp theo

Chúng tôi rất muốn nhận được phản hồi của bạn! Chia sẻ suy nghĩ và/hoặc nhận xét của bạn tại đây: https://huggingface.co/spaces/huggingface/HuggingDiscussions/discussions/49

Recommended for You

Batching liên tục từ những nguyên tắc cơ bản

Batching liên tục từ những nguyên tắc cơ bản

Batching liên tục từ những nguyên tắc cơ bản

DeLERP- Nội suy Tuyến tính Phân rã để Hợp nhất Mô hình

DeLERP- Nội suy Tuyến tính Phân rã để Hợp nhất Mô hình

DeLERP- Nội suy Tuyến tính Phân rã để Hợp nhất Mô hình