Cohere trên các nhà cung cấp suy luận Hugging Face 🔥

Cohere trên các nhà cung cấp suy luận Hugging Face.

April 19, 2025
8 min read

Cohere trên Hugging Face Inference Providers 🔥

Chúng tôi rất vui mừng thông báo rằng Cohere hiện là một Inference Provider được hỗ trợ trên HF Hub! Điều này cũng đánh dấu việc nhà sáng tạo mô hình đầu tiên chia sẻ và phục vụ trực tiếp các mô hình của họ trên Hub.

Cohere cam kết xây dựng và phục vụ các mô hình được xây dựng có mục đích cho các trường hợp sử dụng của doanh nghiệp. Bộ giải pháp AI an toàn toàn diện của họ, từ AI Generative tiên tiến đến các mô hình Nhúng và Xếp hạng mạnh mẽ, được thiết kế để giải quyết các thách thức kinh doanh thực tế. Ngoài ra, Cohere Labs, phòng thí nghiệm nghiên cứu nội bộ của Cohere, hỗ trợ nghiên cứu cơ bản và tìm cách thay đổi các không gian nơi nghiên cứu diễn ra.

Bắt đầu từ bây giờ, bạn có thể chạy suy luận không máy chủ cho các mô hình sau thông qua Cohere và Inference Providers:

Hãy thắp sáng các dự án của bạn với Cohere và Cohere Labs ngay hôm nay!

Mô hình Cohere

Cohere và Cohere Labs mang đến một loạt các mô hình của họ cho Inference Providers, những mô hình này vượt trội trong các ứng dụng kinh doanh cụ thể. Hãy cùng khám phá chi tiết một số mô hình.

CohereLabs/c4ai-command-a-03-2025 🔗

Được tối ưu hóa cho các doanh nghiệp khắt khe, những doanh nghiệp đòi hỏi AI nhanh chóng, an toàn và chất lượng cao. Độ dài ngữ cảnh 256k của nó (gấp đôi hầu hết các mô hình hàng đầu) có thể xử lý các tài liệu doanh nghiệp dài hơn nhiều. Các tính năng chính khác bao gồm khả năng tạo tăng cường truy xuất (RAG) tiên tiến của Cohere với các trích dẫn có thể kiểm chứng, sử dụng công cụ đại diện, bảo mật cấp doanh nghiệp và hiệu suất đa ngôn ngữ mạnh mẽ (hỗ trợ 23 ngôn ngữ).

CohereLabs/aya-expanse-32b 🔗

Tập trung vào hỗ trợ đa ngôn ngữ hiện đại vượt ra ngoài các ngôn ngữ có tài nguyên hạn chế hơn. Hỗ trợ tiếng Ả Rập, tiếng Trung (giản thể & phồn thể), tiếng Séc, tiếng Hà Lan, tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Hy Lạp, tiếng Do Thái, tiếng Do Thái, tiếng Hindi, tiếng Indonesia, tiếng Ý, tiếng Nhật, tiếng Hàn, tiếng Ba Tư, tiếng Ba Lan, tiếng Bồ Đào Nha, tiếng Rumani, tiếng Nga, tiếng Tây Ban Nha, tiếng Thổ Nhĩ Kỳ, tiếng Ukraina và tiếng Việt với độ dài ngữ cảnh 128K.

CohereLabs/c4ai-command-r7b-12-2024 🔗

Lý tưởng cho các trường hợp sử dụng chi phí thấp hoặc độ trễ thấp, mang lại hiệu suất hiện đại trong lớp các mô hình trọng lượng mở trên các tác vụ trong thế giới thực. Mô hình này cung cấp độ dài ngữ cảnh là 128k. Nó mang lại sự kết hợp mạnh mẽ giữa hỗ trợ đa ngôn ngữ, tạo tăng cường truy xuất (RAG) được xác minh bằng trích dẫn, suy luận, sử dụng công cụ và hành vi đại diện. Mô hình đa ngôn ngữ được đào tạo trên 23 ngôn ngữ

CohereLabs/aya-vision-32b 🔗

Mô hình tham số 32 tỷ với các khả năng nâng cao được tối ưu hóa cho nhiều trường hợp sử dụng ngôn ngữ thị giác khác nhau, bao gồm OCR, chú thích, suy luận trực quan, tóm tắt, trả lời câu hỏi, mã và hơn thế nữa. Nó mở rộng các khả năng đa phương thức sang 23 ngôn ngữ được sử dụng bởi hơn một nửa dân số thế giới.

Cách thức hoạt động

Bạn có thể sử dụng trực tiếp các mô hình Cohere trên Hub trên giao diện người dùng trang web hoặc thông qua SDK máy khách.

Bạn có thể tìm thấy tất cả các ví dụ được đề cập trong phần này trên trang tài liệu Cohere.

Trên giao diện người dùng trang web

Bạn có thể tìm kiếm các mô hình Cohere bằng cách lọc theo nhà cung cấp suy luận trong hub mô hình.

Cohere provider UI

Từ Thẻ Mô hình, bạn có thể chọn nhà cung cấp suy luận và chạy suy luận trực tiếp trong giao diện người dùng.

gif screenshot of Cohere inference provider in the UI

Từ SDK máy khách

Hãy cùng xem cách sử dụng các mô hình Cohere từ SDK máy khách. Chúng tôi cũng đã tạo một sổ ghi chép colab với các đoạn mã này, trong trường hợp bạn muốn dùng thử ngay.

từ Python, sử dụng huggingface_hub

Ví dụ sau đây cho thấy cách sử dụng Command A bằng Cohere làm nhà cung cấp suy luận của bạn. Bạn có thể sử dụng Hugging Face token để tự động định tuyến thông qua Hugging Face hoặc khóa API cohere của riêng bạn nếu bạn có.

Cài đặt huggingface_hub v0.30.0 trở lên:

pip install -U "huggingface_hub>=0.30.0"

Sử dụng thư viện python huggingface_hub để gọi các điểm cuối Cohere bằng cách xác định tham số provider.

from huggingface_hub import InferenceClient

client = InferenceClient(
    provider="cohere",
    api_key="xxxxxxxxxxxxxxxxxxxxxxxx",
)

messages = [
        {
            "role": "user",
            "content": "How to make extremely spicy Mayonnaise?"
        }
]

completion = client.chat.completions.create(
    model="CohereLabs/c4ai-command-r7b-12-2024",
    messages=messages,
    temperature=0.7,
    max_tokens=512,
)

print(completion.choices[0].message)

Aya Vision, mô hình đa phương thức, đa ngôn ngữ của Cohere Labs cũng được hỗ trợ. Bạn có thể bao gồm hình ảnh được mã hóa trong base64 như sau:

image_path = "img.jpg"
with open(image_path, "rb") as f:
    base64_image = base64.b64encode(f.read()).decode("utf-8")
image_url = f"data:image/jpeg;base64,{base64_image}"

from huggingface_hub import InferenceClient

client = InferenceClient(
    provider="cohere",
    api_key="xxxxxxxxxxxxxxxxxxxxxxxx",
)

messages = [
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "What's in this image?"
                },
                {
                    "type": "image_url",
                    "image_url": {"url": image_url},
                },
            ]
        }
]

completion = client.chat.completions.create(
    model="CohereLabs/aya-vision-32b",
    messages=messages,
    temperature=0.7,
    max_tokens=512,
)

print(completion.choices[0].message)

từ JS sử dụng @huggingface/inference

import { HfInference } from "@huggingface/inference";

const client = new HfInference("xxxxxxxxxxxxxxxxxxxxxxxx");

const chatCompletion = await client.chatCompletion({
    model: "CohereLabs/c4ai-command-a-03-2025",
    messages: [
        {
            role: "user",
            content: "How to make extremely spicy Mayonnaise?"
        }
    ],
    provider: "cohere",
    max_tokens: 512
});

console.log(chatCompletion.choices[0].message);

Từ OpenAI client

Đây là cách bạn có thể gọi Command R7B bằng Cohere làm nhà cung cấp suy luận thông qua thư viện ứng dụng khách OpenAI.

from openai import OpenAI

client = OpenAI(
    base_url="https://router.huggingface.co/cohere/compatibility/v1",
    api_key="xxxxxxxxxxxxxxxxxxxxxxxx",
)

messages = [
        {
            "role": "user",
            "content": "How to make extremely spicy Mayonnaise?"
        }
]

completion = client.chat.completions.create(
    model="command-a-03-2025",
    messages=messages,
    temperature=0.7,
)

print(completion.choices[0].message)

Sử dụng công cụ với các mô hình Cohere

Các mô hình của Cohere mang đến khả năng sử dụng công cụ đại diện hiện đại cho Inference Providers, vì vậy hãy khám phá chi tiết điều đó. Cả ứng dụng khách Hugging Face Hub và ứng dụng khách OpenAI đều tương thích với các công cụ thông qua nhà cung cấp suy luận, vì vậy các ví dụ trên có thể được mở rộng.

Đầu tiên, chúng ta sẽ cần xác định các công cụ để mô hình sử dụng. Dưới đây, chúng ta xác định get_flight_info để gọi API để biết thông tin chuyến bay mới nhất bằng cách sử dụng hai địa điểm. Định nghĩa công cụ này sẽ được biểu thị bằng mẫu trò chuyện của mô hình. Chúng ta cũng có thể khám phá điều này trong thẻ mô hình (🎉 mã nguồn mở).

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_flight_info",
            "description": "Get flight information between two cities or airports",
            "parameters": {
                "type": "object",
                "properties": {
                    "loc_origin": {
                        "type": "string",
                        "description": "The departure airport, e.g. MIA",
                    },
                    "loc_destination": {
                        "type": "string",
                        "description": "The destination airport, e.g. NYC",
                    },
                },
                "required": ["loc_origin", "loc_destination"],
            },
        },
    }
]

Tiếp theo, chúng ta sẽ cần chuyển thông báo đến ứng dụng khách suy luận để mô hình sử dụng các công cụ khi thích hợp. Trong ví dụ bên dưới, chúng ta xác định lệnh gọi công cụ của trợ lý trong tool_calls, để rõ ràng.

messages = [
    {"role": "developer", "content": "Today is April 30th"},
    {
        "role": "user",
        "content": "When is the next flight from Miami to Seattle?",
    },
    {
        "role": "assistant",
        "tool_calls": [
            {
                "function": {
                    "arguments": '{ "loc_destination": "Seattle", "loc_origin": "Miami" }',
                    "name": "get_flight_info",
                },
                "id": "get_flight_info0",
                "type": "function",
            }
        ],
    },
    {
        "role": "tool",
        "name": "get_flight_info",
        "tool_call_id": "get_flight_info0",
        "content": "Miami to Seattle, May 1st, 10 AM.",
    },
]

Cuối cùng, các công cụ và thông báo được chuyển đến phương thức tạo.

from huggingface_hub import InferenceClient

client = InferenceClient(
    provider="cohere",
    api_key="xxxxxxxxxxxxxxxxxxxxxxxx",
)

completion = client.chat.completions.create(
    model="CohereLabs/c4ai-command-r7b-12-2024",
    messages=messages,
    tools=tools,
    temperature=0.7,
    max_tokens=512,
)

print(completion.choices[0].message)

Thanh toán

Đối với các yêu cầu trực tiếp, tức là khi bạn sử dụng khóa Cohere, bạn sẽ được thanh toán trực tiếp trên tài khoản Cohere của mình.

Đối với các yêu cầu được định tuyến, tức là khi bạn xác thực thông qua hub, bạn sẽ chỉ trả mức giá API Cohere tiêu chuẩn. Chúng tôi không tính thêm phí, chúng tôi chỉ chuyển trực tiếp chi phí của nhà cung cấp. (Trong tương lai, chúng tôi có thể thiết lập các thỏa thuận chia sẻ doanh thu với các đối tác nhà cung cấp của mình.)

Lưu ý quan trọng ‼️ Người dùng PRO nhận được tín dụng suy luận trị giá $2 mỗi tháng. Bạn có thể sử dụng chúng trên các nhà cung cấp. 🔥

Đăng ký gói Hugging Face PRO để có quyền truy cập vào tín dụng Suy luận, ZeroGPU, Chế độ nhà phát triển không gian, giới hạn cao hơn gấp 20 lần và hơn thế nữa.

AI Today - SkyAI