Chuyển ngữ whisper cực nhanh với Inference Endpoints

Bài viết này thảo luận về cách sử dụng Inference Endpoints để có được bản ghi whisper cực nhanh.

May 20, 2025
7 min read

Chuyển ngữ whisper cực nhanh với Inference Endpoints — Bài viết này thảo luận về cách sử dụng Inference Endpoints để có được bản ghi whisper cực nhanh.

Tốc độ phiên âm Whisper cực nhanh với Inference Endpoints

Hôm nay, chúng tôi rất vui mừng giới thiệu một tùy chọn triển khai OpenAI Whisper cực nhanh mới trên Inference Endpoints. Nó cung cấp hiệu suất được cải thiện tới 8 lần so với phiên bản trước và giúp mọi người chỉ cần một cú nhấp chuột để triển khai các mô hình phiên âm chuyên dụng, mạnh mẽ một cách hiệu quả về chi phí, tận dụng công việc tuyệt vời do cộng đồng AI thực hiện.

Thông qua bản phát hành này, chúng tôi mong muốn Inference Endpoints trở nên hướng đến cộng đồng hơn và cho phép bất kỳ ai đến và đóng góp để tạo ra các triển khai suy luận đáng kinh ngạc trên Nền tảng Hugging Face. Cùng với cộng đồng, chúng tôi mong muốn đề xuất các triển khai được tối ưu hóa cho một loạt các tác vụ thông qua việc sử dụng các công nghệ nguồn mở tuyệt vời và có sẵn.

Vị trí độc đáo của Hugging Face, ở trung tâm của Cộng đồng AI nguồn mở, làm việc song song với các cá nhân, tổ chức và đối tác công nghiệp, khiến nó trở thành nền tảng không đồng nhất nhất khi triển khai các mô hình AI để suy luận trên nhiều loại phần cứng và phần mềm.

Inference Stack

Endpoint Whisper mới tận dụng các dự án cộng đồng nguồn mở tuyệt vời. Suy luận được cung cấp bởi dự án vLLM, cung cấp các cách hiệu quả để chạy các mô hình AI trên nhiều dòng phần cứng khác nhau – đặc biệt, nhưng không giới hạn ở GPU NVIDIA. Chúng tôi sử dụng triển khai vLLM của mô hình Whisper của OpenAI, cho phép chúng tôi kích hoạt các tối ưu hóa cấp thấp hơn nữa xuống ngăn xếp phần mềm.

Trong bản phát hành ban đầu này, chúng tôi đang nhắm mục tiêu đến GPU NVIDIA với khả năng tính toán 8.9 trở lên (Ada Lovelace), như L4 & L40, mở khóa một loạt các tối ưu hóa phần mềm:

Biên dịch PyTorch (torch.compile)
Đồ thị CUDA
Bộ nhớ cache float8 KV

Biên dịch với torch.compile tạo ra các kernel được tối ưu hóa theo kiểu Just-In-Time (JIT), có thể sửa đổi đồ thị tính toán, sắp xếp lại các hoạt động, gọi các phương thức chuyên dụng, v.v.

Đồ thị CUDA ghi lại luồng các hoạt động tuần tự, hoặc các kernel, xảy ra trên GPU và cố gắng nhóm chúng thành các đơn vị công việc lớn hơn để thực thi trên GPU. Thao tác nhóm này làm giảm chuyển động dữ liệu, đồng bộ hóa và chi phí lập lịch GPU bằng cách thực thi một đơn vị công việc duy nhất, lớn hơn nhiều, thay vì nhiều đơn vị nhỏ hơn.

Cuối cùng nhưng không kém phần quan trọng, chúng tôi đang định lượng động các kích hoạt để giảm yêu cầu bộ nhớ phát sinh bởi các bộ nhớ cache KV. Các tính toán được thực hiện ở độ chính xác một nửa, trong trường hợp này là bfloat16 và các đầu ra đang được lưu trữ ở độ chính xác giảm (1 byte cho float8 so với 2 byte cho bfloat16) cho phép chúng tôi lưu trữ nhiều phần tử hơn trong bộ nhớ cache KV, tăng tỷ lệ truy cập bộ nhớ cache.

Có rất nhiều cách để tiếp tục thúc đẩy điều này và chúng tôi đang chuẩn bị làm việc song song với cộng đồng để cải thiện nó!

Benchmarks

Whisper Large V3 cho thấy sự cải thiện gần 8 lần về RTFx, cho phép suy luận nhanh hơn nhiều mà không làm giảm chất lượng phiên âm.

Chúng tôi đã đánh giá chất lượng phiên âm và hiệu quả thời gian chạy của một số mô hình dựa trên Whisper — Whisper Large V3, Whisper Large V3-Turbo và Distil-Whisper Large V3.5 — và so sánh chúng với các triển khai của chúng trên thư viện Transformers để đánh giá cả độ chính xác và tốc độ giải mã trong các điều kiện giống hệt nhau.

Chúng tôi đã tính toán Tỷ lệ lỗi từ (WER) trên 8 bộ dữ liệu tiêu chuẩn từ Bảng xếp hạng Open ASR, bao gồm AMI, GigaSpeech, LibriSpeech (Clean và Other), SPGISpeech, Tedlium, VoxPopuli và Earnings22. Các bộ dữ liệu này trải rộng trên các miền và điều kiện ghi âm khác nhau, đảm bảo đánh giá mạnh mẽ về khả năng khái quát hóa và chất lượng phiên âm trong thế giới thực. WER đo lường độ chính xác của phiên âm bằng cách tính tỷ lệ phần trăm các từ được dự đoán không chính xác (thông qua chèn, xóa hoặc thay thế); WER thấp hơn cho thấy hiệu suất tốt hơn. Cả ba biến thể Whisper đều duy trì hiệu suất WER tương đương với các đường cơ sở Transformer của chúng.

So sánh tỷ lệ lỗi từ

Để đánh giá hiệu quả suy luận, chúng tôi đã lấy mẫu từ tập dữ liệu dạng dài rev16, chứa các phân đoạn âm thanh dài hơn 45 phút — đại diện cho khối lượng công việc phiên âm thực tế như các cuộc họp, podcast hoặc phỏng vấn. Chúng tôi đã đo lường Hệ số thời gian thực (RTFx), được định nghĩa là tỷ lệ giữa thời lượng âm thanh và thời gian phiên âm và được tính trung bình trên các mẫu. Tất cả các mô hình đều được đánh giá trong bfloat16 trên một GPU L4 duy nhất, sử dụng các cài đặt giải mã nhất quán (ngôn ngữ, kích thước chùm tia và kích thước lô).

So sánh hệ số thời gian thực

Cách triển khai

Bạn có thể triển khai quy trình suy luận ASR của riêng mình thông qua Hugging Face Endpoints. Endpoints cho phép bất kỳ ai sẵn sàng triển khai các mô hình AI vào môi trường sẵn sàng sản xuất đều có thể làm như vậy bằng cách điền vào một vài tham số. Nó cũng có một loạt các phần cứng AI hoàn chỉnh nhất có sẵn trên thị trường để phù hợp với nhu cầu của bạn về chi phí và hiệu suất. Tất cả điều này trực tiếp từ nơi cộng đồng AI đang được xây dựng. Để bắt đầu, không có gì dễ dàng hơn, chỉ cần chọn mô hình bạn muốn triển khai:

Inference

Chạy suy luận trên endpoint mô hình đã triển khai có thể được thực hiện chỉ trong một vài dòng mã trong Python, bạn cũng có thể sử dụng cùng một cấu trúc trong Javascript hoặc bất kỳ ngôn ngữ nào khác mà bạn cảm thấy thoải mái.

Đây là một đoạn mã nhỏ để kiểm tra checkpoint đã triển khai một cách nhanh chóng.

import requests

ENDPOINT_URL = "https://<your-hf-endpoint>.cloud/api/v1/audio/transcriptions"  # 🌐 thay thế bằng URL endpoint của bạn
HF_TOKEN     = "hf_xxxxxxxxxxxxxxxxxxxxxxxxxxxxx"                              # 🔑 thay thế bằng token HF của bạn
AUDIO_FILE   = "sample.wav"                                                    # 🔊 đường dẫn đến tệp âm thanh cục bộ của bạn

headers = {"Authorization": f"Bearer {HF_TOKEN}"}

with open(AUDIO_FILE, "rb") as f:
    files = {"file": f.read()}

response = requests.post(ENDPOINT_URL, headers=headers, files=files)
response.raise_for_status()

print("Transcript:", response.json()["text"])

FastRTC Demo

Với endpoint cực nhanh này, bạn có thể xây dựng các ứng dụng phiên âm theo thời gian thực. Hãy thử ví dụ này được xây dựng bằng FastRTC. Chỉ cần nói vào micrô của bạn và xem bài phát biểu của bạn được phiên âm trong thời gian thực!

Spaces có thể dễ dàng được nhân bản, vì vậy vui lòng nhân bản thoải mái. Tất cả những điều trên đều được cung cấp để cộng đồng sử dụng trên Hugging Face Hub trong tổ chức HF Endpoints chuyên dụng của chúng tôi. Mở các vấn đề, đề xuất các trường hợp sử dụng và đóng góp tại đây: hfendpoints-images (Inference Endpoints Images) 🚀

AI Today - SkyAI