Tăng tốc suy luận LLM với TGI trên Intel Gaudi

Bài viết này thảo luận về việc tăng tốc suy luận LLM với TGI trên Intel Gaudi.

April 19, 2025
5 min read

🚀 Tăng tốc suy luận LLM với TGI trên Intel Gaudi

Chúng tôi rất vui mừng thông báo về sự tích hợp trực tiếp hỗ trợ phần cứng Intel Gaudi vào Text Generation Inference (TGI), giải pháp phân phối sẵn sàng sản xuất cho các Mô hình Ngôn ngữ Lớn (LLM). Sự tích hợp này mang sức mạnh của bộ tăng tốc AI chuyên dụng của Intel vào ngăn xếp suy luận hiệu suất cao của chúng tôi, cho phép nhiều tùy chọn triển khai hơn cho cộng đồng AI nguồn mở 🎉

✨ Có gì mới?

Chúng tôi đã tích hợp đầy đủ hỗ trợ Gaudi vào codebase chính của TGI trong PR #3091. Trước đây, chúng tôi duy trì một nhánh riêng cho các thiết bị Gaudi tại tgi-gaudi. Điều này gây khó khăn cho người dùng và ngăn chúng tôi hỗ trợ các tính năng TGI mới nhất khi ra mắt. Giờ đây, sử dụng kiến trúc đa backend TGI mới, chúng tôi hỗ trợ Gaudi trực tiếp trên TGI – không còn phải lo lắng về kho lưu trữ tùy chỉnh 🙌

Sự tích hợp này hỗ trợ đầy đủ dòng phần cứng Gaudi của Intel:

Gaudi1 💻: Có sẵn trên các phiên bản AWS EC2 DL1
Gaudi2 💻💻: Có sẵn trên Intel Tiber AI Cloud và Denvr Dataworks
Gaudi3 💻💻💻: Có sẵn trên Intel Tiber AI Cloud, IBM Cloud và từ các OEM như Dell, HP và Supermicro

Bạn cũng có thể tìm thêm thông tin về phần cứng Gaudi trên trang sản phẩm Gaudi của Intel

🌟 Tại sao điều này quan trọng

Backend Gaudi cho TGI cung cấp một số lợi ích chính:

Tính đa dạng của phần cứng 🔄: Nhiều tùy chọn hơn để triển khai LLM trong sản xuất ngoài GPU truyền thống
Hiệu quả chi phí 💰: Phần cứng Gaudi thường cung cấp hiệu năng trên giá thành hấp dẫn cho các khối lượng công việc cụ thể
Sẵn sàng sản xuất ⚙️: Tất cả sự mạnh mẽ của TGI (batching động, phản hồi theo luồng, v.v.) giờ đây đã có trên Gaudi
Hỗ trợ mô hình 🤖: Chạy các mô hình phổ biến như Llama 3.1, Mixtral, Mistral, v.v. trên phần cứng Gaudi
Các tính năng nâng cao 🔥: Hỗ trợ suy luận đa thẻ (phân mảnh), mô hình ngôn ngữ thị giác và độ chính xác FP8

🚦 Bắt đầu với TGI trên Gaudi

Cách dễ nhất để chạy TGI trên Gaudi là sử dụng image Docker chính thức của chúng tôi. Bạn cần chạy image trên máy phần cứng Gaudi. Dưới đây là một ví dụ cơ bản để giúp bạn bắt đầu:

model=meta-llama/Meta-Llama-3.1-8B-Instruct 
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run 
hf_token=YOUR_HF_ACCESS_TOKEN

docker run --runtime=habana --cap-add=sys_nice --ipc=host \
 -p 8080:80 \
 -v $volume:/data \
 -e HF_TOKEN=$hf_token \
 -e HABANA_VISIBLE_DEVICES=all \
 ghcr.io/huggingface/text-generation-inference:3.2.1-gaudi \
 --model-id $model

Khi máy chủ đang chạy, bạn có thể gửi các yêu cầu suy luận:

curl 127.0.0.1:8080/generate \
 -X POST \
 -d '{"inputs":"What is Deep Learning?","parameters":{"max_new_tokens":32}}' \
 -H 'Content-Type: application/json'

Để có tài liệu toàn diện về việc sử dụng TGI với Gaudi, bao gồm hướng dẫn và cấu hình nâng cao, hãy tham khảo tài liệu backend Gaudi chuyên dụng mới.

🎉 Các tính năng hàng đầu

Chúng tôi đã tối ưu hóa các mô hình sau cho cả cấu hình thẻ đơn và đa thẻ. Điều này có nghĩa là các mô hình này chạy nhanh nhất có thể trên Intel Gaudi. Chúng tôi đã tối ưu hóa cụ thể mã mô hình hóa để nhắm mục tiêu phần cứng Intel Gaudi, đảm bảo chúng tôi cung cấp hiệu suất tốt nhất và sử dụng đầy đủ các khả năng của Gaudi:

Llama 3.1 (8B và 70B)
Llama 3.3 (70B)
Llama 3.2 Vision (11B)
Mistral (7B)
Mixtral (8x7B)
CodeLlama (13B)
Falcon (180B)
Qwen2 (72B)
Starcoder và Starcoder2
Gemma (7B)
Llava-v1.6-Mistral-7B
Phi-2

🏃‍♂️ Chúng tôi cũng cung cấp nhiều tính năng nâng cao trên phần cứng Gaudi, chẳng hạn như lượng tử hóa FP8 nhờ Intel Neural Compressor (INC), cho phép tối ưu hóa hiệu suất cao hơn nữa.

✨ Sắp ra mắt! Chúng tôi rất vui mừng được mở rộng dòng mô hình của mình với các bổ sung tiên tiến bao gồm DeepSeek-r1/v3, QWen-VL và nhiều mô hình mạnh mẽ hơn để cung cấp năng lượng cho các ứng dụng AI của bạn! 🚀

💪 Tham gia

Chúng tôi mời cộng đồng dùng thử TGI trên phần cứng Gaudi và cung cấp phản hồi. Tài liệu đầy đủ có sẵn trong tài liệu backend TGI Gaudi. 📚 Nếu bạn quan tâm đến việc đóng góp, hãy xem hướng dẫn đóng góp của chúng tôi hoặc mở một issue với phản hồi của bạn trên GitHub. 🤝 Bằng cách đưa hỗ trợ Intel Gaudi trực tiếp vào TGI, chúng tôi đang tiếp tục sứ mệnh cung cấp các công cụ linh hoạt, hiệu quả và sẵn sàng sản xuất để triển khai LLM. Chúng tôi rất vui mừng được thấy những gì bạn sẽ xây dựng với khả năng mới này! 🎉

AI Today - SkyAI