Các Mô Hình Stable Diffusion 3.5 Được Tối Ưu Hóa Với TensorRT Mang Lại Hiệu Suất Nhanh Gấp 2 Lần và Ít Bộ Nhớ Hơn 40% Trên GPU NVIDIA RTX

Hợp tác với NVIDIA, chúng tôi đã tối ưu hóa dòng mô hình SD3.5 bằng TensorRT và FP8, cải thiện tốc độ tạo và giảm yêu cầu VRAM trên GPU RTX được hỗ trợ.

  • 5 min read
Các Mô Hình Stable Diffusion 3.5 Được Tối Ưu Hóa Với TensorRT Mang Lại Hiệu Suất Nhanh Gấp 2 Lần và Ít Bộ Nhớ Hơn 40% Trên GPU NVIDIA RTX
Hợp tác với NVIDIA, chúng tôi đã tối ưu hóa dòng mô hình SD3.5 bằng TensorRT và FP8, cải thiện tốc độ tạo và giảm yêu cầu VRAM trên GPU RTX được hỗ trợ.

Các mô hình Stable Diffusion 3.5 được tối ưu hóa với TensorRT mang lại hiệu suất nhanh hơn gấp 2 lần và bộ nhớ ít hơn 40% trên GPU NVIDIA RTX

Dưới đây là bản dịch sang tiếng Việt của bài viết, đã loại bỏ các thông tin không liên quan và giữ lại nội dung chính, hình ảnh và video:


Những điểm chính:

  • Chúng tôi đã hợp tác với NVIDIA để cung cấp các phiên bản được tối ưu hóa bằng NVIDIA TensorRT của Stable Diffusion 3.5 (SD3.5), giúp khả năng tạo ảnh cấp doanh nghiệp có sẵn trên nhiều GPU NVIDIA RTX hơn.
  • Các mô hình SD3.5 được tối ưu hóa bằng TensorRT mang lại tốc độ tạo ảnh nhanh hơn tới 2,3 lần trên SD3.5 Large và nhanh hơn 1,7 lần trên SD3.5 Medium, đồng thời giảm yêu cầu VRAM tới 40%.
  • Các mô hình được tối ưu hóa hiện có sẵn để sử dụng cho mục đích thương mại và phi thương mại theo Giấy phép Cộng đồng Stability AI cho phép. Bạn có thể tải xuống các trọng số trên Hugging Face và mã trên GitHub của NVIDIA.

[Ảnh chụp màn hình trình duyệt web hiển thị dòng chữ “NVIDIA”]

Với sự hợp tác của NVIDIA, chúng tôi đã tối ưu hóa dòng mô hình SD3.5 bằng TensorRT và FP8, cải thiện tốc độ tạo ảnh và giảm yêu cầu VRAM trên các GPU RTX được hỗ trợ.

SD3.5 được phát triển để chạy trên phần cứng tiêu dùng ngay khi xuất xưởng. Các tối ưu hóa của Nvidia mở rộng khả năng truy cập đó hơn nữa cho các chuyên gia sáng tạo và nhà phát triển làm việc trên nhiều thiết lập phần cứng khác nhau.

Nơi các mô hình vượt trội

Những cải tiến về hiệu suất này giúp các thế mạnh cốt lõi của SD3.5 trở nên dễ tiếp cận hơn. SD3.5 vượt trội trong các lĩnh vực sau, khiến nó trở thành một trong những mô hình hình ảnh có khả năng tùy biến cao nhất trên thị trường, đồng thời duy trì hiệu suất hàng đầu về tuân thủ lời nhắc và chất lượng hình ảnh:

  • Phong cách đa dạng: Có khả năng tạo ra nhiều phong cách và thẩm mỹ khác nhau như 3D, nhiếp ảnh, hội họa, nghệ thuật đường nét và hầu như bất kỳ phong cách hình ảnh nào có thể tưởng tượng được.
  • Đầu ra đa dạng: Tạo ra những hình ảnh đại diện cho thế giới, không chỉ một loại người, với các tông màu và đặc điểm da khác nhau, mà không cần phải nhắc nhiều.
  • Tuân thủ lời nhắc: Phân tích của chúng tôi cho thấy rằng SD3.5 Large dẫn đầu thị trường về tuân thủ lời nhắc, cho phép mô hình tuân thủ chặt chẽ một lời nhắc bằng văn bản nhất định, khiến nó trở thành lựa chọn hàng đầu cho hiệu suất hiệu quả, chất lượng cao.

Hiện có sẵn trên nhiều GPU NVIDIA RTX hơn

Tối ưu hóa TensorRT giảm kích thước mô hình trong khi vẫn duy trì chất lượng bằng cách hợp lý hóa cách các mô hình chạy trên phần cứng NVIDIA. Giảm kích thước mô hình đạt được thông qua lượng tử hóa FP8, một kỹ thuật giúp các mô hình hiệu quả hơn trong khi vẫn duy trì chất lượng đầu ra cao. Những cải tiến này có nghĩa là năm hệ thống RTX 50 Series hiện có thể chạy SD3.5 Large từ bộ nhớ, so với chỉ một hệ thống trước khi tối ưu hóa.

Nâng cao hiệu suất trên các GPU NVIDIA RTX

Các mô hình SD3.5 TensorRT được tối ưu hóa chạy hiệu quả hơn trên các GPU NVIDIA GeForce RTX 50 và 40 Series, cũng như NVIDIA RTX PRO GPU thế hệ NVIDIA Blackwell và Ada Lovelace. Chúng mang lại tốc độ tạo ảnh nhanh hơn tới 2,3 lần trên SD3.5 Large và nhanh hơn 1,7 lần trên SD3.5 Medium, đồng thời giảm yêu cầu VRAM tới 40%.

[Ảnh chụp màn hình trình duyệt web hiển thị dòng chữ “Biểu đồ Nvidia”]

FP8 TensorRT tăng hiệu suất SD3.5 Large lên 2,3 lần so với BF16 PyTorch, với mức sử dụng bộ nhớ ít hơn 40%. Đối với SD3.5 Medium, BF16 TensorRT mang lại tốc độ nhanh hơn 1,7 lần.

SD3.5 Lớn

  • Tạo ảnh nhanh hơn 2,3 lần so với các mô hình PyTorch cơ bản.
  • Mức sử dụng bộ nhớ giảm 40%, từ 19GB xuống 11GB, đồng thời vẫn duy trì chất lượng chuyên nghiệp.

SD3.5 Trung bình

  • Tạo ảnh nhanh hơn 1,7 lần cho người dùng ưu tiên tốc độ và hiệu quả.
  • Dung lượng bộ nhớ thấp hơn, lý tưởng cho những người sáng tạo làm việc trên phần cứng RTX tầm trung.

Bắt đầu

Các mô hình được tối ưu hóa hiện có sẵn để sử dụng cho mục đích thương mại và phi thương mại theo Giấy phép Cộng đồng Stability AI cho phép. Bạn có thể tải xuống các trọng số trên Hugging Face và mã trên GitHub của NVIDIA.

Để luôn cập nhật về tiến trình của chúng tôi, hãy theo dõi chúng tôi trên X, LinkedIn, Instagram và tham gia Cộng đồng Discord của chúng tôi.

Recommended for You

Stable Video 4D 2.0- Nâng Cấp Mới cho Chế Độ Xem Mới Độ Trung Thực Cao và Tạo 4D từ Một Video Duy Nhất

Stable Video 4D 2.0- Nâng Cấp Mới cho Chế Độ Xem Mới Độ Trung Thực Cao và Tạo 4D từ Một Video Duy Nhất

Chúng tôi đã nâng cấp Stable Video Diffusion 4D (SV4D) lên Stable Video 4D 2.0 (SV4D 2.0), mang lại đầu ra chất lượng cao hơn trên video thế giới thực. Mô hình khuếch tán video đa chế độ xem này lý tưởng cho việc tạo tài sản 4D động từ một video tập trung vào đối tượng duy nhất.

Stability AI và Arm hợp tác phát hành Stable Audio Open Small, cho phép triển khai thực tế để điều khiển âm thanh trên thiết bị

Stability AI và Arm hợp tác phát hành Stable Audio Open Small, cho phép triển khai thực tế để điều khiển âm thanh trên thiết bị

Không có mô tả ngắn gọn