DiffusionGemma- Tạo văn bản nhanh hơn gấp 4 lần
Cải tiến tốc độ tạo văn bản nhanh hơn gấp 4 lần với DiffusionGemma
- 8 min read
DiffusionGemma: Tốc độ tạo văn bản nhanh hơn gấp 4 lần
Ngày đăng: 10 tháng 6, 2026 Tác giả: Brendan O’Donoghue, Sebastian Flennerhag
Mô hình thực nghiệm mở mới nhất của chúng tôi mang lại tốc độ suy luận nhanh hơn tới 4 lần trên các GPU chuyên dụng, mở ra cơ hội khám phá các quy trình làm việc cục bộ (local) tương tác, đòi hỏi tốc độ cao.

Hôm nay, chúng tôi giới thiệu DiffusionGemma, một mô hình mở thực nghiệm khám phá phương pháp khuếch tán văn bản (text diffusion) — một cách tiếp cận cực kỳ nhanh để tạo văn bản. Được phát hành theo giấy phép Apache 2.0, mô hình Mixture of Experts (MoE) 26B này vượt xa quy trình xử lý tuần tự từng token của các Mô hình Ngôn ngữ Lớn (LLM) tự hồi quy điển hình. Thay vào đó, nó tạo ra toàn bộ các khối văn bản cùng một lúc, mang lại tốc độ tạo văn bản nhanh hơn tới 4 lần trên GPU.

Được xây dựng dựa trên khả năng trí tuệ trên mỗi tham số hàng đầu của gia đình Gemma 4 và nghiên cứu Gemini Diffusion tiên tiến, DiffusionGemma tích hợp một “đầu khuếch tán” (diffusion head) mới được thiết kế để tối đa hóa tốc độ tạo. Trong khi các mô hình Gemma 4 tự hồi quy vẫn là tiêu chuẩn cho các kết quả sản xuất chất lượng cao, DiffusionGemma được thiết kế cho các nhà nghiên cứu và nhà phát triển đang khám phá các quy trình làm việc cục bộ tương tác, quan trọng về tốc độ như: chỉnh sửa nội dòng (in-line editing), lặp lại nhanh và tạo các cấu trúc văn bản phi tuyến tính.
Mở ra giá trị mới cho các nhà phát triển
Các nhà phát triển xây dựng ứng dụng AI tương tác thời gian thực thường gặp khó khăn với nút thắt cổ chai về độ trễ khi suy luận cục bộ. DiffusionGemma giải quyết trực tiếp những thách thức này với một số đánh đổi chính:
- Suy luận cực nhanh: Bằng cách chuyển nút thắt giải mã từ băng thông bộ nhớ sang tính toán, DiffusionGemma tạo ra đầu ra token nhanh hơn tới 4 lần trên GPU chuyên dụng. (Hơn 1000 token mỗi giây trên một NVIDIA H100, hơn 700 token mỗi giây trên NVIDIA GeForce RTX 5090)¹.
- Dấu chân phần cứng dễ tiếp cận: Hoạt động như một mô hình MoE tổng cộng 26B nhưng chỉ kích hoạt 3,8B tham số trong quá trình suy luận, DiffusionGemma nằm gọn trong giới hạn VRAM 18GB của các GPU tiêu dùng cao cấp khi được lượng tử hóa (quantized).
- Chú ý hai chiều (Bi-directional attention): Việc tạo 256 token song song trong mỗi lần truyền thẳng (forward pass) cho phép mọi token chú ý đến tất cả các token khác. Điều này mang lại lợi thế đáng kể cho các lĩnh vực phi tuyến tính như chỉnh sửa nội dòng, điền mã code (code infilling), chuỗi axit amin hoặc đồ thị toán học.
- Tự sửa lỗi thông minh: Mô hình tinh chỉnh đầu ra của chính nó một cách lặp đi lặp lại, cho phép nó đánh giá toàn bộ khối văn bản cùng lúc để sửa lỗi trong thời gian thực.
- Trạng thái thực nghiệm và khuyến nghị sản xuất: Vì ưu tiên tốc độ và tạo bố cục song song, chất lượng đầu ra tổng thể của DiffusionGemma thấp hơn so với Gemma 4 tiêu chuẩn. Đối với các ứng dụng yêu cầu chất lượng tối đa, chúng tôi khuyên bạn nên triển khai Gemma 4 tiêu chuẩn.

Bạn có thể cải thiện hiệu suất của DiffusionGemma cho các tác vụ cụ thể thông qua tinh chỉnh (fine-tuning). Trong ví dụ dưới đây, Unsloth đã tinh chỉnh DiffusionGemma để chơi Sudoku — một tác vụ mà các mô hình tự hồi quy gặp khó khăn vì mỗi token phụ thuộc vào các token trong tương lai. Khả năng chú ý hai chiều của DiffusionGemma khiến việc này trở nên dễ dàng hơn nhiều.
DiffusionGemma đã được tinh chỉnh đang giải Sudoku.
Tại sao lại dùng khuếch tán (diffusion) cho văn bản?
Mặc dù cộng đồng nghiên cứu AI đã khám phá việc tạo văn bản dựa trên khuếch tán trong nhiều năm, nhưng việc áp dụng cho các mô hình lớn vẫn là một thách thức. DiffusionGemma thay đổi điều này bằng cách thay đổi cách mô hình sử dụng phần cứng.
Sự đánh đổi với các mô hình truyền thống
Hầu hết các mô hình ngôn ngữ hoạt động giống như một chiếc máy đánh chữ, tạo ra từng token một từ trái sang phải. Trong môi trường đám mây, điều này hiệu quả vì các máy chủ có thể gom hàng nghìn yêu cầu của người dùng lại để chia sẻ tải phần cứng. Nhưng khi chạy cục bộ cho một người dùng duy nhất, quá trình từng từ một này khiến GPU hoặc TPU chuyên dụng của bạn không được tận dụng hết công suất — nó dành phần lớn thời gian chỉ để chờ “phím nhấn” tiếp theo.
DiffusionGemma đảo ngược sự kém hiệu quả này. Thay vì dự đoán các từ tuần tự, nó phác thảo toàn bộ một đoạn văn 256 token cùng một lúc. Bằng cách giao cho bộ xử lý của máy tính một khối lượng công việc lớn hơn cùng một lúc, DiffusionGemma tận dụng tối đa tiềm năng phần cứng của bạn. Nó nâng cấp việc suy luận mô hình từ một chiếc máy đánh chữ tuần tự đơn lẻ thành một máy in khổng lồ đóng dấu toàn bộ khối văn bản cùng lúc.
https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/dgemma_faster.mp4 Demo DiffusionGemma tạo SVG 3D từ văn bản bởi Hugging Face. Quá trình tạo từng bước.
Điều này có nghĩa là sự gia tăng tốc độ của DiffusionGemma được thiết kế cho suy luận cục bộ và suy luận với độ đồng thời thấp. Trong phục vụ đám mây với QPS (số yêu cầu mỗi giây) cao, các mô hình tự hồi quy có thể được triển khai để bão hòa tính toán một cách hiệu quả, vì vậy việc giải mã song song của DiffusionGemma mang lại lợi ích giảm dần và có thể dẫn đến chi phí phục vụ cao hơn. Lợi thế về thông lượng mạnh nhất ở kích thước batch nhỏ đến trung bình trên một bộ tăng tốc duy nhất.
Cách thức hoạt động của khuếch tán văn bản
Tương tự như các trình tạo hình ảnh AI bắt đầu với những nhiễu hạt hình ảnh và tinh chỉnh lặp đi lặp lại thành một bức tranh rõ nét, DiffusionGemma áp dụng điều này cho văn bản:
- Khung hình (The canvas): Mô hình bắt đầu với một khung hình gồm các token giữ chỗ ngẫu nhiên.
- Tinh chỉnh lặp lại (Iterative refinement): Mô hình thực hiện nhiều lượt quét, chốt các token chính xác và sử dụng chúng làm manh mối ngữ cảnh để tinh chỉnh phần còn lại.
- Hoàn thiện cuối cùng (Final polish): Văn bản hội tụ thành đầu ra chất lượng cao.
https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/Diffusion_Process_3_1.mp4 Quá trình khuếch tán của DiffusionGemma.
Vì mô hình có thể xử lý toàn bộ đoạn văn trong khi tạo, nó mở ra các kiểu hành vi mới của mô hình, chẳng hạn như đóng hoàn hảo các định dạng markdown phức tạp hoặc tạo và kết xuất mã code gần như trong thời gian thực.
Bắt đầu ngay hôm nay
- Tải trọng số (weights): Truy cập các trọng số mô hình thực nghiệm (phát hành theo giấy phép Apache 2.0) ngay bây giờ trên Hugging Face.
- Tích hợp & Tìm hiểu: Tìm hiểu thêm trong hướng dẫn cho nhà phát triển DiffusionGemma hoặc đi sâu vào Hướng dẫn trực quan về DiffusionGemma để hiểu cơ chế vận hành.
- Sử dụng các công cụ phát triển yêu thích: Triển khai mô hình hiệu quả bằng MLX, vLLM (với sự hỗ trợ tích hợp từ Red Hat, và Hugging Face Transformers. Để thử nghiệm nhanh, chúng tôi phát hành hướng dẫn tinh chỉnh sử dụng Hackable Diffusion, một bộ công cụ JAX mô-đun. Bạn cũng có thể khám phá tinh chỉnh với Unsloth và NVIDIA NeMo. Hỗ trợ chính thức cho llama.cpp sẽ sớm ra mắt.
- Trải nghiệm hiệu suất tối ưu: Chúng tôi đã làm việc với NVIDIA để tối ưu hóa trên toàn bộ ngăn xếp phần cứng của họ, đảm bảo khả năng tương thích với các thiết lập tiêu dùng (lượng tử hóa cho GPU GeForce RTX 5090 và 4090) cùng hiệu suất cao trên các hệ thống doanh nghiệp (Hopper và Blackwell sử dụng các kernel NVFP4 tiên tiến), bao gồm NVIDIA DGX Spark và DGX Station cho triển khai tại bàn làm việc, và RTX PRO cho các chuyên gia AI. Hỗ trợ gốc cho NVFP4 (số thực dấu phẩy động 4-bit) tăng tốc thông lượng tính toán, cho phép mô hình chạy nhanh hơn với độ chính xác gần như không tổn thất.
- Thử nghiệm theo cách của bạn: Chạy trên GPU chuyên dụng của máy tính để bàn hoặc trên đám mây thông qua Gemini Enterprise Agent Platform Model Garden hoặc NVIDIA NIM.
¹ Lưu ý: Vì sự tăng tốc này dựa trên việc khai thác cường độ số học cao của các bộ tăng tốc, các kiến trúc bộ nhớ thống nhất như trong Apple Silicon Macs — thường bị giới hạn bởi băng thông bộ nhớ thay vì tính toán trong quá trình suy luận — có thể không thấy được sự gia tốc tương tự so với các mô hình tự hồi quy như Gemma 4.
Link bài viết gốc
- Tags:
- Ai
- June 2026
- Blog.google