Kiến trúc thử nghiệm chuyển văn bản thành hình ảnh

Các thử nghiệm kiến trúc chuyển văn bản thành hình ảnh

November 19, 2025
22 min read

Kiến trúc thử nghiệm chuyển văn bản thành hình ảnh — Các thử nghiệm kiến trúc chuyển văn bản thành hình ảnh

Thử nghiệm Kiến trúc Văn bản sang Hình ảnh

Trong bài đăng đầu tiên của loạt bài này, chúng tôi đã giới thiệu dự án của mình: huấn luyện một mô hình nền tảng văn bản sang hình ảnh hoàn toàn từ đầu và thực hiện hoàn toàn công khai. Chúng tôi đã nêu bật các mục tiêu của mình, chia sẻ các thử nghiệm ban đầu và cung cấp cái nhìn đầu tiên về các kỹ thuật và ý tưởng định hình cách tiếp cận của chúng tôi.

Phần thứ hai này đánh dấu sự khởi đầu của các phân tích kỹ thuật chuyên sâu của chúng tôi, bắt đầu với nền tảng của mô hình: kiến trúc của nó. Trong vài tháng qua, chúng tôi đã khám phá và kiểm tra hiệu suất của nhiều lựa chọn thiết kế khác nhau, từ các kiến trúc nền tảng dựa trên transformer đã được thiết lập cho đến các biến thể tùy chỉnh của riêng chúng tôi, để hiểu rõ hơn về cách mỗi lựa chọn ảnh hưởng đến hiệu suất, khả năng mở rộng và hiệu quả.

Ở đây, chúng tôi trình bày những gì chúng tôi đã thử, những gì chúng tôi đã học được và cách các thử nghiệm này đã định hình nền tảng cho mô hình hiện tại của chúng tôi. Đây là phần đầu tiên trong loạt cập nhật chuyên sâu, khi chúng tôi tiếp tục tinh chỉnh, huấn luyện và mã nguồn mở từng phần của quy trình.

Hình: Sự tiến hóa của hình ảnh được tạo ra qua 100K bước đầu tiên.

Nhắc lại về Khớp Dòng và Lan tỏa Tức thời

Để cung cấp bối cảnh cho các so sánh kiến trúc theo sau, chúng tôi tóm tắt ngắn gọn khuôn khổ khớp dòng đã được điều chỉnh được sử dụng để huấn luyện tất cả các mô hình của chúng tôi.

Khuôn khổ sinh tạo của chúng tôi được xây dựng dựa trên khớp dòng (Lipman et al., 2022), một công thức xác định học một phép biến đổi thời gian liên tục giữa một phân phối ưu tiên đơn giản và phân phối dữ liệu mục tiêu. Trái ngược với các mô hình lan tỏa, mô phỏng các quỹ đạo ngẫu nhiên thông qua nhiễu và quá trình khử nhiễu, khớp dòng học một trường vận tốc xác định trực tiếp mô tả cách các mẫu tiến hóa từ nhiễu sang dữ liệu theo thời gian.

Về mặt hình thức, chúng tôi định nghĩa một họ các phân phối trung gian liên tục $p_t$ cho $t \in [0, 1]$, nội suy giữa một phân phối cơ sở $p_0$ (thường là nhiễu Gaussian) và phân phối dữ liệu $p_1$ (hình ảnh trong trường hợp của chúng tôi). Mục tiêu là học một trường vận tốc $v^\star_t(z_t)$ vận chuyển $p_0$ đến $p_1$ thông qua một phương trình vi phân thường:

$ \frac{d z_t}{d t} = v_\theta(z_t, t), \quad \text{với} \quad z_0 \sim p_0, ; z_1 \sim p_1 $

Mục tiêu huấn luyện là căn chỉnh vận tốc dự đoán $v_\theta(z_t, t)$ với dòng chảy thực tế $v^\star_t(z_t)$ bằng một hàm mất mát $\ell_2$:

$ \mathcal{L}{\text{FM}} = \mathbb{E}{t, z_t} \left[ | v_\theta(z_t, t) - v_t^\star(z_t) |_2^2 \right] $

Trong thực tế, chúng tôi áp dụng công thức dòng chảy được điều chỉnh (Liu et al., 2022), một biến thể đơn giản hóa của khớp dòng, trong đó các mẫu tuân theo đường vận chuyển tuyến tính giữa nhiễu và dữ liệu. Theo giả định này, trường dòng chảy tối ưu trở nên độc lập với thời gian và có thể được biểu diễn dưới dạng:

$ v_t^\star(z_t) = z_1 - z_0 $

Công thức điều chỉnh này loại bỏ nhu cầu mô hình hóa rõ ràng động lực học phụ thuộc vào thời gian trong khi vẫn giữ được bản chất xác định của quá trình vận chuyển. Mạng $v_\theta$ được huấn luyện để dự đoán trường vận tốc cố định này bằng hàm mất mát $\ell_2$:

$ \mathcal{L}{\text{RF}} = \mathbb{E}{z_0, z_1, t} \left[ | v_\theta(z_t, t) - (z_1 - z_0) |_2^2 \right] $

Điều này cung cấp một mục tiêu huấn luyện ổn định và hiệu quả về mặt tính toán, tránh các phương trình vi phân ngẫu nhiên và lịch trình nhiễu phức tạp trong khi vẫn giữ được sự linh hoạt sinh tạo của các phương pháp dựa trên lan tỏa.

Để cải thiện hiệu quả tính toán, khớp dòng được thực hiện trong không gian tiềm ẩn thay vì trực tiếp trong không gian pixel. Với một hình ảnh $x \in \mathbb{R}^{H \times W \times 3}$, bộ mã hóa $\mathcal{E}$ ánh xạ nó tới một biểu diễn tiềm ẩn nhỏ gọn $z = \mathcal{E}(x)$, và bộ giải mã $\mathcal{D}$ tái tạo hình ảnh từ $z$, thực thi $\mathcal{D}(z) \approx x$. Biểu diễn tiềm ẩn này bảo tồn chất lượng cảm nhận trong khi giảm chiều, cho phép huấn luyện nhanh hơn và tiết kiệm bộ nhớ hơn.

Cuối cùng, vì mục tiêu của chúng tôi là tạo ra văn bản sang hình ảnh, mô hình được điều kiện hóa bằng một lời nhắc văn bản. Một bộ mã hóa văn bản $f_\phi$ (ví dụ: T5 hoặc T5Gemma) ánh xạ một lời nhắc được mã hóa token $y$ thành một chuỗi các biểu diễn nhúng:

$ c = f_\phi(y) $

Những biểu diễn nhúng này đóng vai trò là tín hiệu điều kiện hóa cho quá trình sinh tạo, hướng dẫn mô hình liên kết nội dung trực quan với ý nghĩa ngữ nghĩa của lời nhắc. Do đó, mạng hoàn chỉnh học một trường vận tốc có điều kiện $v_\theta(z_t, t, c)$, kết hợp hiệu quả của mô hình hóa không gian tiềm ẩn, tính xác định của dòng chảy được điều chỉnh và khả năng biểu đạt của điều kiện hóa dựa trên văn bản.

Kiến trúc

Chúng tôi đã đánh giá một loạt các kiến trúc dựa trên transformer — bao gồm DiT, MMDiT, DiT-Air, UViT và thiết kế tùy chỉnh của riêng chúng tôi PRX — để nghiên cứu cách các lựa chọn cấu trúc ảnh hưởng đến hiệu suất trong các điều kiện huấn luyện tương đương.

Thay vì nhắm đến mô hình lớn nhất hoặc biểu cảm nhất, mục tiêu của chúng tôi là xác định nguyên tắc kiến trúc nào mang lại sự cân bằng tốt nhất giữa hiệu quả, ổn định và sự liên kết văn bản-hình ảnh.

Các phần sau đây giới thiệu ngắn gọn từng kiến trúc, phác thảo các ý tưởng thiết kế chính của chúng và động lực đằng sau chúng.

DiT (Peebles & Xie, 2022)

Diffusion Transformer (DiT) là kiến trúc đầu tiên sử dụng các khối Transformer cho việc tạo ảnh trong các mô hình lan tỏa. Ban đầu được giới thiệu cho việc tạo điều kiện theo lớp, nó sau đó đã được mở rộng để tổng hợp văn bản sang hình ảnh, thiết lập nền tảng mà nhiều mô hình tiếp theo đã được xây dựng.

Trong các thử nghiệm của chúng tôi, chúng tôi tuân theo biến thể PixArt-α (Chen et al., 2023), bổ sung DiT với cơ chế chú ý chéo được chèn giữa các lớp chú ý tự thân và truyền thẳng. Thiết kế này cho phép kết hợp trực tiếp hơn các đặc trưng hình ảnh và văn bản, cải thiện sự liên kết giữa các hình ảnh được tạo ra và các lời nhắc điều kiện hóa.

PixArt-α cũng giới thiệu một chiến lược chuẩn hóa tinh chỉnh bằng cách sử dụng một cấu hình Adaptive LayerNorm (AdaLN) duy nhất được chia sẻ. Thay vì duy trì các tham số chuẩn hóa thích ứng riêng biệt trong mỗi khối, như trong DiT gốc, một bộ tham số tỷ lệ và dịch chuyển toàn cục duy nhất được dẫn xuất từ nhúng thời gian và được chia sẻ trên các lớp. Điều này giảm sự dư thừa và tổng số tham số trong khi vẫn giữ được sự linh hoạt thông qua các nhúng nhẹ, theo từng khối.

Mặc dù các kiến trúc gần đây hơn đã vượt trội DiT về hiệu quả và khả năng biểu đạt, nó vẫn là một đường cơ sở mạnh mẽ và được áp dụng rộng rãi, được đánh giá cao vì sự đơn giản và khả năng mở rộng của nó. Nhiều hệ thống văn bản sang hình ảnh hiện đại, bao gồm cả Wan (Wang et al., 2025), vẫn dựa vào các kiến trúc nền tảng lấy cảm hứng từ DiT.

Hình: Khối DiT PixArt-α (hình ảnh từ arXiv:2503.10618)

MMDiT (Esser et al., 2024)

Multimodal Diffusion Transformer (MMDiT), được giới thiệu như một phần của Stable Diffusion 3, mở rộng họ DiT với kiến trúc luồng kép xử lý đồng thời các token văn bản và hình ảnh trong một khuôn khổ Transformer chung.

Không giống như PixArt-α, nơi điều kiện văn bản được tiêm qua chú ý chéo vào một kiến trúc nền tảng chỉ hình ảnh, MMDiT duy trì hai luồng token song song — một cho văn bản và một cho đặc trưng hình ảnh — trong toàn bộ mạng. Mỗi luồng có các lớp chuẩn hóa, điều biến và truyền thẳng riêng, nhưng chúng chia sẻ cơ chế chú ý chung cho phép giao tiếp hai chiều hoàn toàn giữa các phương thức.

Trong quá trình tính toán chú ý, truy vấn, khóa và giá trị được rút ra từ cả token văn bản và hình ảnh, cho phép mỗi phương thức chú ý đến phương thức kia. Mỗi luồng giữ lại các tham số AdaLN riêng, được điều biến bằng các nhúng thời gian và phương thức để đảm bảo điều kiện lan tỏa nhất quán trên các miền.

Thiết kế này cho phép MMDiT nắm bắt các phụ thuộc đa phương thức rõ ràng hơn so với các kiến trúc đơn luồng, mặc dù với chi phí bộ nhớ và tính toán cao hơn.

Hình: Khối MMDiT (hình ảnh từ arXiv:2503.10618)

DiT-Air (Li et al., 2025)

DiT-Air là một kiến trúc lai thu hẹp khoảng cách giữa DiT và MMDiT, kết hợp sự đơn giản của Transformer đơn luồng với khả năng tương tác đa phương thức biểu cảm của thiết kế luồng kép.

Không giống như MMDiT, duy trì các luồng riêng biệt cho token văn bản và hình ảnh giao tiếp thông qua chú ý chung, DiT-Air hoạt động trên một chuỗi token thống nhất, nơi cả hai phương thức cùng tồn tại trong một luồng duy nhất. Nó giữ lại cơ chế AdaLN từ DiT, đảm bảo thông tin thời gian và điều kiện hóa được tích hợp nhất quán trong toàn bộ mạng.

Thiết kế này mang đến sự cân bằng thực tế giữa lý luận đa phương thức có cấu trúc của MMDiT và hiệu quả của DiT gốc. Bằng cách loại bỏ chi phí tính toán và bộ nhớ của các đường dẫn kép, DiT-Air đạt được sự liên kết văn bản-hình ảnh mạnh mẽ thông qua chú ý chung trong khi vẫn nhẹ và có khả năng mở rộng.

Ở quy mô lớn, DiT-Air ngang bằng hoặc vượt trội hơn các kiến trúc lớn hơn trong khi sử dụng ít tham số hơn đáng kể — khoảng 66% ít hơn MMDiT và 25% ít hơn PixArt-α — làm cho nó trở thành một đường cơ sở mạnh mẽ cho các mô hình lan tỏa văn bản sang hình ảnh hiệu quả.

Hình: Khối DiT-Air (hình ảnh từ arXiv:2503.10618)

U-ViT (Bao et al., 2022)

U-shaped Vision Transformer (U-ViT) áp dụng một bố cục gợi nhớ đến kiến trúc U-Net cổ điển nhưng được thực hiện hoàn toàn bằng các khối Transformer. Các ngăn xếp bộ mã hóa và bộ giải mã của nó được kết nối thông qua các kết nối bỏ qua dài, cho phép các đặc trưng không gian cấp thấp từ các lớp nông được nối và chiếu vào các lớp sâu hơn để cải thiện chất lượng tái tạo.

Giống như DiT-Air, U-ViT hoạt động trên một chuỗi token thống nhất, nơi các token trực quan và điều kiện hóa được xử lý chung thông qua chú ý tự thân. Tuy nhiên, nó loại bỏ hoàn toàn các cơ chế chuẩn hóa thích ứng — không có AdaLN hoặc điều biến theo lớp. Thay vào đó, thông tin điều kiện hóa như thời gian và nhúng văn bản được nối trực tiếp vào chuỗi token đầu vào, cho phép Transformer lý luận chung về các bản vá hình ảnh, token thời gian và token văn bản trong một không gian chú ý duy nhất.

Thiết kế này làm cho U-ViT trở nên đơn giản và thanh lịch về mặt khái niệm, kết hợp mô hình hóa ngữ cảnh toàn cục của Transformer với cấu trúc phân cấp của kiến trúc bộ mã hóa-giải mã.

Hình: Kiến trúc U-ViT (hình ảnh từ arXiv:2209.12152)

PRX (Photoroom eXperimental)

Để đánh giá các lựa chọn thiết kế thay thế, chúng tôi đã phát triển kiến trúc riêng của mình, PRX (Photoroom eXperimental) — một thiết kế lai kết hợp các tính năng của cả Transformer đơn luồng và luồng kép. PRX nhận cả token hình ảnh và văn bản làm đầu vào nhưng được thiết kế để chỉ xuất token hình ảnh, tập trung tính toán vào đường dẫn sinh tạo.

Mỗi khối PRX nhận token văn bản trực tiếp từ bộ mã hóa văn bản, tương tự PixArt-α. Tuy nhiên, không giống như các thiết lập chú ý chéo hoặc luồng kép thông thường, PRX xử lý các token hình ảnh và văn bản một cách độc lập trước khi nối chúng cho hoạt động chú ý tự thân. Chú ý sau đó được tính toán chỉ cho các token hình ảnh, giảm cả chi phí tính toán và bộ nhớ.

Thiết kế này tương tự với đường cơ sở chú ý tự thân DiT cạn được giới thiệu trong Exploring the Deep Fusion of Large Language Models and Diffusion Transformers for Text-to-Image Synthesis. Bằng cách tránh các cập nhật token văn bản rõ ràng, PRX thực hiện một hoạt động chú ý duy nhất (thay vì hai, như trong DiT tiêu chuẩn) và duy trì ma trận chú ý nhỏ hơn so với MMDiT, nơi chú ý đa phương thức tỷ lệ với tích của số lượng token văn bản và hình ảnh.

Được thúc đẩy bởi quan sát rằng các token văn bản vẫn tĩnh trên các mốc thời gian lan tỏa, PRX bỏ qua điều biến mốc thời gian cho luồng văn bản. Vì các token văn bản không bị sửa đổi, chúng có thể được chiếu một lần tại thời điểm suy luận và lưu vào bộ nhớ đệm, loại bỏ các phép tính dư thừa ở mỗi bước và tăng tốc đáng kể quá trình sinh tạo.

Thiết kế đơn giản nhưng hiệu quả này mang lại những cải tiến đáng kể về tốc độ và hiệu quả bộ nhớ so với cả DiT và MMDiT, trong khi vẫn duy trì sự liên kết văn bản-hình ảnh mạnh mẽ và chất lượng sinh tạo cạnh tranh.

Hình: Khối PRX.

Điểm chuẩn Đánh giá

Các tác giả của bài báo DiT-AIR (Li et al., 2025) đã chứng minh rằng hiệu quả kiến trúc và các xu hướng hiệu suất tương đối được quan sát ở quy mô nhỏ có thể dự đoán đáng tin cậy hành vi ở quy mô lớn.

Sơ đồ khối kiến trúc PRX Hình: Sơ đồ kiến trúc khối PRX.

Dựa trên phát hiện này, chúng tôi đã thiết kế điểm chuẩn của mình để tuân theo nguyên tắc tương tự nhằm cho phép lặp lại nhanh chóng: hoạt động ở độ phân giải và kích thước mô hình thấp hơn, dự kiến rằng các kết quả quy mô thấp này vẫn đại diện cho các đối tác quy mô lớn của chúng.

Tuy nhiên, không giống như nghiên cứu DiT-AIR, các so sánh của chúng tôi không được kiểm soát về số lượng tham số. Thay vào đó, chúng tôi cố định số lượng khối Transformer, đầu chú ý và các chiều ẩn trên tất cả các mô hình để đảm bảo so sánh chéo mô hình công bằng. Cách tiếp cận này cho phép chúng tôi cô lập đóng góp của cấu trúc kiến trúc — chẳng hạn như cấu hình luồng, chiến lược điều kiện hóa và thiết kế chuẩn hóa — mà không làm lẫn các hiệu ứng này với năng lực hoặc quy mô mô hình tổng thể.

Sau đó, chúng tôi đã huấn luyện tất cả các mô hình với thiết lập thử nghiệm sau trên một tập dữ liệu tùy chỉnh gồm 1 triệu hình ảnh ở độ phân giải 256x256.

Kích thước lô: 256
Khối Transformer: 16
Đầu chú ý: 28
Chiều nhúng token: 1792
Không gian tiềm ẩn: Flux VAE với 16 kênh tiềm ẩn và hệ số nén ×8
Bộ mã hóa văn bản: GemmaT5
Mã hóa vị trí: Rotary (RoPE) cho tất cả các kiến trúc ngoại trừ U-ViT, sử dụng mã hóa vị trí 1D đã học

Chúng tôi đã đánh giá tất cả các kiến trúc bằng cách sử dụng các tiêu chí sau:

Mất mát tái tạo: Sai số bình phương trung bình (MSE) giữa các mẫu tái tạo và mục tiêu trên một tập đánh giá được giữ lại.
Frechet Inception Distance (FID): Đo lường sự tương tự giữa các phân phối của hình ảnh được tạo và hình ảnh thực bằng cách sử dụng thống kê đặc trưng của Inception v3. Giá trị thấp hơn cho thấy chất lượng hình ảnh cao hơn.
Clip- Maximum Mean Discrepancy (CMMD) Đánh giá khoảng cách giữa phân phối ảnh thực và ảnh tạo bằng cách sử dụng nhúng CLIP và một chỉ số Maximum Mean Discrepancy (MMD), cung cấp một giải pháp thay thế mạnh mẽ và hiệu quả về mẫu hơn cho FID, được cho là phù hợp hơn với nhận thức của con người.
Sử dụng bộ nhớ: Mức tiêu thụ bộ nhớ GPU đỉnh trong quá trình huấn luyện.
Thông lượng mạng: Số lượng mẫu trung bình được xử lý mỗi giây, đo lường hiệu quả tổng thể.

Model	Parameters	MSE ⬇️	FID ⬇️	CMMD ⬇️	Throughput ⬆️	Memory ⬇️
DiT	867M	0.536	14.02	0.253	1046.6	27.2
DiT-Air	689M	0.534	13.16	0.244	972.5	25.4
MMDiT	3.1B	0.53	13.81	0.19	761.3	54.3
PRX	1.2B	0.53	13.16	0.217	1059.9	23.8
UViT	696M	0.535	14.6	0.239	914.7	25.2

Nhìn chung, MMDiT đạt điểm tái tạo và CMMD tốt nhất, cho thấy hiệu suất sinh tạo mạnh mẽ, nhưng nó cũng là mô hình nặng nhất, đòi hỏi nhiều tham số và bộ nhớ GPU nhất, đồng thời thể hiện thông lượng thấp nhất.

DiT, DiT-Air và các biến thể U-ViT mang lại kết quả cạnh tranh trên các chỉ số nhưng vẫn hơi kém hơn về chất lượng hình ảnh, đặc biệt là về FID và CMMD, trong khi hiệu quả tổng thể hơn.

Kiến trúc PRX được đề xuất của chúng tôi mang lại sự cân bằng tốt nhất, ngang bằng với chất lượng tái tạo của MMDiT trong khi vượt trội hơn về FID, thông lượng và hiệu quả bộ nhớ. Khả năng lưu trữ luồng văn bản trong quá trình suy luận càng củng cố PRX như một lựa chọn thực tế: nó giảm đáng kể chi phí tính toán và độ trễ, mang lại lợi thế rõ ràng cho việc triển khai trong thế giới thực ngay cả khi điểm CMMD của nó vẫn cao hơn một chút so với MMDiT.

Bộ mã hóa văn bản: Hướng tới T5Gemma

Bộ mã hóa văn bản đóng vai trò trung tâm trong các mô hình văn bản sang hình ảnh, hoạt động như cầu nối giữa hiểu biết ngôn ngữ tự nhiên và sinh tạo trực quan. Chất lượng và cấu trúc của biểu diễn văn bản trực tiếp ảnh hưởng đến cách mô hình nắm bắt ngữ nghĩa và thành phần trong các hình ảnh được tạo ra.

Theo truyền thống, hầu hết các kiến trúc T2I dựa trên lan tỏa — chẳng hạn như Flux hoặc Stable Diffusion 3 — đã dựa vào T5 (Raffel et al., 2020), một Transformer bộ mã hóa-giải mã cổ điển được huấn luyện theo mô hình văn bản-văn bản. Biến thể lớn nhất được sử dụng rộng rãi, T5-XXL, chứa khoảng 11 tỷ tham số và tạo ra các biểu diễn nhúng có chiều 4096. Nhờ khả năng hiểu ngữ cảnh mạnh mẽ và chú ý hai chiều, T5 từ lâu đã đóng vai trò là kiến trúc nền tảng cho điều kiện hóa văn bản trong các mô hình lan tỏa.

Tuy nhiên, các công trình gần đây đã chứng kiến sự chuyển dịch sang bộ mã hóa dựa trên LLM, cung cấp các biểu diễn nhúng phong phú hơn, có cơ sở ngữ nghĩa hơn. Trong số này, T5Gemma nổi bật như một mô hình bộ mã hóa-giải mã hiện đại có nguồn gốc từ họ Gemma 2. Nó được xây dựng thông qua một quy trình điều chỉnh chuyển đổi các LLM chỉ bộ giải mã được huấn luyện trước thành kiến trúc bộ mã hóa-giải mã, cho phép T5Gemma thừa hưởng chiều sâu biểu diễn của Gemma trong khi vẫn giữ được khả năng lý luận hai chiều của T5.

Chúng tôi đã đánh giá T5Gemma như một giải pháp thay thế trực tiếp cho T5 trong quy trình văn bản sang hình ảnh của chúng tôi và quan sát thấy một số lợi thế:

Ít tham số hơn (≈2 tỷ so với 11 tỷ cho T5-XXL).
Chiều nhúng nhỏ hơn (2304 so với 4096), giảm chi phí bộ nhớ và tính toán.
Mất mát đánh giá được cải thiện, cho thấy các biểu diễn nhúng văn bản cung cấp nhiều thông tin hơn và được căn chỉnh tốt hơn.
Khả năng đa ngôn ngữ, được kế thừa từ mô hình nền tảng Gemma 2, cho phép tạo ảnh từ các lời nhắc bằng nhiều ngôn ngữ mà không cần điều chỉnh thêm.

Với những lợi thế này, chúng tôi đã áp dụng T5Gemma 2B làm bộ mã hóa văn bản cho các mô hình sắp tới của chúng tôi, cải thiện hiệu quả, khả năng mở rộng và hỗ trợ đa ngôn ngữ trong các lần lặp lại trong tương lai.

Thế hệ đa ngôn ngữ với PRX và T5Gemma

Không gian tiềm ẩn và Bộ mã hóa tự động

Lựa chọn biểu diễn tiềm ẩn có ảnh hưởng lớn đến cả hiệu quả huấn luyện và chất lượng sinh tạo. Trong các thử nghiệm của chúng tôi, chúng tôi đã sử dụng FluxVAE, tại thời điểm thử nghiệm đã mang lại sự cân bằng tốt nhất giữa chất lượng tái tạo và tốc độ tính toán. Sự ổn định và khả năng tương thích của nó với các kiến trúc lan tỏa dựa trên Transformer đã làm cho nó trở thành lựa chọn đầu tiên tự nhiên cho các lần lặp lại ban đầu của chúng tôi.

Song song đó, chúng tôi cũng đã huấn luyện các phiên bản mô hình PRX của chúng tôi bằng cách sử dụng Bộ mã hóa tự động nén sâu (DC-AE), được phát triển bởi phòng thí nghiệm Han tại MIT (Chen et al., 2024). DC-AE được thiết kế để học các không gian tiềm ẩn nhỏ gọn nhưng biểu cảm bằng cách áp dụng nén có cấu trúc cả trong các chiều kênh và không gian. Điều này cho phép bộ mã hóa tự động mã hóa hình ảnh thành các tensor tiềm ẩn nhỏ hơn nhiều trong khi vẫn bảo tồn chất lượng cảm nhận.

Trong khi FluxVAE hoạt động ở tỷ lệ nén không gian ×8 điển hình, DC-AE đạt được tỷ lệ nén ×32 mà không làm giảm đáng kể khả năng biểu cảm hoặc độ trung thực trực quan. Điều này làm giảm đáng kể độ phân giải không gian của không gian tiềm ẩn, cải thiện cả thông lượng huấn luyện và hiệu quả bộ nhớ, đặc biệt đối với các mô hình lan tỏa độ phân giải cao.

Với những lợi thế này, chúng tôi đã phát hành các điểm kiểm tra PRX được huấn luyện với nhúng DC-AE, cho phép cộng đồng khám phá một thiết lập nhanh hơn và nhẹ hơn để huấn luyện văn bản sang hình ảnh quy mô lớn.

Hình: Hình ảnh được tạo bằng PRX và Bộ mã hóa tự động nén sâu.

Kết luận

Bài đăng này đánh dấu chương kỹ thuật đầu tiên trong hành trình mã nguồn mở của chúng tôi nhằm xây dựng một mô hình nền tảng văn bản sang hình ảnh mới từ đầu. Chúng tôi đã chia sẻ các lựa chọn kiến trúc chính đằng sau các thử nghiệm của mình — từ các kiến trúc nền tảng Transformer, bộ mã hóa văn bản đến bộ mã hóa tự động và biểu diễn tiềm ẩn — tạo nền tảng cho các mô hình chúng tôi đang phát hành ngày hôm nay.

Tại thời điểm này, chúng tôi vẫn đang tích cực lặp lại cách tiếp cận của mình. Các điểm kiểm tra được phát hành hiện tại tương ứng với các mô hình PRX tham số 1.2 tỷ quy mô nhỏ, được thiết kế để xác thực các thử nghiệm kiến trúc của chúng tôi. Các phiên bản quy mô lớn hơn đã được lên kế hoạch nhưng chưa bắt đầu huấn luyện khi chúng tôi tiếp tục tinh chỉnh các lựa chọn thiết kế và tối ưu hóa đường dẫn huấn luyện của mình.

Trong phần tiếp theo của loạt bài này, chúng tôi sẽ khám phá các kỹ thuật huấn luyện của chúng tôi — cách chúng tôi tối ưu hóa việc huấn luyện quy mô lớn về tốc độ và sự ổn định, các phương pháp chúng tôi sử dụng để tăng tốc độ hội tụ và những bài học chúng tôi đã rút ra trên đường đi.

Các mô hình PRX của chúng tôi đã có sẵn trên 🤗 Hugging Face Diffusers, và bạn có thể dùng thử chúng trực tiếp thông qua bản demo tương tác của chúng tôi:

👉 Dùng thử demo PRX

Chúng tôi rất hào hứng khi thấy cộng đồng thử nghiệm và xây dựng dựa trên PRX.

Quan tâm đến việc đóng góp?

Chúng tôi đã thiết lập một máy chủ Discord để cập nhật thường xuyên và thảo luận mở với cộng đồng.Hãy tham gia nếu bạn muốn theo dõi tiến trình chặt chẽ hơn, chia sẻ phản hồi hoặc đóng góp cho dự án.

Chúng tôi nóng lòng muốn xem cộng đồng sẽ xây dựng những gì với nó.

AI Today - SkyAI