Qwen-Image là một trình tạo ảnh AI mã nguồn mở mới mạnh mẽ với hỗ trợ cho văn bản nhúng bằng tiếng Anh & tiếng Trung

  • 11 min read
Qwen-Image là một trình tạo ảnh AI mã nguồn mở mới mạnh mẽ với hỗ trợ cho văn bản nhúng bằng tiếng Anh & tiếng Trung

Qwen-Image là một trình tạo ảnh AI mã nguồn mở mạnh mẽ, mới, hỗ trợ văn bản nhúng bằng tiếng Anh & tiếng Trung

Sau khi chiếm lĩnh mùa hè với một loạt các mô hình AI mới mã nguồn mở tập trung vào ngôn ngữ và mã hóa mạnh mẽ, miễn phí, phù hợp hoặc trong một số trường hợp tốt hơn các đối thủ Hoa Kỳ độc quyền/nguồn đóng, “Nhóm Qwen” các nhà nghiên cứu AI xuất sắc của Alibaba đã trở lại hôm nay với việc phát hành một mô hình trình tạo ảnh AI mới được xếp hạng cao - cũng là mã nguồn mở.

Qwen-Image nổi bật trong một lĩnh vực mô hình hình ảnh tổng quát đông đúc do nhấn mạnh vào việc hiển thị văn bản chính xác trong hình ảnh - một lĩnh vực mà nhiều đối thủ vẫn đang gặp khó khăn.

Hỗ trợ cả chữ viết theo bảng chữ cái và chữ tượng hình, mô hình đặc biệt thành thạo trong việc quản lý kiểu chữ phức tạp, bố cục nhiều dòng, ngữ nghĩa cấp đoạn văn và nội dung song ngữ (ví dụ: tiếng Anh-tiếng Trung).

Trong thực tế, điều này cho phép người dùng tạo nội dung như áp phích phim, slide thuyết trình, cảnh mặt tiền cửa hàng, thơ viết tay và đồ họa thông tin cách điệu - với văn bản sắc nét phù hợp với lời nhắc của họ.

Chuỗi tác động AI trở lại San Francisco - Ngày 5 tháng 8

Giai đoạn tiếp theo của AI đã ở đây - bạn đã sẵn sàng chưa? Hãy tham gia cùng các nhà lãnh đạo từ Block, GSK và SAP để có một cái nhìn độc quyền về cách các tác nhân tự trị đang định hình lại quy trình làm việc của doanh nghiệp - từ việc ra quyết định theo thời gian thực đến tự động hóa đầu cuối.

Đảm bảo vị trí của bạn ngay bây giờ - không gian có hạn: https://bit.ly/3GuuPLF

Các ví dụ đầu ra của Qwen-Image bao gồm một loạt các trường hợp sử dụng thực tế:

  • Tiếp thị & Xây dựng thương hiệu: Áp phích song ngữ với logo thương hiệu, thư pháp cách điệu và mô típ thiết kế nhất quán
  • Thiết kế bản trình bày: Bố cục slide nhận biết với hệ thống phân cấp tiêu đề và hình ảnh phù hợp với chủ đề
  • Giáo dục: Tạo tài liệu lớp học có sơ đồ và văn bản hướng dẫn được hiển thị chính xác
  • Bán lẻ & Thương mại điện tử: Cảnh mặt tiền cửa hàng, nơi nhãn sản phẩm, biển báo và bối cảnh môi trường đều phải dễ đọc
  • Nội dung sáng tạo: Thơ viết tay, tường thuật cảnh, hình minh họa theo phong cách anime với văn bản câu chuyện được nhúng

Người dùng có thể tương tác với mô hình trên trang web Qwen Chat bằng cách chọn chế độ “Tạo hình ảnh” từ các nút bên dưới trường nhập lời nhắc.

Tuy nhiên, các thử nghiệm ban đầu ngắn gọn của tôi cho thấy văn bản và việc tuân thủ lời nhắc không tốt hơn đáng kể so với Midjourney, trình tạo hình ảnh AI độc quyền phổ biến từ công ty Hoa Kỳ cùng tên. Phiên của tôi thông qua trò chuyện Qwen đã tạo ra nhiều lỗi trong việc hiểu lời nhắc và độ trung thực của văn bản, khiến tôi rất thất vọng, ngay cả sau nhiều lần thử và diễn đạt lại lời nhắc:

Tuy nhiên, Midjourney chỉ cung cấp một số lượng hạn chế các thế hệ miễn phí và yêu cầu đăng ký cho bất kỳ ai khác, so với Qwen Image, nhờ giấy phép mã nguồn mở và trọng số được đăng trên Hugging Face, có thể được bất kỳ doanh nghiệp hoặc nhà cung cấp bên thứ ba nào áp dụng miễn phí.

Cấp phép và tính khả dụng

Qwen-Image được phân phối theo giấy phép Apache 2.0, cho phép sử dụng, phân phối lại và sửa đổi thương mại và phi thương mại — mặc dù cần có sự ghi nhận và bao gồm văn bản giấy phép cho các tác phẩm phái sinh.

Điều này có thể làm cho nó trở nên hấp dẫn đối với các doanh nghiệp đang tìm kiếm một công cụ tạo hình ảnh mã nguồn mở để sử dụng cho việc tạo tài liệu thế chấp nội bộ hoặc bên ngoài như tờ rơi, quảng cáo, thông báo, bản tin và các thông tin liên lạc kỹ thuật số khác.

Nhưng thực tế là dữ liệu đào tạo của mô hình vẫn là một bí mật được bảo vệ chặt chẽ - giống như hầu hết các trình tạo hình ảnh AI hàng đầu khác - có thể khiến một số doanh nghiệp không muốn sử dụng nó.

Qwen, không giống như Adobe Firefly hoặc tạo hình ảnh gốc của GPT-4o của OpenAI, chẳng hạn, không cung cấp bồi thường cho việc sử dụng sản phẩm của mình cho mục đích thương mại (tức là nếu người dùng bị kiện vì vi phạm bản quyền, Adobe và OpenAI sẽ giúp hỗ trợ họ tại tòa).

Mô hình và các tài sản liên quan - bao gồm sổ tay demo, công cụ đánh giá và tập lệnh tinh chỉnh - có sẵn thông qua nhiều kho lưu trữ:

Ngoài ra, một cổng thông tin đánh giá trực tiếp có tên AI Arena cho phép người dùng so sánh các thế hệ hình ảnh theo các vòng so sánh cặp, đóng góp vào bảng xếp hạng theo phong cách Elo công khai.

Đào tạo và phát triển

Đằng sau hiệu suất của Qwen-Image là một quy trình đào tạo mở rộng dựa trên học tập tiến bộ, căn chỉnh tác vụ đa phương thức và quản lý dữ liệu tích cực, theo bài báo kỹ thuật mà nhóm nghiên cứu đã phát hành hôm nay.

Corpus đào tạo bao gồm hàng tỷ cặp hình ảnh-văn bản có nguồn gốc từ bốn miền: hình ảnh tự nhiên, chân dung người, nội dung nghệ thuật và thiết kế (chẳng hạn như áp phích và bố cục giao diện người dùng) và dữ liệu tổng hợp tập trung vào văn bản. Nhóm Qwen không chỉ định kích thước của corpus dữ liệu đào tạo, ngoài “hàng tỷ cặp hình ảnh-văn bản”. Họ đã cung cấp một phân tích về tỷ lệ phần trăm gần đúng của từng loại nội dung mà nó bao gồm:

  • Thiên nhiên: ~55%
  • Thiết kế (UI, áp phích, nghệ thuật): ~27%
  • Con người (chân dung, hoạt động của con người): ~13%
  • Dữ liệu hiển thị văn bản tổng hợp: ~5%

Đáng chú ý, Qwen nhấn mạnh rằng tất cả dữ liệu tổng hợp đều được tạo nội bộ và không có hình ảnh nào do các mô hình AI khác tạo ra được sử dụng. Mặc dù các giai đoạn quản lý và lọc chi tiết được mô tả, tài liệu không làm rõ liệu bất kỳ dữ liệu nào có được cấp phép hay được lấy từ các bộ dữ liệu công khai hay độc quyền hay không.

Không giống như nhiều mô hình tổng quát loại trừ văn bản tổng hợp do rủi ro nhiễu, Qwen-Image sử dụng các quy trình kết xuất tổng hợp được kiểm soát chặt chẽ để cải thiện phạm vi phủ sóng của ký tự — đặc biệt đối với các ký tự tần số thấp trong tiếng Trung.

Một chiến lược theo phong cách chương trình giảng dạy được sử dụng: mô hình bắt đầu với các hình ảnh chú thích đơn giản và nội dung không phải văn bản, sau đó chuyển sang các kịch bản văn bản nhạy cảm với bố cục, hiển thị ngôn ngữ hỗn hợp và các đoạn văn dày đặc. Sự tiếp xúc dần dần này được chứng minh là giúp mô hình tổng quát hóa trên các tập lệnh và loại định dạng.

Qwen-Image tích hợp ba mô-đun chính:

  • Qwen2.5-VL, mô hình ngôn ngữ đa phương thức, trích xuất ý nghĩa theo ngữ cảnh và hướng dẫn thế hệ thông qua các lời nhắc hệ thống.
  • Bộ mã hóa/giải mã VAE, được đào tạo trên các tài liệu có độ phân giải cao và bố cục thực tế, xử lý các biểu diễn trực quan chi tiết, đặc biệt là văn bản nhỏ hoặc dày đặc.
  • MMDiT, xương sống của mô hình khuếch tán, điều phối việc học tập chung trên các phương thức hình ảnh và văn bản. Một hệ thống MSRoPE (Mã hóa vị trí xoay có thể mở rộng đa phương thức) mới cải thiện sự căn chỉnh không gian giữa các mã thông báo.

Cùng với nhau, các thành phần này cho phép Qwen-Image hoạt động hiệu quả trong các tác vụ liên quan đến hiểu hình ảnh, tạo và chỉnh sửa chính xác.

Điểm chuẩn hiệu suất

Qwen-Image được đánh giá dựa trên một số điểm chuẩn công khai:

  • GenEvalDPG để theo dõi lời nhắc và tính nhất quán của thuộc tính đối tượng
  • OneIG-BenchTIIF để suy luận thành phần và độ trung thực của bố cục
  • CVTG-2K, ChineseWordLongText-Bench để kết xuất văn bản, đặc biệt là trong bối cảnh đa ngôn ngữ

Trong gần như mọi trường hợp, Qwen-Image hoặc phù hợp hoặc vượt trội hơn các mô hình nguồn đóng hiện có như GPT Image 1 [Cao], Seedream 3.0 và FLUX.1 Kontext [Pro]. Đáng chú ý, hiệu suất của nó trên kết xuất văn bản tiếng Trung tốt hơn đáng kể so với tất cả các hệ thống được so sánh.

Trên bảng xếp hạng AI Arena công khai - dựa trên hơn 10.000 so sánh cặp của con người — Qwen-Image xếp thứ ba chung cuộc và là mô hình mã nguồn mở hàng đầu.

Ý nghĩa đối với những người ra quyết định kỹ thuật của doanh nghiệp

Đối với các nhóm AI doanh nghiệp quản lý các quy trình làm việc đa phương thức phức tạp, Qwen-Image giới thiệu một số lợi thế chức năng phù hợp với nhu cầu hoạt động của các vai trò khác nhau.

Những người quản lý vòng đời của các mô hình ngôn ngữ thị giác — từ đào tạo đến triển khai — sẽ tìm thấy giá trị trong chất lượng đầu ra nhất quán của Qwen-Image và các thành phần sẵn sàng tích hợp của nó. Bản chất mã nguồn mở làm giảm chi phí cấp phép, trong khi kiến trúc mô-đun (Qwen2.5-VL + VAE + MMDiT) tạo điều kiện thích ứng với các bộ dữ liệu tùy chỉnh hoặc tinh chỉnh cho các đầu ra dành riêng cho miền.

Dữ liệu đào tạo theo phong cách chương trình giảng dạy và kết quả điểm chuẩn rõ ràng giúp các nhóm đánh giá mức độ phù hợp với mục đích. Cho dù triển khai hình ảnh tiếp thị, kết xuất tài liệu hay đồ họa sản phẩm thương mại điện tử, Qwen-Image cho phép thử nghiệm nhanh chóng mà không có các ràng buộc độc quyền.

Các kỹ sư được giao nhiệm vụ xây dựng quy trình AI hoặc triển khai mô hình trên các hệ thống phân tán sẽ đánh giá cao tài liệu cơ sở hạ tầng chi tiết. Mô hình đã được đào tạo bằng kiến trúc Nhà sản xuất-Người tiêu dùng, hỗ trợ xử lý đa độ phân giải có thể mở rộng (256p đến 1328p) và được xây dựng để chạy với Megatron-LM và tính song song tensor. Điều này làm cho Qwen-Image trở thành ứng cử viên để triển khai trong môi trường đám mây kết hợp, nơi độ tin cậy và thông lượng quan trọng.

Hơn nữa, hỗ trợ cho quy trình làm việc chỉnh sửa hình ảnh thành hình ảnh (TI2I) và lời nhắc cụ thể theo tác vụ cho phép sử dụng nó trong các ứng dụng tương tác hoặc theo thời gian thực.

Các chuyên gia tập trung vào việc thu thập, xác thực và chuyển đổi dữ liệu có thể sử dụng Qwen-Image như một công cụ để tạo bộ dữ liệu tổng hợp để đào tạo hoặc tăng cường các mô hình thị giác máy tính. Khả năng tạo hình ảnh có độ phân giải cao với các chú thích đa ngôn ngữ được nhúng có thể cải thiện hiệu suất trong các tác vụ OCR, phát hiện đối tượng hoặc phân tích bố cục hạ lưu.

Vì Qwen-Image cũng được đào tạo để tránh các tạo tác như mã QR, văn bản bị méo và hình mờ, nó cung cấp đầu vào tổng hợp chất lượng cao hơn so với nhiều mô hình công khai — giúp các nhóm doanh nghiệp duy trì tính toàn vẹn của bộ đào tạo.

Tìm kiếm phản hồi và cơ hội hợp tác

Nhóm Qwen nhấn mạnh sự cởi mở và hợp tác cộng đồng trong việc phát hành mô hình.

Các nhà phát triển được khuyến khích kiểm tra và tinh chỉnh Qwen-Image, cung cấp các yêu cầu kéo và tham gia vào bảng xếp hạng đánh giá. Phản hồi về kết xuất văn bản, độ trung thực chỉnh sửa và các trường hợp sử dụng đa ngôn ngữ sẽ định hình các lần lặp trong tương lai.

Với mục tiêu đã nêu là “hạ thấp các rào cản kỹ thuật đối với việc tạo nội dung trực quan”, nhóm hy vọng Qwen-Image sẽ không chỉ đóng vai trò là một mô hình mà còn là nền tảng cho nghiên cứu sâu hơn và triển khai thực tế trên các ngành công nghiệp.

Recommended for You

ChatGPT tăng vọt lên 700 triệu người dùng hàng tuần trước khi ra mắt GPT-5 với siêu năng lực suy luận

ChatGPT tăng vọt lên 700 triệu người dùng hàng tuần trước khi ra mắt GPT-5 với siêu năng lực suy luận

Tại sao các nhà phát triển giỏi nhất trong tương lai sẽ không chỉ viết code - họ sẽ quản lý, điều phối và điều khiển AI

Tại sao các nhà phát triển giỏi nhất trong tương lai sẽ không chỉ viết code - họ sẽ quản lý, điều phối và điều khiển AI

Các nhà phát triển giỏi nhất trong tương lai sẽ không chỉ viết code mà còn quản lý, điều phối và điều khiển AI.