Qwen-Image-Edit- Chỉnh sửa hình ảnh với chất lượng và hiệu quả cao hơn
Qwen-Image-Edit, phiên bản chỉnh sửa ảnh của Qwen-Image, dựa trên mô hình Qwen-Image 20B, mở rộng khả năng hiển thị văn bản độc đáo của Qwen-Image sang các tác vụ chỉnh sửa ảnh, cho phép chỉnh sửa văn bản chính xác. Hơn nữa, Qwen-Image-Edit đồng thời đưa hình ảnh đầu vào vào Qwen2.5-VL (để kiểm soát ngữ nghĩa trực quan) và Bộ mã hóa VAE (để kiểm soát hình thức trực quan), đạt được khả năng trong cả chỉnh sửa ngữ nghĩa và hình thức…
- 6 min read
Qwen-Image-Edit: Chỉnh sửa hình ảnh với chất lượng và hiệu quả cao hơn
QWEN CHAT GITHUB HUGGING FACE MODELSCOPE DISCORD
Chúng tôi rất vui mừng giới thiệu Qwen-Image-Edit, phiên bản chỉnh sửa hình ảnh của Qwen-Image. Được xây dựng dựa trên mô hình Qwen-Image 20B của chúng tôi, Qwen-Image-Edit đã mở rộng thành công khả năng hiển thị văn bản độc đáo của Qwen-Image vào các tác vụ chỉnh sửa hình ảnh, cho phép chỉnh sửa văn bản chính xác. Hơn nữa, Qwen-Image-Edit đồng thời đưa hình ảnh đầu vào vào Qwen2.5-VL (để điều khiển ngữ nghĩa trực quan) và Bộ mã hóa VAE (để điều khiển giao diện trực quan), đạt được khả năng trong cả chỉnh sửa ngữ nghĩa và giao diện. Để trải nghiệm mô hình mới nhất, hãy truy cập Qwen Chat và chọn tính năng “Chỉnh sửa hình ảnh”.
Các tính năng chính:
- Chỉnh sửa ngữ nghĩa và giao diện: Qwen-Image-Edit hỗ trợ cả chỉnh sửa giao diện trực quan cấp thấp (chẳng hạn như thêm, xóa hoặc sửa đổi các yếu tố, yêu cầu tất cả các vùng khác của hình ảnh vẫn giữ nguyên hoàn toàn) và chỉnh sửa ngữ nghĩa trực quan cấp cao (chẳng hạn như tạo IP, xoay đối tượng và chuyển đổi kiểu dáng, cho phép thay đổi pixel tổng thể trong khi duy trì tính nhất quán ngữ nghĩa).
- Chỉnh sửa văn bản chính xác: Qwen-Image-Edit hỗ trợ chỉnh sửa văn bản song ngữ (tiếng Trung và tiếng Anh), cho phép thêm, xóa và sửa đổi văn bản trong hình ảnh trực tiếp trong khi vẫn giữ nguyên phông chữ, kích thước và kiểu dáng ban đầu.
- Hiệu suất chuẩn mực mạnh mẽ: Việc đánh giá trên nhiều chuẩn mực công khai cho thấy Qwen-Image-Edit đạt được hiệu suất tốt nhất (SOTA) trong các tác vụ chỉnh sửa hình ảnh, thiết lập nó như một mô hình nền tảng mạnh mẽ cho việc chỉnh sửa hình ảnh.
Thể hiện
Một trong những điểm nổi bật của Qwen-Image-Edit nằm ở khả năng mạnh mẽ của nó đối với việc chỉnh sửa ngữ nghĩa và giao diện. Chỉnh sửa ngữ nghĩa đề cập đến việc sửa đổi nội dung hình ảnh trong khi vẫn giữ nguyên ngữ nghĩa trực quan ban đầu. Để trực quan minh họa khả năng này, hãy lấy linh vật của Qwen — Capybara — làm ví dụ:
Như có thể thấy, mặc dù hầu hết các điểm ảnh trong hình ảnh đã chỉnh sửa khác với các điểm ảnh trong hình ảnh đầu vào (hình ảnh bên trái nhất), nhưng tính nhất quán nhân vật của Capybara được bảo toàn hoàn hảo. Khả năng chỉnh sửa ngữ nghĩa mạnh mẽ của Qwen-Image-Edit cho phép tạo nội dung IP gốc dễ dàng và đa dạng. Hơn nữa, trên Qwen Chat, chúng tôi đã thiết kế một loạt lời nhắc chỉnh sửa xoay quanh 16 kiểu tính cách MBTI. Tận dụng những lời nhắc này, chúng tôi đã tạo thành công một bộ gói biểu tượng cảm xúc theo chủ đề MBTI dựa trên linh vật Capybara của mình, dễ dàng mở rộng phạm vi và cách thể hiện của IP.
Hơn nữa, tổng hợp khung nhìn mới là một kịch bản ứng dụng quan trọng khác trong chỉnh sửa ngữ nghĩa. Như thể hiện trong hai hình ảnh ví dụ bên dưới, Qwen-Image-Edit không chỉ có thể xoay các đối tượng 90 độ, mà còn thực hiện xoay 180 độ đầy đủ, cho phép chúng ta nhìn thấy mặt sau của đối tượng trực tiếp:
Một ứng dụng điển hình khác của chỉnh sửa ngữ nghĩa là chuyển đổi kiểu dáng. Ví dụ: nếu có một bức chân dung đầu vào, Qwen-Image-Edit có thể dễ dàng biến nó thành nhiều kiểu nghệ thuật khác nhau như Studio Ghibli. Khả năng này có giá trị quan trọng trong các ứng dụng như tạo avatar ảo:
Ngoài chỉnh sửa ngữ nghĩa, chỉnh sửa giao diện là một yêu cầu chỉnh sửa hình ảnh phổ biến khác. Chỉnh sửa giao diện nhấn mạnh việc giữ nguyên hoàn toàn một số vùng nhất định của hình ảnh trong khi thêm, xóa hoặc sửa đổi các yếu tố cụ thể. Hình ảnh bên dưới minh họa trường hợp một bảng hiệu được thêm vào cảnh. Như thể hiện, Qwen-Image-Edit không chỉ chèn thành công bảng hiệu mà còn tạo ra độ phản chiếu tương ứng, thể hiện sự chú ý đến từng chi tiết đặc biệt.
Dưới đây là một ví dụ thú vị khác, minh họa cách xóa các sợi tóc nhỏ và các đối tượng nhỏ khác khỏi hình ảnh.
Ngoài ra, màu sắc của một chữ cái cụ thể “n” trong hình ảnh có thể được sửa đổi thành màu xanh lam, cho phép chỉnh sửa chính xác các yếu tố cụ thể.
Chỉnh sửa giao diện cũng có các ứng dụng rộng rãi trong các kịch bản như điều chỉnh nền của một người hoặc thay đổi quần áo. Ba hình ảnh dưới đây minh họa các trường hợp sử dụng thực tế này:
Một tính năng nổi bật khác của Qwen-Image-Edit là khả năng chỉnh sửa văn bản chính xác, xuất phát từ chuyên môn sâu rộng của Qwen-Image về việc hiển thị văn bản. Như thể hiện bên dưới, hai trường hợp sau đây minh họa rõ ràng hiệu suất mạnh mẽ của Qwen-Image-Edit trong việc chỉnh sửa văn bản tiếng Anh:
Qwen-Image-Edit cũng có thể chỉnh sửa trực tiếp các áp phích tiếng Trung, cho phép không chỉ sửa đổi văn bản tiêu đề lớn mà còn điều chỉnh chính xác ngay cả các yếu tố văn bản nhỏ và phức tạp.
Cuối cùng, hãy cùng xem xét một ví dụ chỉnh sửa hình ảnh cụ thể để chứng minh cách sử dụng phương pháp chỉnh sửa theo chuỗi để dần dần sửa các lỗi trong tác phẩm thư pháp do Qwen-Image tạo ra:
Trong tác phẩm này, một số chữ Hán có chứa lỗi tạo. Chúng ta có thể tận dụng Qwen-Image-Edit để sửa chúng từng bước một. Ví dụ: chúng ta có thể vẽ các hộp giới hạn trên hình ảnh gốc để đánh dấu các vùng cần chỉnh sửa, hướng dẫn Qwen-Image-Edit sửa các vùng cụ thể này. Ở đây, chúng ta muốn chữ “稽” được viết chính xác trong hộp màu đỏ và chữ “亭” được hiển thị chính xác trong vùng màu xanh lam.
Tuy nhiên, trong thực tế, chữ “稽” khá khó hiểu và mô hình không thể sửa nó chính xác trong một bước. Thành phần dưới bên phải của “稽” phải là “旨” chứ không phải “日”. Tại thời điểm này, chúng ta có thể làm nổi bật thêm phần “日” bằng một hộp màu đỏ, hướng dẫn Qwen-Image-Edit tinh chỉnh chi tiết này và thay thế nó bằng “旨”.
Thật tuyệt vời phải không? Với phương pháp chỉnh sửa từng bước, theo chuỗi này, chúng ta có thể liên tục sửa các lỗi ký tự cho đến khi đạt được kết quả cuối cùng mong muốn.
Cuối cùng, chúng ta đã thành công trong việc có được một phiên bản thư pháp hoàn toàn chính xác của Lantingji Xu (Orchid Pavilion Preface)!
Tóm lại, chúng tôi hy vọng rằng Qwen-Image-Edit có thể thúc đẩy hơn nữa lĩnh vực tạo hình ảnh, thực sự giảm bớt các rào cản kỹ thuật đối với việc tạo nội dung trực quan và truyền cảm hứng cho nhiều ứng dụng sáng tạo hơn nữa.