Qwen3.5- Không Ai Đồng Ý Về Attention Nữa
Bài viết thảo luận về sự bất đồng quan điểm xung quanh cơ chế Attention trong mô hình Qwen3.5.
- 8 min read
Qwen3.5: Không ai còn đồng ý về Attention nữa
Vào ngày 16 tháng 2 năm 2026, nhóm Qwen của Alibaba đã ra mắt Qwen3.5-397B-A17B, mô hình nền tảng thế hệ tiếp theo của họ. Nếu bạn cảm thấy quen thuộc với thời điểm phát hành gần các ngày lễ, thì đó là điều dễ hiểu. GLM-5 ra mắt vào ngày 11 tháng 2. MiniMax M2.5 cũng xuất hiện cùng ngày. Kimi K2.5 đến vào ngày 27 tháng 1. Và bây giờ Qwen3.5 kết thúc giai đoạn trước kỳ nghỉ lễ. Hãy xem nó so sánh như thế nào với các sản phẩm khác.

Qwen3.5 Thực sự là gì
Qwen3.5-397B-A17B là một mô hình Mixture-of-Experts (MoE) với 397 tỷ tham số, chỉ sử dụng 17 tỷ tham số hoạt động trên mỗi token. Phiên bản API được lưu trữ có tên là Qwen3.5-Plus, với cửa sổ ngữ cảnh 1 triệu token, tích hợp sẵn các công cụ và khả năng sử dụng công cụ thích ứng ngay lập tức.

Các cải tiến chính bao gồm:
-
Kiến trúc Attention Lai (Hybrid Attention Architecture). Đây là một bước đột phá lớn về kiến trúc. Qwen3.5 kế thừa từ dòng Qwen3-Next, kết hợp Gated Delta Networks (một biến thể của linear attention) với Mixture-of-Experts thưa thớt. Mô hình luân phiên giữa các lớp Gated DeltaNet (linear attention) và các lớp attention đầy đủ theo tỷ lệ khoảng 3:1. Sebastian Raschka đã có một bài viết xuất sắc về cách thức hoạt động của nó, nhưng tóm lại là: cứ bốn khối transformer thì ba khối sử dụng linear attention (tỷ lệ với độ dài chuỗi gần như tuyến tính), và cứ khối thứ tư thì sử dụng attention đầy đủ tiêu chuẩn. Kết quả là một mô hình có thể xử lý ngữ cảnh dài hiệu quả hơn so với attention đầy đủ. Cơ chế Gated DeltaNet tự nó rút ra từ bài báo “Gated Delta Networks: Improving Mamba2 with Delta Rule”. Nó kết hợp cơ chế gated decay của Mamba2 với quy tắc delta để cập nhật các trạng thái ẩn. Gating đầu ra attention giúp loại bỏ các điểm tập trung attention (attention sinks) và các kích hoạt lớn, cải thiện sự ổn định khi huấn luyện ở quy mô lớn.
-
RL có khả năng mở rộng ở quy mô Agent. Qwen3.5 được huấn luyện bằng học tăng cường (reinforcement learning) được mở rộng trên những gì nhóm mô tả là “môi trường triệu agent với các phân phối tác vụ ngày càng phức tạp”. Điều này theo xu hướng mà chúng ta đã thấy từ Forge của MiniMax và Slime của Zhipu: cơ sở hạ tầng RL không đồng bộ được thiết kế để xử lý bản chất dài hạn, nhiều bước của các tác vụ agentic. Chi tiết ở đây còn khá ít trong bản phát hành ban đầu, nhưng sự nhấn mạnh vào “khả năng thích ứng mạnh mẽ với thế giới thực” cho thấy họ đã đầu tư rất nhiều vào sự đa dạng của môi trường trong quá trình hậu huấn luyện RL.
-
Nền tảng Vision-Language Thống nhất. Không giống như Qwen3, vốn có các dòng mô hình văn bản và hình ảnh riêng biệt (Qwen3 và Qwen3-VL), Qwen3.5 là mô hình đa phương thức tự nhiên ngay từ đầu. Huấn luyện tích hợp sớm trên các token đa phương thức có nghĩa là mô hình không cần bộ điều hợp hình ảnh riêng biệt. Nhóm tuyên bố hiệu suất tương đương thế hệ trước với Qwen3 trên các tác vụ văn bản trong khi vượt trội hơn Qwen3-VL về khả năng hiểu hình ảnh.
-
201 Ngôn ngữ. Mở rộng từ 119 ngôn ngữ của Qwen3 lên 201 ngôn ngữ và phương ngữ. Đây là phạm vi hỗ trợ ngôn ngữ rộng nhất so với bất kỳ mô hình mở nào mà tôi biết. Lưu ý rằng Qwen có xu hướng rất hào phóng với định nghĩa “hỗ trợ ngôn ngữ” của mình, và chất lượng không được đảm bảo cho các ngôn ngữ có tài nguyên thấp.
Attention & Sparsity
Cơ chế attention hiệu quả và tăng cường sparsity là hai xu hướng phổ biến với các bản phát hành gần đây. Mặc dù DeepSeek tiên phong trong lĩnh vực này, mọi phòng thí nghiệm lớn của Trung Quốc đều có cách tiếp cận riêng về cách xử lý attention:

Qwen3.5 và Kimi K2.5 đều áp dụng tỷ lệ lai 3:1 của linear-to-full attention, nhưng cách triển khai của chúng khác nhau: Qwen sử dụng scalar gating trên các lớp DeltaNet với attention có cổng cho các khối attention đầy đủ, trong khi Kimi sử dụng channel-wise gating (KDA) và kết hợp Multi-Head Latent Attention (MLA) từ DeepSeek V3. GLM-5 giữ nguyên Transformer quen thuộc nhưng bổ sung DeepSeek Sparse Attention ( DSA ) cho sparsity ở cấp độ token, cộng với MLA. MiniMax hoàn toàn sử dụng linear với Lightning Attention độc quyền.
Số lượng tham số hoạt động cũng rất đáng để xem xét. Với 17B tham số hoạt động, Qwen3.5 thưa thớt hơn nhiều so với Qwen3-235B-A22B, nhưng tương đương với các bản phát hành gần đây khác:

Đáng chú ý, MiniMax M2.5 có số lượng tham số hoạt động nhỏ nhất ở mức 10B và tỷ lệ kích hoạt tương tự Qwen3.5. Kimi K2.5 thậm chí còn thưa thớt hơn nhưng cũng lớn hơn đáng kể với 1T tham số tổng.
Benchmarks

-
Lập luận và Toán học. Qwen3.5 đạt 91.3 trên AIME 2026 và 94.8 trên HMMT Feb 25, đây là mức cạnh tranh nhưng thấp hơn các mô hình hoạt động tốt nhất (GPT-5.2 đạt 96.7 trên AIME 2026, Claude 93.3). Khả năng toán học tốt nhưng không chiếm ưu thế.
-
Kiến thức và Tuân thủ Hướng dẫn. Trên IFBench, nó đạt 76.5, vượt qua mọi mô hình trong so sánh, bao gồm cả GPT-5.2 (75.4) và bỏ xa Claude (58.0). MultiChallenge cho thấy câu chuyện tương tự: 67.6 so với 57.9 của GPT-5.2 và 54.2 của Claude. Mô hình có vẻ cực kỳ giỏi trong việc tuân theo các hướng dẫn phức tạp nhưng cần được xác nhận bằng kiểm tra thực tế.

-
Agents. Các benchmark agentic vẽ nên một bức tranh thú vị. Qwen3.5 đạt 86.7 trên Tau2-Bench, chỉ đứng sau Claude (91.6). Trên MCPMark, nó đạt 46.1 so với 57.5 của GPT-5.2 và 42.3 của Claude. Trên BrowseComp, Qwen3.5 báo cáo hai con số tùy thuộc vào chiến lược: 69.0 với chiến lược gấp ngữ cảnh đơn giản và 78.6 sử dụng cùng chiến lược loại bỏ tất cả như DeepSeek-V3.2 và K2.5. Sự chia tách BrowseComp đáng chú ý vì nó nhấn mạnh mức độ điểm số agentic ngày càng phụ thuộc vào các lựa chọn scaffolding, chứ không chỉ khả năng thô.
-
Lập trình. Qwen3.5 đạt 76.4 trên SWE-bench Verified, về cơ bản ngang bằng với K2.5 (76.8) và Gemini 3 Pro (76.2), nhưng sau GPT-5.2 (80.0) và Claude (80.9). Trên SWE-bench Multilingual, nó làm tốt hơn với 72.0, ngang bằng GPT-5.2. SecCodeBench là một điểm mạnh: 68.3, ngang bằng GPT-5.2 (68.7) và Claude (68.6).
-
Vision. Là một mô hình đa phương thức tự nhiên, Qwen3.5 vượt trội ở đây. Nó đạt 85.0 trên MMMU (tăng từ 80.6 của Qwen3-VL!), 88.6 trên MathVision (vượt trước 86.6 của Gemini 3 Pro) và 90.8 trên OmniDocBench. Kết quả agent thị giác cũng vững chắc: 62.2 trên OSWorld-Verified và 66.8 trên AndroidWorld. Kết quả ZEROBench là 12 (so với 10 của Gemini và 9 của GPT-5.2) đáng chú ý với độ khó cực cao của benchmark này.
Qwen3.5 không phải là tốt nhất ở bất kỳ danh mục nào, nhưng nó cực kỳ toàn diện và dẫn đầu về khả năng tuân thủ hướng dẫn. Nó vượt trội đáng kể so với Qwen3-Max-Thinking của chính nó trên tất cả các phương diện mặc dù nhỏ hơn nhiều (397B so với 1T+).
Bức tranh lớn hơn
-
Cơ chế attention là chiến trường mới. Một năm trước, câu hỏi là “MoE hay dense?”. Điều đó đã được giải quyết (và chúng ta có thể cảm ơn Llama 4 vì điều này). Bây giờ sự khác biệt nằm ở cách bạn xử lý attention: lai linear-full (Qwen3.5, K2.5), hoàn toàn linear (MiniMax), lựa chọn sparse (GLM-5). Dấu ấn của DeepSeek có mặt ở khắp mọi nơi (MLA trong K2.5 và GLM-5, DSA trong GLM-5), nhưng Gated DeltaNet hybrid từ Qwen3.5 (và được khởi xướng trong Qwen3-Next) mang đến một hướng đi mới.
-
Bối cảnh benchmark đã thay đổi để phù hợp với các khối lượng công việc agentic. Cả bốn sản phẩm ra mắt đều nhắm đến các tác vụ agentic. Các mô hình được đánh giá trên SWE-bench, BrowseComp, HLE với công cụ, TAU2-Bench và MCPMark. Kỷ nguyên của các benchmark chatbot với tư cách là trục đánh giá chính đã kết thúc. Sự phân tách BrowseComp của Qwen3.5 (69.0 so với 78.6 tùy thuộc vào chiến lược) là một lời nhắc nhở rằng điểm số agentic ngày càng là một hàm của scaffolding và quản lý ngữ cảnh, chứ không chỉ là trí thông minh thô.
Sắp tới
Việc Qwen3.5 chỉ ra mắt phiên bản 397B-A17B vào ngày đầu tiên (“sẽ có thêm nhiều kích cỡ”) cho thấy chúng ta sẽ thấy một loạt sản phẩm tương tự như Qwen3. Sẽ rất thú vị để xem liệu các biến thể nhỏ hơn cũng sẽ áp dụng kiến trúc DeltaNet lai hay không. Đối với bản phát hành này, có vẻ như Qwen3-Next đã hé lộ hướng đi này (trở lại tháng 9), nhưng Qwen3.5 là sự xác nhận ở quy mô sản xuất.
Liên kết nhanh:
- Trọng lượng mô hình: https://huggingface.co/Qwen/Qwen3.5-397B-A17B
- GitHub: https://github.com/QwenLM/Qwen3.5
- Blog: https://qwen.ai/blog?id=qwen3.5