Đặc điểm không đồng nhất của sự chú ý dựa trên RoPE trong LLM ngữ cảnh dài
Đặc điểm không đồng nhất của sự chú ý dựa trên RoPE trong LLM ngữ cảnh dài
- 12 min read
The Heterogeneous Feature of RoPE-based Attention in Long-Context LLMs
This article is based on an oral presentation delivered on July 13 and 14, 2025, at the Joint Academic Workshop of HIT, THU, and FDU (held at Fudan University) and at the workshop of Shanghai Innovation Institute.
Tóm tắt nhanh: Trong bài trình bày này, chúng tôi giới thiệu về hiện tượng đặc trưng không đồng nhất của Attention trong LLMs ngữ cảnh dài, hiện tượng mà các thành phần attention theo các chiều qk khác nhau đóng vai trò khác nhau trong LLMs ngữ cảnh dài. Chúng tôi khám phá và giải thích sự không đồng nhất này từ góc độ RoPE, sau đó tận dụng nó để ngoại suy độ dài, tối ưu hóa bộ nhớ đệm và mô hình hóa video dài.
Mục lục
Giới thiệu
Xin chào buổi chiều quý giáo sư và các bạn sinh viên. Tôi rất vinh dự được có mặt ở đây ngày hôm nay. Tôi là Xiaoran Liu, nghiên cứu sinh tiến sĩ tại FNLP. Chủ đề bài trình bày hôm nay của tôi là Đặc trưng không đồng nhất của Attention trong LLMs ngữ cảnh dài.
Có hai từ khóa trong tiêu đề này. Từ khóa đầu tiên là ngữ cảnh dài. Xử lý ngữ cảnh dài từ lâu đã là một chủ đề quan trọng trong NLP. Từ góc độ lịch sử, việc theo đuổi độ dài ngữ cảnh dài hơn đã thúc đẩy sự phát triển của các kiến trúc mô hình: từ Bag-of-Words không có ngữ cảnh, đến CNN, RNN và LSTM với ngữ cảnh hạn chế, sau đó đến Transformers ngày nay, và thậm chí cả những đối thủ cạnh tranh gần đây như RWKV và Mamba. Việc theo đuổi ngữ cảnh dài hơn liên tục truyền cảm hứng cho các kiến trúc mới. Trong kỷ nguyên LLMs, ngữ cảnh dài luôn là một lợi thế cạnh tranh cốt lõi. LLMs đã mở rộng cửa sổ ngữ cảnh của chúng từ 2K token ban đầu lên hàng triệu token ngày nay.

Từ khóa thứ hai là attention, đặc biệt là điểm attention. Điểm attention đã là một hiểu biết quan trọng đằng sau nhiều công trình có ảnh hưởng trong nghiên cứu ngữ cảnh dài. Một ví dụ điển hình là StreamingLLM (ICLR’24), phát hiện ra rằng điểm attention của LLMs cho thấy các đỉnh đặc biệt mạnh mẽ xung quanh các token ban đầu và gần đây. Bằng cách duy trì sự chú ý vào hai phần này, LLM có thể duy trì hiệu suất ổn định khi xử lý các đầu vào dài. Công trình này đã được chấp nhận tại ICLR năm ngoái và có ảnh hưởng lớn. Dựa trên điều này, các tác giả cũng đã đề xuất một phương pháp tối ưu hóa bộ nhớ đệm, DuoAttention (ICLR'25), để duy trì hiệu suất truy xuất trong ngữ cảnh dài. Ngoài tối ưu hóa bộ nhớ đệm, điểm attention còn có thể được sử dụng để làm thưa động nhằm tăng tốc độ suy luận ngữ cảnh dài, chẳng hạn như Minference (NeurIPS’24 Spotlight).

Tuy nhiên, các nghiên cứu này coi điểm attention như một thể thống nhất, thiếu phân tích về cách các chiều khác nhau của q và k đóng góp khác nhau vào điểm số tổng thể. Khoảng trống này đã được đề cập trong một số nghiên cứu rất gần đây, điều này cũng dẫn chúng ta đến trọng tâm của ngày hôm nay, đặc trưng không đồng nhất. Bài nói chuyện này sẽ tập trung vào việc khám phá và sử dụng các đặc trưng không đồng nhất, đồng thời giới thiệu các nghiên cứu liên quan về ngữ cảnh dài từ phòng thí nghiệm của chúng tôi.
Định nghĩa
Vậy, đặc trưng không đồng nhất là gì? Đặc trưng không đồng nhất đề cập đến hiện tượng mà các thành phần attention dọc theo các chiều qk khác nhau đóng vai trò khác nhau trong sự chú ý của LLMs ngữ cảnh dài. Dưới đây là hai ví dụ:
Quan sát
Đầu tiên, từ góc độ truy xuất ngữ cảnh dài, chúng ta biết rằng hầu hết điểm attention được phân bổ cho các token ban đầu và gần đây, như đã nêu trong StreamingLLM, và điểm attention là tổng của 128 tích qk theo từng phần tử trên các chiều. Nếu chúng ta chia tổng này, ví dụ, 70 chiều đầu tiên so với 58 chiều cuối cùng, chúng ta thấy rằng các chiều thấp hơn chịu trách nhiệm cho điểm attention cao trên các token gần đây, và các chiều cao hơn chịu trách nhiệm cho điểm attention trên các token ban đầu. Dựa trên điều này, nếu chúng ta thêm nhiễu vào 70 chiều đầu tiên, hiệu suất NIAH (Needle-In-A-Haystack) của LLMs hầu như không thay đổi. Nhưng nếu chúng ta thêm cùng một nhiễu vào 58 chiều cuối cùng, ngay cả khi chúng ít hơn, hiệu suất NIAH sẽ suy giảm đáng kể. Hiện tượng này được quan sát nhất quán trong cả mô hình LLaMA và Qwen.

Từ góc độ ngoại suy độ dài, chúng ta kiểm tra cách các thành phần điểm attention từ các chiều thấp và cao dao động trong và vượt quá độ dài ngữ cảnh đã được huấn luyện của mô hình. Chúng ta thấy rằng các chiều thấp hơn vẫn ổn định cho dù có ngoại suy hay không, trong khi các chiều cao hơn cho thấy sự dao động bất thường khi chỉ số token vượt quá độ dài ngữ cảnh tối đa được hỗ trợ, và vị trí của những dao động này tương quan mạnh mẽ với nơi xảy ra sự tăng đột biến về perplexity. Do đó, chúng ta quan sát thấy các chiều qk thấp và cao thể hiện các đặc trưng không đồng nhất.

Giải thích
Vậy các đặc trưng không đồng nhất này đến từ đâu? Chúng tôi tin rằng nguồn gốc là Rotary Position Embedding (RoPE). Tại sao RoPE lại gây ra các đặc trưng không đồng nhất. Như đã biết, RoPE mã hóa thông tin vị trí bằng cách sử dụng các hàm sin hoặc cos với các góc xoay khác nhau, tức là tần số, trên các chiều qk. Cấu trúc này thừa hưởng hai đặc tính toán học của hàm hình sin: tính chu kỳ và tính đơn điệu.
Các chiều thấp tương ứng với chu kỳ ngắn hoặc tần số cao, và quan sát thấy các chu kỳ hoàn chỉnh (thậm chí nhiều chu kỳ) trong quá trình tiền huấn luyện. Các chiều cao tương ứng với chu kỳ dài hoặc tần số thấp, và chỉ nhìn thấy một phần của chu kỳ (ví dụ: chỉ nửa dương) trong quá trình tiền huấn luyện. Ngoài ra, các chiều thấp có các khoảng đơn điệu ngắn, do đó các vị trí tương đối khác nhau có thể bị sụp đổ thành cùng một embedding, tương tự như va chạm băm. Các chiều cao có các khoảng đơn điệu dài, cho phép chúng duy trì thứ tự bộ phận tốt trên các ngữ cảnh dài và do đó nắm bắt các phụ thuộc ngữ nghĩa ngữ cảnh dài. Do đó, chúng ta có một kết luận có vẻ kỳ lạ nhưng thực sự hợp lý rằng, tính chu kỳ hạn chế khả năng ngoại suy của các chiều cao, trong khi tính đơn điệu làm cho các chiều cao chịu trách nhiệm mô hình hóa ngữ nghĩa ngữ cảnh dài.

Để thay thế khái niệm mơ hồ về thấp và cao, chúng tôi đưa ra một định nghĩa toán học. Đó là chiều quan trọng. Chiều quan trọng là số lượng chiều mà RoPE hoàn thành một chu kỳ đầy đủ trong cửa sổ ngữ cảnh tiền huấn luyện. Các chiều trước và sau chiều quan trọng tương ứng chính xác với các hành vi không đồng nhất đã mô tả trước đó.

Ứng dụng
Sau đó, một câu hỏi đặt ra. Làm thế nào để tận dụng đặc trưng không đồng nhất?
Ngoại suy độ dài
Hầu hết các phương pháp mở rộng ngữ cảnh (ví dụ: dựa trên NTK) sửa đổi cơ sở xoay của RoPE. Sử dụng chiều quan trọng, chúng ta có thể ước tính độ dài ngữ cảnh có thể ngoại suy tối đa bằng cách tính toán khoảng cách mà chu kỳ của chiều quan trọng kéo dài sau khi thay đổi tỷ lệ. Như thể hiện trong công thức của chúng tôi, giới hạn ước tính này phù hợp với độ dài ngữ cảnh tối đa được hỗ trợ, cho phép chúng ta có quy luật thay đổi tỷ lệ cho ngoại suy dựa trên RoPE ( arXiv ). Nghịch đảo công thức này cho chúng ta biết cần phải thay đổi tỷ lệ cơ sở xoay bao nhiêu để đạt được độ dài ngữ cảnh mong muốn, do đó cho phép ngữ cảnh hàng triệu token. Công trình này đã được chấp nhận tại ICLR’24.
$$T_\text{extra} = \max\left(T_\text{tune}, 2\pi\cdot\beta^{\lceil\frac{2}{d}\log_{10000}{\frac{T_\text{train}}{2\pi}}\rceil\frac{2}{d}}\right),\quad \beta_\text{extra} = {10000}^{\log_{\frac{T_\text{Train}}{2\pi}}{\frac{T_\text{extra}}{2\pi}}}$$
Tối ưu hóa bộ nhớ đệm
Vì chỉ có số lượng chiều tương đối ít sau chiều quan trọng là quan trọng đối với ngữ cảnh dài, các chiều còn lại có thể được nén. Lấy cảm hứng từ framework HiPPO, chúng tôi đề xuất FourierAttention ( arXiv , Github ), mở rộng các chiều không nhạy cảm với ngữ cảnh dài bằng một cơ sở có bậc cố định (Ở đây, chúng tôi chọn các hàm Fourier) và chỉ lưu trữ các hệ số mở rộng có kích thước cố định để biểu diễn bộ nhớ đệm KV dài tùy ý. Cơ sở Fourier hoạt động tốt nhất trong số các lựa chọn ứng cử viên và mang lại kết quả NIAH gần nhất với mô hình đã tiền huấn luyện.

Quan trọng hơn, biến đổi Fourier cho phép nén và giải nén song song hiệu quả. Sử dụng Triton, chúng tôi viết lại toán tử FlashAttention để hợp nhất phép biến đổi Fourier nghịch đảo vào FlashDecoding, loại bỏ nhu cầu tạo ra bộ nhớ đệm KV đầy đủ trong quá trình suy luận. Kết quả là, trên một GPU đơn lẻ, chúng tôi hỗ trợ ngữ cảnh dài hơn các phương pháp cạnh tranh, giảm đáng kể bộ nhớ và giữ nguyên độ trễ tương tự.

Đa phương thức
Đặc trưng không đồng nhất cũng giúp ích cho việc nhúng vị trí đa phương thức. Trong bài báo ICML’25 Oral của chúng tôi, VideoRoPE ( arXiv , Github ), chúng tôi phân tích có hệ thống các nguyên tắc thiết kế cho nhúng vị trí video. Các chiều cao (tần số thấp) nắm bắt các phụ thuộc thời gian tầm xa, trong khi các chiều thấp (tần số cao) nắm bắt ngữ nghĩa không gian cục bộ. Điều này cải thiện đáng kể việc mô hình hóa và truy xuất video dài. Chúng tôi tiếp tục đề xuất VideoRoPE++, VideoRoPE dựa trên phương pháp ngoại suy YaRN-V, và bộ đánh giá phân biệt V-RULER.

Diffusion LM
Sau đó, một câu hỏi khác nảy sinh. Đặc trưng không đồng nhất có mở rộng ra ngoài attention tự hồi quy không?
Có. Điều này được chứng minh bằng công trình gần đây của chúng tôi, LongLLaDA (sau đó được chấp nhận bởi AAAI’26, arXiv , Github ), công trình đầu tiên về ngoại suy độ dài cho các mô hình ngôn ngữ dựa trên khuếch tán. Không giống như các mô hình tự hồi quy với attention một chiều, dLLMs sử dụng attention hai chiều, do đó tất cả các chiều đều nhất thiết phải mã hóa cả vị trí dương và âm. Do đó, dLLMs tự nhiên ngoại suy, nhưng chỉ duy trì nhận thức cục bộ hiệu quả, tương tự như cửa sổ trượt—truy xuất bị hạn chế trong phạm vi ngữ cảnh đã tiền huấn luyện.

Mặc dù có sự khác biệt này, dLLMs cũng có một số chiều chưa thấy hết các chu kỳ nhúng vị trí trong quá trình tiền huấn luyện, do đó chúng cũng thể hiện các chiều quan trọng và đặc trưng không đồng nhất. Điều này tạo ra một quy luật thay đổi tỷ lệ cho ngoại suy trong dLLMs. Sử dụng điều này, chúng tôi đã mở rộng cửa sổ ngữ cảnh của LLaDA gấp 6 lần theo cách cắm và chạy.
Kết luận
Từ các nghiên cứu trên, chúng ta thấy rằng việc khám phá xử lý ngữ cảnh dài bao gồm nhiều hơn là chỉ tăng độ dài ngữ cảnh. Nó bao gồm hiệu quả, mở rộng đa phương thức, và nhiều khía cạnh khác, kiến trúc, cơ sở hạ tầng, huấn luyện và đánh giá. Trong hai năm qua, nhóm của chúng tôi tại FNLP đã khám phá rộng rãi các hướng đi này và đạt được tiến bộ trên mọi mặt, được tóm tắt trong bài khảo sát của chúng tôi Thus Spake Long-Context Large Language Models ( arXiv , Github ), cũng là sự tôn kính đối với bản giao hưởng thơ Thus Spoke Zarathustra.
Xin cảm ơn tất cả các đồng tác giả đã hợp tác và cảm ơn các bạn đã lắng nghe.
Trích dẫn
@article{liu2023scaling, title={Scaling Laws of RoPE-based Extrapolation}, author={Liu, Xiaoran and Yan, Hang and Zhang, Shuo and An, Chenxin and Qiu, Xipeng and Lin, Dahua}, journal={arXiv preprint arXiv:2310.05209}, year={2023} }
@article{liu2025beyond, title={Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache}, author={Liu, Xiaoran and He, Siyang and Wang, Qiqi and Li, Ruixiao and Song, Yuerong and Liu, Zhigeng and Huang, Mianqiu and Huang, Zengfeng and Guo, Qipeng and He, Ziwei He and Qiu, Xipeng}, journal={arXiv preprint arXiv:2506.11886}, year={2025} }
@article{wei2025videorope, title={VideoRoPE: What Makes for Good Video Rotary Position Embedding?}, author={Wei, Xilin and Liu, Xiaoran and Zang, Yuhang and Dong, Xiaoyi and Zhang, Pan and Cao, Yuhang and Tong, Jian and Duan, Haodong and Guo, Qipeng and Wang, Jiaqi and Qiu, Xipeng and Lin, Dahua}, journal={arXiv preprint arXiv:2502.05173}, year={2025} }
@article{liu2025longllada, title={LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs}, author={Liu, Xiaoran and Liu, Zhigeng and Huang, Zengfeng and Guo, Qipeng and He, Ziwei and Qiu, Xipeng}, journal={arXiv preprint arXiv:2506.14429}, year={2025} }
@article{liu2025thus, title={Thus Spake Long-Context Large Language Model}, author={Liu, Xiaoran and Li, Ruixiao and Huang, Mianqiu and Liu, Zhigeng and Song, Yuerong and Guo, Qipeng and He, Siyang and Wang, Qiqi and Li, Linlin and Liu, Qun and He, Ziwei and Zhou, Yaqian and Huang, Xuanjing and Qiu, Xipeng}, journal={arXiv preprint arXiv:2502.17129}, year={2025} }
Link bài viết gốc
- Tags:
- Ai
- 4 Days Ago
- Huggingface.co