AI lỏng đang cách mạng hóa LLM để hoạt động trên các thiết bị biên như điện thoại thông minh với mô hình 'Hyena Edge' mới

Liquid AI đang cách mạng hóa LLM để hoạt động trên các thiết bị biên như điện thoại thông minh với mô hình 'Hyena Edge' mới

  • 10 min read
AI lỏng đang cách mạng hóa LLM để hoạt động trên các thiết bị biên như điện thoại thông minh với mô hình 'Hyena Edge' mới
Liquid AI đang cách mạng hóa LLM để hoạt động trên các thiết bị biên như điện thoại thông minh với mô hình 'Hyena Edge' mới

Liquid AI is revolutionizing LLMs to work on edge devices like smartphones with new ‘Hyena Edge’ model

Hyena Edge’s success positions Liquid AI as one of the emerging players to watch in the evolving AI model landscape.

Liquid AI, the Boston-based foundation model startup spun out of the Massachusetts Institute of Technology (MIT), is seeking to move the tech industry beyond its reliance on the Transformer architecture underpinning most popular large language models (LLMs) such as OpenAI’s GPT series and Google’s Gemini family.

Yesterday, the company announced “Hyena Edge,” a new convolution-based, multi-hybrid model designed for smartphones and other edge devices in advance of the International Conference on Learning Representations (ICLR) 2025.

The conference, one of the premier events for machine learning research, is taking place this year in Vienna, Austria.

New convolution-based model promises faster, more memory-efficient AI at the edge

Hyena Edge is engineered to outperform strong Transformer baselines on both computational efficiency and language model quality.

In real-world tests on a Samsung Galaxy S24 Ultra smartphone, the model delivered lower latency, smaller memory footprint, and better benchmark results compared to a parameter-matched Transformer++ model.

A new architecture for a new era of edge AI

Unlike most small models designed for mobile deployment — including SmolLM2, the Phi models, and Llama 3.2 1B — Hyena Edge steps away from traditional attention-heavy designs. Instead, it strategically replaces two-thirds of grouped-query attention (GQA) operators with gated convolutions from the Hyena-Y family.

The new architecture is the result of Liquid AI’s Synthesis of Tailored Architectures (STAR) framework, which uses evolutionary algorithms to automatically design model backbones and was announced back in December 2024.

STAR explores a wide range of operator compositions, rooted in the mathematical theory of linear input-varying systems, to optimize for multiple hardware-specific objectives like latency, memory usage, and quality.

Benchmarked directly on consumer hardware

To validate Hyena Edge’s real-world readiness, Liquid AI ran tests directly on the Samsung Galaxy S24 Ultra smartphone.

Results show that Hyena Edge achieved up to 30% faster prefill and decode latencies compared to its Transformer++ counterpart, with speed advantages increasing at longer sequence lengths.

Prefill latencies at short sequence lengths also outpaced the Transformer baseline — a critical performance metric for responsive on-device applications.

In terms of memory, Hyena Edge consistently used less RAM during inference across all tested sequence lengths, positioning it as a strong candidate for environments with tight resource constraints.

Outperforming Transformers on language benchmarks

Hyena Edge was trained on 100 billion tokens and evaluated across standard benchmarks for small language models, including Wikitext, Lambada, PiQA, HellaSwag, Winogrande, ARC-easy, and ARC-challenge.

On every benchmark, Hyena Edge either matched or exceeded the performance of the GQA-Transformer++ model, with noticeable improvements in perplexity scores on Wikitext and Lambada, and higher accuracy rates on PiQA, HellaSwag, and Winogrande.

These results suggest that the model’s efficiency gains do not come at the cost of predictive quality — a common tradeoff for many edge-optimized architectures.

For those seeking a deeper dive into Hyena Edge’s development process, a recent video walkthrough provides a compelling visual summary of the model’s evolution.

The video highlights how key performance metrics — including prefill latency, decode latency, and memory consumption — improved over successive generations of architecture refinement.

It also offers a rare behind-the-scenes look at how the internal composition of Hyena Edge shifted during development. Viewers can see dynamic changes in the distribution of operator types, such as Self-Attention (SA) mechanisms, various Hyena variants, and SwiGLU layers.

These shifts offer insight into the architectural design principles that helped the model reach its current level of efficiency and accuracy.

By visualizing the trade-offs and operator dynamics over time, the video provides valuable context for understanding the architectural breakthroughs underlying Hyena Edge’s performance.

Open-source plans and a broader vision

Liquid AI said it plans to open-source a series of Liquid foundation models, including Hyena Edge, over the coming months. The company’s goal is to build capable and efficient general-purpose AI systems that can scale from cloud datacenters down to personal edge devices.

The debut of Hyena Edge also highlights the growing potential for alternative architectures to challenge Transformers in practical settings. With mobile devices increasingly expected to run sophisticated AI workloads natively, models like Hyena Edge could set a new baseline for what edge-optimized AI can achieve.

Hyena Edge’s success — both in raw performance metrics and in showcasing automated architecture design — positions Liquid AI as one of the emerging players to watch in the evolving AI model landscape.


Bản dịch tiếng Việt

Liquid AI đang cách mạng hóa LLM để hoạt động trên các thiết bị biên như điện thoại thông minh với mô hình ‘Hyena Edge’ mới

Thành công của Hyena Edge định vị Liquid AI là một trong những công ty mới nổi đáng chú ý trong bối cảnh mô hình AI đang phát triển.

Liquid AI, công ty khởi nghiệp về mô hình nền tảng có trụ sở tại Boston, tách ra từ Viện Công nghệ Massachusetts (MIT), đang tìm cách đưa ngành công nghệ vượt ra khỏi sự phụ thuộc vào kiến trúc Transformer làm nền tảng cho hầu hết các mô hình ngôn ngữ lớn (LLM) phổ biến như dòng GPT của OpenAI và dòng Gemini của Google.

Hôm qua, công ty đã công bố “Hyena Edge”, một mô hình đa lai dựa trên tích chập mới được thiết kế cho điện thoại thông minh và các thiết bị biên khác trước Hội nghị Quốc tế về Biểu diễn Học tập (ICLR) 2025.

Hội nghị, một trong những sự kiện hàng đầu cho nghiên cứu học máy, sẽ diễn ra trong năm nay tại Vienna, Áo.

Mô hình dựa trên tích chập mới hứa hẹn AI nhanh hơn, hiệu quả bộ nhớ hơn ở biên

Hyena Edge được thiết kế để vượt trội hơn các đường cơ sở Transformer mạnh về cả hiệu quả tính toán và chất lượng mô hình ngôn ngữ.

Trong các thử nghiệm thực tế trên điện thoại thông minh Samsung Galaxy S24 Ultra, mô hình này mang lại độ trễ thấp hơn, dung lượng bộ nhớ nhỏ hơn và kết quả điểm chuẩn tốt hơn so với mô hình Transformer++ phù hợp về tham số.

Một kiến trúc mới cho một kỷ nguyên AI biên mới

Không giống như hầu hết các mô hình nhỏ được thiết kế để triển khai trên thiết bị di động — bao gồm SmolLM2, các mô hình Phi và Llama 3.2 1B — Hyena Edge bước ra khỏi các thiết kế nặng về sự chú ý truyền thống. Thay vào đó, nó thay thế một cách chiến lược hai phần ba số toán tử chú ý truy vấn theo nhóm (GQA) bằng các tích chập được kiểm soát từ họ Hyena-Y.

Kiến trúc mới là kết quả của khung Tổng hợp Kiến trúc Tùy chỉnh (STAR) của Liquid AI, sử dụng các thuật toán tiến hóa để tự động thiết kế xương sống mô hình và đã được công bố vào tháng 12 năm 2024.

STAR khám phá một loạt các thành phần toán tử, bắt nguồn từ lý thuyết toán học về các hệ thống thay đổi đầu vào tuyến tính, để tối ưu hóa cho nhiều mục tiêu phần cứng cụ thể như độ trễ, mức sử dụng bộ nhớ và chất lượng.

Điểm chuẩn trực tiếp trên phần cứng tiêu dùng

Để xác thực khả năng sẵn sàng thực tế của Hyena Edge, Liquid AI đã chạy các thử nghiệm trực tiếp trên điện thoại thông minh Samsung Galaxy S24 Ultra.

Kết quả cho thấy Hyena Edge đạt được độ trễ điền trước và giải mã nhanh hơn tới 30% so với đối tác Transformer++, với lợi thế về tốc độ tăng lên ở độ dài chuỗi dài hơn.

Độ trễ điền trước ở độ dài chuỗi ngắn cũng vượt trội hơn đường cơ sở Transformer — một chỉ số hiệu suất quan trọng đối với các ứng dụng trên thiết bị phản hồi nhanh.

Về bộ nhớ, Hyena Edge liên tục sử dụng ít RAM hơn trong quá trình suy luận trên tất cả các độ dài chuỗi đã thử nghiệm, định vị nó là một ứng cử viên mạnh mẽ cho các môi trường có ràng buộc tài nguyên chặt chẽ.

Vượt trội hơn Transformers trên các điểm chuẩn ngôn ngữ

Hyena Edge được đào tạo trên 100 tỷ mã thông báo và được đánh giá trên các điểm chuẩn tiêu chuẩn cho các mô hình ngôn ngữ nhỏ, bao gồm Wikitext, Lambada, PiQA, HellaSwag, Winogrande, ARC-easy và ARC-challenge.

Trên mọi điểm chuẩn, Hyena Edge hoặc phù hợp hoặc vượt quá hiệu suất của mô hình GQA-Transformer++, với những cải tiến đáng chú ý về điểm số khó hiểu trên Wikitext và Lambada, và tỷ lệ chính xác cao hơn trên PiQA, HellaSwag và Winogrande.

Những kết quả này cho thấy rằng việc tăng hiệu quả của mô hình không phải trả giá bằng chất lượng dự đoán — một sự đánh đổi phổ biến đối với nhiều kiến trúc được tối ưu hóa cho biên.

Hyena Edge Evolution: Cái nhìn về hiệu suất và xu hướng toán tử

Đối với những người muốn tìm hiểu sâu hơn về quá trình phát triển của Hyena Edge, một video hướng dẫn gần đây cung cấp một bản tóm tắt trực quan hấp dẫn về sự phát triển của mô hình.

Video làm nổi bật cách các số liệu hiệu suất chính — bao gồm độ trễ điền trước, độ trễ giải mã và mức tiêu thụ bộ nhớ — được cải thiện qua các thế hệ tinh chỉnh kiến trúc kế tiếp.

Nó cũng cung cấp một cái nhìn hiếm hoi về hậu trường về cách thành phần bên trong của Hyena Edge thay đổi trong quá trình phát triển. Người xem có thể thấy những thay đổi năng động trong phân phối các loại toán tử, chẳng hạn như cơ chế Self-Attention (SA), các biến thể Hyena khác nhau và các lớp SwiGLU.

Những thay đổi này cung cấp thông tin chi tiết về các nguyên tắc thiết kế kiến trúc đã giúp mô hình đạt đến mức hiệu quả và độ chính xác hiện tại.

Bằng cách hình dung các sự đánh đổi và động lực toán tử theo thời gian, video cung cấp bối cảnh có giá trị để hiểu những đột phá kiến trúc làm nền tảng cho hiệu suất của Hyena Edge.

Các kế hoạch mã nguồn mở và tầm nhìn rộng hơn

Liquid AI cho biết họ có kế hoạch mở mã nguồn cho một loạt các mô hình nền tảng Liquid, bao gồm Hyena Edge, trong những tháng tới. Mục tiêu của công ty là xây dựng các hệ thống AI đa năng có khả năng và hiệu quả, có thể mở rộng từ các trung tâm dữ liệu đám mây xuống các thiết bị biên cá nhân.

Sự ra mắt của Hyena Edge cũng làm nổi bật tiềm năng ngày càng tăng của các kiến trúc thay thế để thách thức Transformers trong các cài đặt thực tế. Với việc các thiết bị di động ngày càng được kỳ vọng sẽ chạy các khối lượng công việc AI phức tạp một cách tự nhiên, các mô hình như Hyena Edge có thể thiết lập một đường cơ sở mới cho những gì AI được tối ưu hóa cho biên có thể đạt được.

Thành công của Hyena Edge — cả về số liệu hiệu suất thô và trong việc giới thiệu thiết kế kiến trúc tự động — định vị Liquid AI là một trong những công ty mới nổi đáng chú ý trong bối cảnh mô hình AI đang phát triển.

Recommended for You

Có thật là sếp của bạn đang gọi không? Jericho Security huy động được 15 triệu đô la để ngăn chặn gian lận deepfake, gây thiệt hại cho các doanh nghiệp 200 triệu đô la chỉ riêng trong năm 2025

Có thật là sếp của bạn đang gọi không? Jericho Security huy động được 15 triệu đô la để ngăn chặn gian lận deepfake, gây thiệt hại cho các doanh nghiệp 200 triệu đô la chỉ riêng trong năm 2025

Jericho Security huy động được 15 triệu đô la để ngăn chặn gian lận deepfake, gây thiệt hại cho các doanh nghiệp 200 triệu đô la chỉ riêng trong năm 2025

Phép tính AI mới Lợi thế chi phí 80% của Google so với hệ sinh thái của OpenAI

Phép tính AI mới Lợi thế chi phí 80% của Google so với hệ sinh thái của OpenAI

Phép tính AI mới Lợi thế chi phí 80% của Google so với hệ sinh thái của OpenAI