Liquid AI muốn cung cấp cho điện thoại thông minh AI nhỏ, nhanh có thể nhìn thấy bằng mô hình LFM2-VL mới

Liquid AI muốn cung cấp cho điện thoại thông minh AI nhỏ, nhanh có thể nhìn thấy bằng mô hình LFM2-VL mới.

  • 6 min read
Liquid AI muốn cung cấp cho điện thoại thông minh AI nhỏ, nhanh có thể nhìn thấy bằng mô hình LFM2-VL mới
Liquid AI muốn cung cấp cho điện thoại thông minh AI nhỏ, nhanh có thể nhìn thấy bằng mô hình LFM2-VL mới.

Liquid AI muốn cung cấp cho điện thoại thông minh AI nhỏ, nhanh có thể nhìn thấy với mô hình LFM2-VL mới

Liquid AI đã phát hành LFM2-VL, một thế hệ mô hình nền tảng ngôn ngữ thị giác mới được thiết kế để triển khai hiệu quả trên nhiều loại phần cứng — từ điện thoại thông minh và máy tính xách tay đến thiết bị đeo và hệ thống nhúng.

Các mô hình hứa hẹn hiệu suất độ trễ thấp, độ chính xác cao và tính linh hoạt cho các ứng dụng trong thế giới thực.

LFM2-VL xây dựng trên kiến trúc LFM2 hiện có của công ty được giới thiệu cách đây hơn một tháng với tư cách là “các mô hình nền tảng trên thiết bị nhanh nhất trên thị trường” nhờ vào phương pháp tạo “trọng số” hoặc cài đặt mô hình ngay lập tức cho mỗi đầu vào (được gọi là hệ thống Linear Input-Varying (LIV)), mở rộng nó thành xử lý đa phương thức hỗ trợ cả đầu vào văn bản và hình ảnh ở độ phân giải thay đổi.

Theo Liquid AI, các mô hình cung cấp tốc độ suy luận GPU gấp đôi so với các mô hình ngôn ngữ thị giác tương đương, đồng thời duy trì hiệu suất cạnh tranh trên các điểm chuẩn phổ biến.

“Hiệu quả là sản phẩm của chúng tôi,” đồng sáng lập và Giám đốc điều hành của Liquid AI, Ramin Hasani đã viết trong một bài đăng trên X thông báo về dòng mô hình mới:

Hai biến thể cho các nhu cầu khác nhau

Bản phát hành bao gồm hai kích thước mô hình:

  • LFM2-VL-450M — một mô hình siêu hiệu quả với ít hơn nửa tỷ tham số (cài đặt bên trong) nhằm vào các môi trường bị hạn chế tài nguyên cao.
  • LFM2-VL-1.6B — một mô hình có khả năng hơn vẫn đủ nhẹ để triển khai trên một GPU và trên thiết bị.

Cả hai biến thể đều xử lý hình ảnh ở độ phân giải gốc lên đến 512×512 pixel, tránh biến dạng hoặc tăng tỷ lệ không cần thiết.

Đối với hình ảnh lớn hơn, hệ thống áp dụng vá không chồng chéo và thêm hình thu nhỏ cho ngữ cảnh toàn cục, cho phép mô hình nắm bắt cả chi tiết tốt và cảnh rộng hơn.

Thông tin cơ bản về Liquid AI

Liquid AI được thành lập bởi các cựu nhà nghiên cứu từ Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL) của MIT với mục tiêu xây dựng các kiến trúc AI vượt ra ngoài mô hình transformer được sử dụng rộng rãi.

Đổi mới hàng đầu của công ty, Liquid Foundation Models (LFMs), dựa trên các nguyên tắc từ hệ thống động lực, xử lý tín hiệu và đại số tuyến tính số, tạo ra các mô hình AI đa năng có khả năng xử lý văn bản, video, âm thanh, chuỗi thời gian và các dữ liệu tuần tự khác.

Không giống như các kiến trúc truyền thống, phương pháp của Liquid nhằm mục đích mang lại hiệu suất cạnh tranh hoặc vượt trội bằng cách sử dụng ít tài nguyên tính toán hơn đáng kể, cho phép khả năng thích ứng theo thời gian thực trong quá trình suy luận trong khi vẫn duy trì các yêu cầu bộ nhớ thấp. Điều này làm cho LFMs phù hợp với cả các trường hợp sử dụng doanh nghiệp quy mô lớn và các triển khai biên bị hạn chế tài nguyên.

Vào tháng 7 năm 2025, công ty đã mở rộng chiến lược nền tảng của mình với việc ra mắt Liquid Edge AI Platform (LEAP), một SDK đa nền tảng được thiết kế để giúp các nhà phát triển dễ dàng chạy các mô hình ngôn ngữ nhỏ trực tiếp trên thiết bị di động và thiết bị nhúng hơn.

LEAP cung cấp hỗ trợ không phụ thuộc vào hệ điều hành cho iOS và Android, tích hợp với cả các mô hình của Liquid và các SLM nguồn mở khác và một thư viện tích hợp với các mô hình nhỏ tới 300MB — đủ nhỏ cho các điện thoại hiện đại với RAM tối thiểu.

Ứng dụng đồng hành Apollo của nó cho phép các nhà phát triển kiểm tra các mô hình hoàn toàn ngoại tuyến, phù hợp với sự nhấn mạnh của Liquid AI về AI bảo vệ quyền riêng tư, độ trễ thấp. Cùng nhau, LEAP và Apollo phản ánh cam kết của công ty trong việc phân cấp thực thi AI, giảm sự phụ thuộc vào cơ sở hạ tầng đám mây và trao quyền cho các nhà phát triển xây dựng các mô hình dành riêng cho tác vụ, được tối ưu hóa cho môi trường thế giới thực.

Đánh đổi tốc độ/chất lượng và thiết kế kỹ thuật

LFM2-VL sử dụng kiến trúc mô-đun kết hợp xương sống mô hình ngôn ngữ, bộ mã hóa thị giác SigLIP2 NaFlex và máy chiếu đa phương thức.

Máy chiếu bao gồm một trình kết nối MLP hai lớp với pixel unshuffle, giảm số lượng mã thông báo hình ảnh và cải thiện thông lượng.

Người dùng có thể điều chỉnh các tham số như số lượng mã thông báo hoặc bản vá hình ảnh tối đa, cho phép họ cân bằng tốc độ và chất lượng tùy thuộc vào kịch bản triển khai. Quá trình đào tạo liên quan đến khoảng 100 tỷ mã thông báo đa phương thức, có nguồn gốc từ các tập dữ liệu mở và dữ liệu tổng hợp nội bộ.

Hiệu suất và điểm chuẩn

Các mô hình đạt được kết quả điểm chuẩn cạnh tranh trên một loạt các đánh giá ngôn ngữ thị giác. LFM2-VL-1.6B đạt điểm cao trong RealWorldQA (65,23), InfoVQA (58,68) và OCRBench (742) và duy trì kết quả vững chắc trong các tác vụ lý luận đa phương thức.

Trong thử nghiệm suy luận, LFM2-VL đạt được thời gian xử lý GPU nhanh nhất trong lớp của nó khi được thử nghiệm trên một khối lượng công việc tiêu chuẩn gồm hình ảnh 1024×1024 và lời nhắc ngắn.

Các mô hình LFM2-VL hiện có trên Hugging Face, cùng với mã tinh chỉnh ví dụ trong Colab. Chúng tương thích với các transformers và TRL của Hugging Face.

Các mô hình được phát hành theo “giấy phép LFM1.0” tùy chỉnh. Liquid AI đã mô tả giấy phép này dựa trên các nguyên tắc của Apache 2.0, nhưng toàn văn bản vẫn chưa được công bố.

Công ty đã chỉ ra rằng việc sử dụng thương mại sẽ được phép theo một số điều kiện nhất định, với các điều khoản khác nhau cho các công ty có doanh thu hàng năm trên và dưới 10 triệu đô la.

Với LFM2-VL, Liquid AI đặt mục tiêu làm cho AI đa phương thức hiệu suất cao trở nên dễ tiếp cận hơn cho việc triển khai trên thiết bị và bị hạn chế tài nguyên mà không làm giảm khả năng.

Recommended for You

OpenAI mang GPT-4o trở lại làm mặc định cho tất cả người dùng ChatGPT trả phí, Altman hứa hẹn 'thông báo trước' nếu nó rời đi lần nữa

OpenAI mang GPT-4o trở lại làm mặc định cho tất cả người dùng ChatGPT trả phí, Altman hứa hẹn 'thông báo trước' nếu nó rời đi lần nữa

OpenAI mang GPT-4o trở lại làm mặc định cho tất cả người dùng ChatGPT trả phí và Altman hứa hẹn sẽ thông báo trước nếu nó rời đi một lần nữa.

Sự kết thúc của phòng thủ chu vi- Khi các công cụ AI của chính bạn trở thành tác nhân đe dọa

Sự kết thúc của phòng thủ chu vi- Khi các công cụ AI của chính bạn trở thành tác nhân đe dọa

Black Hat 2025- ChatGPT, Copilot, DeepSeek được vũ khí hóa trong vài giờ