Mô hình Ngôn ngữ Nhỏ (SLM)- Tổng quan Toàn diện

November 10, 2025
11 min read

Small Language Models (SLM): Tổng quan toàn diện

Bài viết bởi John Johnson trên Hugging Face

Trong vài năm trở lại đây, lĩnh vực trí tuệ nhân tạo đã có những bước phát triển vượt bậc, với các mô hình ngôn ngữ lớn (LLM) làm kinh ngạc mọi người bằng khả năng của chúng, hỗ trợ mọi thứ từ chatbot đến trợ lý lập trình. Tuy nhiên, không phải ứng dụng nào cũng đòi hỏi kích thước và độ phức tạp khổng lồ của LLM; sức mạnh tính toán cần thiết khiến chúng trở nên không khả thi cho nhiều trường hợp sử dụng. Đây là lý do tại sao Mô hình Ngôn ngữ Nhỏ (SLM) ra đời để làm cho các mô hình AI mạnh mẽ trở nên dễ tiếp cận hơn bằng cách thu nhỏ kích thước của chúng.

Hãy cùng tìm hiểu về SLM là gì, cách chúng được thu nhỏ, lợi ích và hạn chế, các trường hợp sử dụng thực tế và cách chúng có thể được sử dụng trên thiết bị di động và máy tính.

Mô hình Ngôn ngữ Nhỏ (SLM) là gì?

Mô hình Ngôn ngữ Nhỏ (SLM) là các phiên bản nhẹ của mô hình ngôn ngữ truyền thống, được thiết kế để hoạt động hiệu quả trong môi trường bị hạn chế về tài nguyên như điện thoại thông minh, hệ thống nhúng hoặc máy tính có năng lượng thấp. Trong khi các mô hình ngôn ngữ lớn có hàng trăm tỷ—hoặc thậm chí hàng nghìn tỷ—tham số, SLM thường dao động từ 1 triệu đến 10 tỷ tham số. Các mô hình ngôn ngữ nhỏ hơn đáng kể nhưng chúng vẫn giữ được các khả năng NLP cốt lõi như tạo văn bản, tóm tắt, dịch thuật và trả lời câu hỏi.

Một số chuyên gia không thích thuật ngữ “Mô hình Ngôn ngữ Nhỏ”, bởi vì một tỷ tham số không hề nhỏ. Họ ưa thích thuật ngữ “Mô hình Ngôn ngữ Lớn Nhỏ”, nghe có vẻ phức tạp. Nhưng phần lớn đã chấp nhận “Mô hình Ngôn ngữ Nhỏ”, vì vậy SLM là tên gọi của nó. Nhân tiện, hãy lưu ý rằng nó chỉ nhỏ khi so sánh với các mô hình lớn.

Làm thế nào để chúng thu nhỏ lại?

Quá trình thu nhỏ mô hình ngôn ngữ bao gồm nhiều kỹ thuật nhằm giảm kích thước của nó mà không ảnh hưởng quá nhiều đến hiệu suất:

Chưng cất kiến thức (Knowledge Distillation): Huấn luyện một mô hình “học trò” nhỏ hơn bằng cách chuyển giao kiến thức từ một mô hình “thầy giáo” lớn hơn.
Cắt tỉa (Pruning): Loại bỏ các tham số dư thừa hoặc ít quan trọng trong kiến trúc mạng nơ-ron.
Lượng tử hóa (Quantization): Giảm độ chính xác của các giá trị số được sử dụng trong tính toán (ví dụ: chuyển đổi số thực sang số nguyên).

Ví dụ về Mô hình Ngôn ngữ Nhỏ

Nhiều mô hình ngôn ngữ nhỏ nhưng mạnh mẽ đã xuất hiện, chứng minh rằng kích thước không phải là tất cả. Các ví dụ sau đây là SLM với số lượng tham số từ 1-4 tỷ:

Llama3.2-1B – Phiên bản 1 tỷ tham số của Meta, được tối ưu hóa cho các thiết bị biên.
Qwen2.5-1.5B – Một mô hình từ Alibaba dành cho các ứng dụng đa ngôn ngữ với 1.5 tỷ tham số.
DeepSeek-R1-Distill-Qwen-1.5B - Mô hình suy luận thế hệ đầu tiên của DeepSeek được chưng cất từ Qwen2.5 với 1.5 tỷ tham số.
SmolLM2-1.7B – Từ HuggingFaceTB, một mô hình ngôn ngữ “nhỏ” hiện đại (1.7 tỷ tham số) được huấn luyện trên các bộ dữ liệu mở chuyên biệt (FineMath, Stack-Edu và SmolTalk).
Phi-3.5-Mini-3.8B – Mô hình mở nhỏ bé nhưng mạnh mẽ của Microsoft với 3.8 tỷ tham số, được tối ưu hóa cho khả năng suy luận và tạo mã.
Gemma3-4B - Được phát triển bởi Google DeepMind, mô hình 4 tỷ tham số nhẹ nhưng mạnh mẽ này là đa ngôn ngữ và đa phương thức.

Đây là các mô hình ngôn ngữ nhỏ mạnh mẽ hơn khác: Mistral 7B, Gemma 9B, và Phi-4 14B (mặc dù tôi không chắc liệu Phi-4 với 14 tỷ tham số có còn được coi là “nhỏ” không, nhưng nó rất có năng lực :))

Lợi ích của Mô hình Ngôn ngữ Nhỏ

Yêu cầu tính toán thấp – Có thể chạy trên laptop tiêu dùng, thiết bị biên và điện thoại di động.
Tiêu thụ năng lượng thấp hơn – Các mô hình hiệu quả giảm mức sử dụng điện, làm cho chúng thân thiện với môi trường.
Suy luận nhanh hơn – Các mô hình nhỏ hơn tạo ra phản hồi nhanh chóng, lý tưởng cho các ứng dụng thời gian thực.
AI trên thiết bị – Không cần kết nối internet hoặc dịch vụ đám mây, nâng cao quyền riêng tư và bảo mật.
Triển khai rẻ hơn – Chi phí phần cứng và đám mây thấp hơn làm cho AI trở nên dễ tiếp cận hơn đối với các công ty khởi nghiệp và nhà phát triển.
Khả năng tùy chỉnh: Dễ dàng tinh chỉnh cho các tác vụ chuyên biệt theo lĩnh vực (ví dụ: phân tích tài liệu pháp lý).

Hạn chế của Mô hình Ngôn ngữ Nhỏ

Mặc dù SLM mang lại nhiều lợi thế, chúng cũng đi kèm với một số đánh đổi:

Phạm vi hẹp hơn: Khả năng khái quát hóa hạn chế bên ngoài lĩnh vực đào tạo của chúng (ví dụ: một SLM y tế sẽ gặp khó khăn với việc viết mã).
Nguy cơ thiên vị: Các bộ dữ liệu nhỏ hơn có thể khuếch đại các thiên vị nếu không được quản lý cẩn thận.
Độ phức tạp giảm: Các mô hình nhỏ hơn có thể gặp khó khăn với các tác vụ rất tinh tế hoặc phức tạp đòi hỏi sự hiểu biết ngữ cảnh sâu sắc.
Kém mạnh mẽ hơn: Chúng dễ bị lỗi hơn trong các tình huống mơ hồ hoặc khi đối mặt với các đầu vào đối nghịch.

Ứng dụng thực tế của Mô hình Ngôn ngữ Nhỏ

Mặc dù có những hạn chế, SLM có một loạt các ứng dụng thực tế:

Chatbot & Trợ lý ảo: Đủ hiệu quả để chạy trên thiết bị di động trong khi cung cấp tương tác thời gian thực.
Tạo mã: Các mô hình như Phi-3.5 Mini hỗ trợ các nhà phát triển viết và gỡ lỗi mã.
Dịch ngôn ngữ: Các mô hình nhẹ có thể cung cấp dịch thuật trên thiết bị cho khách du lịch.
Tóm tắt & Tạo nội dung: Các doanh nghiệp sử dụng SLM để tạo nội dung tiếp thị, bài đăng mạng xã hội và báo cáo.
Ứng dụng chăm sóc sức khỏe: AI trên thiết bị để kiểm tra triệu chứng và nghiên cứu y tế.
IoT & Điện toán biên: Chạy AI trên các thiết bị nhà thông minh mà không cần phụ thuộc vào đám mây.
Công cụ giáo dục: Hệ thống gia sư có thể sử dụng SLM để tạo các giải thích, câu đố và phản hồi cá nhân hóa trong thời gian thực.

Chạy Mô hình Ngôn ngữ Nhỏ trên Thiết bị Biên

SLM mang sức mạnh AI trực tiếp đến điện thoại thông minh của bạn (sử dụng PockPal) hoặc PC (sử dụng Ollama), cung cấp quyền truy cập ngoại tuyến, quyền riêng tư nâng cao và độ trễ thấp hơn.

SLM trên Thiết bị Di động với PocketPal

Đối với người dùng quan tâm đến việc trải nghiệm SLM trực tiếp, ứng dụng PocketPal AI cung cấp một cách trực quan để tương tác với các mô hình này trực tiếp trên điện thoại thông minh của bạn, mà không cần kết nối internet. Cho dù bạn muốn soạn email, động não ý tưởng hay nhận câu trả lời cho các câu hỏi nhanh, PocketPal cung cấp một giao diện liền mạch được hỗ trợ bởi các SLM được tối ưu hóa. Khả năng ngoại tuyến của nó đảm bảo các truy vấn của bạn vẫn riêng tư.

Tính năng

Hỗ trợ AI Ngoại tuyến: Chạy mô hình ngôn ngữ trực tiếp trên thiết bị của bạn mà không cần kết nối internet.
Linh hoạt Mô hình: Tải xuống và chuyển đổi giữa nhiều SLM - như Phi, Gemma, Qwen & các mô hình khác.
Tự động Tải/Dỡ tải: Tự động quản lý bộ nhớ bằng cách dỡ tải các mô hình khi ứng dụng ở chế độ nền.
Cài đặt Suy luận: Tùy chỉnh các tham số mô hình như prompt hệ thống, nhiệt độ, token BOS và mẫu chat.
Chỉ số Hiệu suất Thời gian thực: Xem token mỗi giây và mili giây mỗi token trong quá trình tạo phản hồi AI.

Tải PocketPal AI trên iOS và Android

Chạy SLM trên PC với Ollama

Ollama, một công cụ mã nguồn mở, đơn giản hóa việc triển khai SLM trên PC:

Quản lý Cục bộ: Chạy các mô hình như Llama3.2-1B hoặc Phi-3.5 Mini với thiết lập tối thiểu.
Tối ưu hóa GPU: Tận dụng các GPU tiêu dùng để suy luận nhanh hơn.
Quy trình làm việc Tùy chỉnh: Tích hợp SLM vào các đường ống dữ liệu hoặc công cụ sáng tạo (ví dụ: đánh giá mã tự động).

Bắt đầu với Ollama:

Cài đặt Ollama từ ollama.com
Mở terminal và tải xuống một mô hình:

bash ollama pull qwen2.5:1.5b
Chạy mô hình một cách tương tác:

bash ollama run qwen2.5:1.5b

Thiết lập này cho phép các chatbot, trợ lý mã hóa và công cụ tóm tắt tài liệu được hỗ trợ bởi AI cục bộ mà không cần dịch vụ đám mây.

Tinh chỉnh Mô hình Ngôn ngữ Nhỏ

Một trong những khía cạnh thú vị nhất của SLM là khả năng thích ứng của chúng thông qua tinh chỉnh. Bằng cách cung cấp cho SLM các bộ dữ liệu chuyên biệt theo lĩnh vực, bạn có thể nâng cao hiệu suất của nó cho các ứng dụng ngách.

Ví dụ:

Tinh chỉnh một mô hình trên các tài liệu pháp lý để tạo một trợ lý phân tích hợp đồng.
Huấn luyện một SLM trên các tài liệu kỹ thuật để xây dựng một hướng dẫn khắc phục sự cố cho kỹ sư.

Có nhiều cách để tinh chỉnh một SLM:

Tinh chỉnh Toàn bộ – Huấn luyện lại tất cả các tham số với dữ liệu mới (yêu cầu tính toán đáng kể).
LoRA (Low-Rank Adaptation) – Chỉ tinh chỉnh một vài lớp, làm cho nó nhẹ và hiệu quả.
Adapter & Prompt Tuning – Thêm các lớp bổ sung hoặc tối ưu hóa prompt để hướng dẫn phản hồi của mô hình.

Ví dụ: Tinh chỉnh với LoRA Sử dụng thư viện peft của Hugging Face:

python from peft import LoraConfig, get_peft_model from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = “gemma-2-2b” model = AutoModelForCausalLM.from_pretrained(model_name) tokenizer = AutoTokenizer.from_pretrained(model_name)

config = LoraConfig(r=8, lora_alpha=16, lora_dropout=0.1) model = get_peft_model(model, config)

Huấn luyện mô hình trên dữ liệu mới…

Tinh chỉnh không chỉ cải thiện độ chính xác mà còn đảm bảo mô hình phù hợp chặt chẽ với các yêu cầu độc đáo của bạn.

Kết luận

Mô hình Ngôn ngữ Nhỏ (SLM) đại diện cho một bước tiến quan trọng hướng tới AI hiệu quả, dễ tiếp cận và tiết kiệm chi phí. Chúng cung cấp các giải pháp thực tế cho các doanh nghiệp, nhà phát triển và nhà nghiên cứu đang tìm kiếm AI mạnh mẽ mà không gặp phải gánh nặng tính toán nặng nề của LLM.

Với các công cụ như Ollama cho PC và các tùy chọn tinh chỉnh để tùy chỉnh, SLM đang định hình lại bối cảnh AI - làm cho AI trở nên cá nhân hơn, riêng tư hơn và có sẵn cho tất cả mọi người.

Hãy cùng khám phá cách AI nhỏ gọn có thể biến đổi các dự án của chúng ta.

Tham khảo: Một Khảo sát về Mô hình Ngôn ngữ Nhỏ (Bài báo Nghiên cứu) https://arxiv.org/abs/2410.20011

Cộng đồng

📻 🎙️ Hey, tôi đã tạo một podcast AI về bài viết blog này, hãy xem nó nhé!

Podcast này được tạo thông qua ngxson/kokoro-podcast-generator, sử dụng DeepSeek-R1 và Kokoro-TTS.

ngxson - 25 tháng 2 năm 2025

Impressive 👌

jjokah - 26 tháng 2 năm 2025

Is XML-RoBERTa considered an SLM? Thanks.

hanifsajid - 2 tháng 8 năm 2025

Based on size, XML-RoBERTa (which is under 1 billion parameters) might be considered a Small Language Model. However, in comparison to the modern SLMs (w/ broad generative capabilities), XML-RoBERTa is highly specialized for cross-lingual transfer tasks. In that case, it cannot be considered a typical SLM.

jjokah - 14 tháng 8 năm 2025

Indeed — with under 1B parameters, XLM-RoBERTa could technically fall under the SLM size range, but architecturally it’s a very different beast. It’s optimized for multilingual representation learning and cross-lingual transfer, not broad generative capabilities.

What’s fascinating is that modern SLMs of similar size can now handle open-ended generation, reasoning, and multi-domain tasks. I can imagine an interesting future “Hybrid SLM” that fuses XLM-RoBERTa’s strong multilingual embeddings with the generative flexibility of today’s compact LMs.

Abdullah Alwahdi - 14 tháng 8 năm 2025

That’s right. XLM-RoBERTa is a beast for the tasks it was optimized for.