Giới thiệu Gemma 3 270M- Mô hình nhỏ gọn cho AI siêu hiệu quả

Mô hình

November 10, 2025
8 min read

Giới thiệu Gemma 3 270M: Mô hình nhỏ gọn cho AI siêu hiệu quả

Ngày đăng: 14 tháng 8 năm 2025

Trong những tháng gần đây, gia đình các mô hình mở Gemma đã có những bước phát triển đáng kinh ngạc. Chúng tôi đã giới thiệu Gemma 3 và Gemma 3 QAT, mang lại hiệu suất hàng đầu cho các bộ tăng tốc đám mây và máy tính để bàn. Tiếp theo đó là Gemma 3n, một kiến trúc tối ưu hóa cho thiết bị di động, mang AI đa phương thức mạnh mẽ, thời gian thực đến trực tiếp các thiết bị biên. Mục tiêu của chúng tôi là cung cấp các công cụ hữu ích để các nhà phát triển xây dựng với AI, và chúng tôi tiếp tục kinh ngạc trước sự phát triển sôi động của Gemmaverse mà cộng đồng đang tạo ra, với số lượt tải xuống đã vượt mốc 200 triệu.

Hôm nay, chúng tôi bổ sung một công cụ mới, chuyên dụng vào bộ công cụ Gemma 3: Gemma 3 270M, một mô hình nhỏ gọn với 270 triệu tham số, được thiết kế từ đầu để tinh chỉnh cho các tác vụ cụ thể, với khả năng tuân theo chỉ dẫn mạnh mẽ và cấu trúc văn bản đã được tích hợp sẵn.

Gemma 3 270M mang đến khả năng tuân theo chỉ dẫn mạnh mẽ cho một mô hình có kích thước nhỏ. Dựa trên điểm chuẩn IFEval (kiểm tra khả năng của mô hình trong việc tuân theo các chỉ dẫn có thể kiểm chứng), nó đã thiết lập một cấp độ hiệu suất mới cho kích thước của nó, giúp các khả năng AI phức tạp trở nên dễ tiếp cận hơn cho các ứng dụng trên thiết bị và nghiên cứu.

Các khả năng cốt lõi của Gemma 3 270M

Kiến trúc nhỏ gọn và mạnh mẽ: Mô hình mới của chúng tôi có tổng cộng 270 triệu tham số: 170 triệu tham số nhúng do có kích thước từ vựng lớn và 100 triệu cho các khối transformer của chúng tôi. Nhờ từ vựng lớn gồm 256 nghìn token, mô hình có thể xử lý các token cụ thể và hiếm, biến nó thành một mô hình nền tảng mạnh mẽ để tiếp tục tinh chỉnh trong các lĩnh vực và ngôn ngữ cụ thể.
Hiệu quả năng lượng vượt trội: Một lợi thế chính của Gemma 3 270M là tiêu thụ điện năng thấp. Các thử nghiệm nội bộ trên Pixel 9 Pro SoC cho thấy mô hình được lượng tử hóa INT4 chỉ sử dụng 0.75% pin cho 25 cuộc trò chuyện, làm cho nó trở thành mô hình Gemma tiết kiệm năng lượng nhất của chúng tôi.
Tuân theo chỉ dẫn: Cùng với bản dựng trước, chúng tôi phát hành một mô hình đã được tinh chỉnh chỉ dẫn. Mặc dù mô hình này không được thiết kế cho các trường hợp sử dụng trò chuyện phức tạp, nhưng nó là một mô hình mạnh mẽ, có thể tuân theo các chỉ dẫn chung ngay lập tức.
Lượng tử hóa sẵn sàng cho sản xuất: Các bản dựng đã được đào tạo nhận biết lượng tử hóa (Quantization-Aware Trained - QAT) có sẵn, cho phép bạn chạy mô hình ở độ chính xác INT4 với sự suy giảm hiệu suất tối thiểu, điều này rất cần thiết để triển khai trên các thiết bị có tài nguyên hạn chế.

Công cụ phù hợp cho công việc

Trong kỹ thuật, thành công được định nghĩa bằng hiệu quả, không chỉ sức mạnh thô. Bạn sẽ không dùng búa tạ để treo một bức tranh. Nguyên tắc tương tự cũng áp dụng cho việc xây dựng với AI.

Gemma 3 270M thể hiện triết lý “công cụ phù hợp cho công việc”. Đây là một mô hình nền tảng chất lượng cao, tuân theo chỉ dẫn tốt ngay lập tức, và sức mạnh thực sự của nó được phát huy thông qua tinh chỉnh. Một khi đã chuyên dụng, nó có thể thực hiện các tác vụ như phân loại văn bản và trích xuất dữ liệu với độ chính xác, tốc độ và hiệu quả chi phí đáng kể. Bằng cách bắt đầu với một mô hình nhỏ gọn, mạnh mẽ, bạn có thể xây dựng các hệ thống sản xuất tinh gọn, nhanh chóng và tiết kiệm chi phí vận hành đáng kể.

Bản thiết kế thực tế để thành công

Sức mạnh của phương pháp này đã mang lại những kết quả đáng kinh ngạc trong thế giới thực. Một ví dụ điển hình là công việc của Adaptive ML với SK Telecom. Đối mặt với thách thức kiểm duyệt nội dung tinh tế, đa ngôn ngữ, họ đã chọn cách chuyên biệt hóa. Thay vì sử dụng một mô hình lớn, đa dụng, Adaptive ML đã tinh chỉnh mô hình Gemma 3 4B. Kết quả thật ấn tượng: mô hình Gemma chuyên dụng không chỉ đạt mà còn vượt hiệu suất của các mô hình độc quyền lớn hơn nhiều trong tác vụ cụ thể của nó.

Gemma 3 270M được thiết kế để cho phép các nhà phát triển thực hiện phương pháp này xa hơn, mở khóa hiệu quả cao hơn nữa cho các tác vụ được xác định rõ ràng. Đây là điểm khởi đầu hoàn hảo để tạo ra một loạt các mô hình nhỏ, chuyên dụng, mỗi mô hình là một chuyên gia cho nhiệm vụ riêng của nó.

Nhưng sức mạnh chuyên biệt hóa này không chỉ dành cho các tác vụ doanh nghiệp; nó còn cho phép các ứng dụng sáng tạo mạnh mẽ. Ví dụ, hãy xem ứng dụng web Máy phát truyện kể trước khi ngủ:

Gemma 3 270M được sử dụng để cung cấp năng lượng cho ứng dụng web Máy phát truyện kể trước khi ngủ bằng Transformers.js. Kích thước và hiệu suất của mô hình làm cho nó phù hợp cho các tác vụ sáng tạo, ngoại tuyến, dựa trên web. (Nguồn: Joshua (@xenovacom trên X) từ nhóm Hugging Face)

Khi nào nên chọn Gemma 3 270M

Gemma 3 270M thừa hưởng kiến trúc tiên tiến và quá trình đào tạo mạnh mẽ của bộ sưu tập Gemma 3, cung cấp một nền tảng vững chắc cho các ứng dụng tùy chỉnh của bạn.

Đây là lý do tại sao nó là lựa chọn hoàn hảo:

Bạn có một tác vụ có khối lượng cao, được xác định rõ ràng. Lý tưởng cho các chức năng như phân tích cảm xúc, trích xuất thực thể, định tuyến truy vấn, xử lý văn bản từ không có cấu trúc sang có cấu trúc, viết sáng tạo và kiểm tra tuân thủ.
Bạn cần tiết kiệm từng mili giây và mỗi xu. Giảm đáng kể, hoặc loại bỏ, chi phí suy luận của bạn trong sản xuất và cung cấp phản hồi nhanh hơn cho người dùng. Một mô hình 270M được tinh chỉnh có thể chạy trên cơ sở hạ tầng nhẹ, giá rẻ hoặc trực tiếp trên thiết bị.
Bạn cần lặp lại và triển khai nhanh chóng. Kích thước nhỏ của Gemma 3 270M cho phép thử nghiệm tinh chỉnh nhanh chóng, giúp bạn tìm thấy cấu hình hoàn hảo cho trường hợp sử dụng của mình trong vài giờ, không phải vài ngày.
Bạn cần đảm bảo quyền riêng tư của người dùng. Vì mô hình có thể chạy hoàn toàn trên thiết bị, bạn có thể xây dựng các ứng dụng xử lý thông tin nhạy cảm mà không cần gửi dữ liệu lên đám mây.
Bạn muốn có một đội ngũ các mô hình chuyên dụng. Xây dựng và triển khai nhiều mô hình tùy chỉnh, mỗi mô hình được đào tạo chuyên nghiệp cho một tác vụ khác nhau, mà không làm vượt ngân sách.

Bắt đầu với tinh chỉnh

Chúng tôi muốn làm cho việc biến Gemma 3 270M thành giải pháp tùy chỉnh của riêng bạn trở nên dễ dàng nhất có thể. Nó được xây dựng trên cùng một kiến trúc với phần còn lại của các mô hình Gemma 3, với các công thức và công cụ để bạn bắt đầu nhanh chóng. Bạn có thể tìm thấy hướng dẫn của chúng tôi về tinh chỉnh hoàn toàn bằng Gemma 3 270M như một phần của tài liệu Gemma.

Tải xuống mô hình: Tải các mô hình Gemma 3 270M từ Hugging Face, Ollama, Kaggle, LM Studio, hoặc Docker. Chúng tôi phát hành cả các mô hình được đào tạo trước và được tinh chỉnh chỉ dẫn.
Thử nghiệm mô hình: Thử nghiệm các mô hình trên Vertex AI hoặc với các công cụ suy luận phổ biến như llama.cpp, Gemma.cpp, LiteRT, Keras và MLX.
Bắt đầu tinh chỉnh: Sử dụng các công cụ yêu thích của bạn, bao gồm Hugging Face, UnSloth, và JAX.
Triển khai giải pháp của bạn: Sau khi tinh chỉnh, bạn có thể triển khai mô hình chuyên dụng của mình ở bất kỳ đâu, từ môi trường cục bộ của bạn đến Google Cloud Run.

Gemmaverse được xây dựng trên ý tưởng rằng sự đổi mới có nhiều kích cỡ. Với Gemma 3 270M, chúng tôi trao quyền cho các nhà phát triển xây dựng các giải pháp AI thông minh hơn, nhanh hơn và hiệu quả hơn. Chúng tôi nóng lòng muốn thấy các mô hình chuyên dụng mà bạn sẽ tạo ra.

AI Today - SkyAI