Hai năm sử dụng AI cục bộ trên laptop- Khi các mô hình mở vượt xa định luật Moore

Chia sẻ về trải nghiệm sử dụng AI cục bộ trên máy tính xách tay trong hai năm qua

May 11, 2026
9 min read

Hai năm sử dụng AI cục bộ trên laptop- Khi các mô hình mở vượt xa định luật Moore — Chia sẻ về trải nghiệm sử dụng AI cục bộ trên máy tính xách tay trong hai năm qua

Hai Năm Chạy AI Cục Bộ Trên Laptop: Khi Các Mô Hình Mở Vượt Mặt Định Luật Moore

Tóm tắt nhanh (TL;DR)

Từ tháng 5 năm 2024 đến tháng 5 năm 2026, chiếc MacBook Pro đắt nhất mà bạn có thể mua vẫn dừng lại ở mức 128 GB bộ nhớ thống nhất. Trần phần cứng gần như không thay đổi. Tuy nhiên, mô hình trọng số mở thông minh nhất mà bạn có thể thực sự chạy trên đó đã tăng điểm từ 10 (Llama 3 70B) lên 47 (DeepSeek V4 Flash phiên bản mixed-Q2 GGUF của antirez) trên bảng xếp hạng Artificial Analysis Intelligence Index.

Đó là mức tăng 4,7 lần trong 24 tháng, hoặc trí thông minh tăng gấp đôi sau mỗi 10,7 tháng.

Định luật Moore (về số lượng bóng bán dẫn) dự báo mức tăng gấp đôi sau mỗi 24 tháng. AI trọng số mở chạy cục bộ trên laptop đã cải thiện nhanh hơn gấp đôi so với Định luật Moore, trong khi phần cứng hoàn toàn không thay đổi.

Mô hình trọng số mở thông minh nhất trên MacBook Pro 128 GB
Artificial Analysis Intelligence Index v4.0 (điểm càng cao càng tốt)

Tháng 5/2024  Llama 3 70B          ██████████                                          10
Tháng 10/2024 Qwen 2.5 72B         ████████████████                                    16
Tháng 3/2025  Llama 3.3 70B        ████████████████                                      14
Tháng 10/2025 gpt-oss-120B         █████████████████████████████████                   33
Tháng 5/2026  Gemma 4 31B          ███████████████████████████████████████             39
Tháng 5/2026  Qwen3.6 27B          ██████████████████████████████████████████████      46
Tháng 5/2026  DeepSeek V4 Flash    ███████████████████████████████████████████████     47
                               └──────────────────┘
                                       │
                          Định luật Moore dự đoán điểm số sẽ là ≈ 20 tại thời điểm này
                          (bắt đầu từ 10, gấp đôi sau mỗi 24 tháng)

Phần cứng đứng yên

Tiền đề của bài viết này rất đơn giản: Mua chiếc MacBook Pro đắt nhất trên thị trường. Xem mô hình trọng số mở thông minh nhất mà bạn có thể thực sự chạy trên đó là gì (đo bằng một bài benchmark cố định). Lặp lại việc này mỗi 6 tháng trong vòng 2 năm.

Phiên bản chip	Thời gian có mặt trên thị trường	Bộ nhớ thống nhất tối đa	Băng thông bộ nhớ
M3 Max (Tháng 11/2023)	Tháng 5/2024 đến Tháng 10/2024	128 GB	400 GB/s
M4 Max (Tháng 10/2024)	Tháng 11/2024 đến Tháng 3/2026	128 GB	546 GB/s
M5 Max (Tháng 3/2026)	Tháng 3/2026 đến nay	128 GB	614 GB/s

Ba thế hệ chip Max cao cấp nhất. Trần RAM không hề thay đổi. Băng thông bộ nhớ tăng khoảng 50%, điều này quan trọng đối với tốc độ giải mã (decode speed), nhưng không làm thay đổi việc mô hình nào có thể nằm vừa trong bộ nhớ.

Điều thay đổi chính là các mô hình.

Năm mốc thời gian ghi nhận

Tại mỗi thời điểm, tôi chọn mô hình trọng số mở thông minh nhất thỏa mãn:

Đã được phát hành tính đến ngày đó.
Nằm vừa trong 128 GB ở mức lượng tử hóa (quantization) có thể sử dụng được. Mặc định là Q4, nhưng các sơ đồ mixed Q2 (IQ2_XXS cho các chuyên gia định tuyến cộng với Q8 cho attention, chuyên gia chia sẻ và đầu ra) cũng được chấp nhận.
Chạy với tốc độ 5 token/giây hoặc nhanh hơn trên chiếc MacBook Pro cao cấp nhất tại thời điểm đó.

Tất cả điểm số đều dựa trên Artificial Analysis Intelligence Index v4.0 so với mô hình chạy full-precision trên server.

Ngày	Mô hình trọng số mở tốt nhất	Lượng tử hóa	Điểm số
Tháng 5/2024	Llama 3 70B Instruct	Q4	10
Tháng 10/2024	Qwen 2.5 72B Instruct	Q4	16
Tháng 3/2025	Llama 3.3 70B Instruct	Q4	14
Tháng 10/2025	gpt-oss-120B (high)	MXFP4 native	33
Tháng 5/2026	DeepSeek V4 Flash	IQ2_XXS + Q8 mix	47

Tiến trình 10, 16, 14, 33, 47 không diễn ra theo đường thẳng. Có hai bước nhảy vọt (điểm đứt gãy).

Bước nhảy vọt 1: Sự xuất hiện của Sparse MoE (Tháng 8/2025)

Trong hơn một năm, “trần” cục bộ là các mô hình dày (dense) 70 tỷ tham số: Llama 3 70B, sau đó là Qwen 2.5 72B, rồi Llama 3.3 70B. Rào cản chính là băng thông bộ nhớ của Mac: một mô hình dày 70B ở mức Q4 đọc khoảng 40 GB cho mỗi token, giới hạn tốc độ giải mã ở mức 8 đến 12 token/giây trên M4 Max.

gpt-oss-120B đã phá vỡ điều này. Nó có tổng 117 tỷ tham số, nhưng chỉ có 5,1 tỷ tham số hoạt động cho mỗi token. Bộ định tuyến MoE (Mixture of Experts) chọn một tập hợp con các chuyên gia khác nhau cho mỗi token, vì vậy việc giải mã chỉ bị giới hạn băng thông trên đường dẫn hoạt động. Kết quả là: tốc độ đạt 40 đến 60 token/giây trên M4 Max, trong khi điểm số Intelligence Index nhảy từ 14 lên 33.

Mô hình này cũng được xuất bản nguyên bản ở định dạng MXFP4, nghĩa là gần như không có tổn thất chất lượng do lượng tử hóa trên bản chạy cục bộ.

Bước nhảy vọt 2: Mô hình dày suy luận nhỏ đuổi kịp, MoE khổng lồ nằm vừa nhờ Q2 (Tháng 4/2026)

Hai sự kiện diễn ra trong vòng hai tuần:

Qwen3.6 27B (Reasoning) ra mắt ngày 22/4/2026. Một mô hình dày 27 tỷ tham số đạt 46 điểm Intelligence Index. Ở mức Q4, nó chỉ chiếm 15 GB. Trên MacBook Pro 128 GB, điều này để lại 113 GB trống cho ngữ cảnh (context), KV cache hoặc các ứng dụng khác.

DeepSeek V4 Flash ra mắt ngày 24/4/2026. Tổng 284 tỷ tham số, 13 tỷ tham số hoạt động. Ở độ chính xác đầy đủ, nó không thể chạy trên laptop. Nhưng antirez đã công bố bản GGUF sử dụng IQ2_XXS cho các chuyên gia định tuyến (phần lớn trọng số) và Q8 cho attention, chuyên gia chia sẻ và đầu ra. Tổng dung lượng: 80,8 GB. Điểm số full-precision: 47.

Cả hai đều đưa trần của laptop vượt xa gpt-oss-120B. DeepSeek V4 Flash dẫn đầu về điểm số, nhưng Qwen3.6 27B là câu chuyện ấn tượng hơn: một mô hình dày 27B gần như tương đương với một mô hình MoE 284B trên cùng một bài benchmark.

Các mô hình trọng số mở chạy được trên MacBook Pro 128 GB, tháng 5/2026
Sắp xếp theo Artificial Analysis Intelligence Index v4.0 (điểm càng cao càng tốt)

Mô hình                  Lượng tử hóa  Kích thước      Điểm số
─────────────────────  ─────────  ────────  ───────────────────────────────────────────────
DeepSeek V4 Flash      Q2-mix     80.8 GB   ███████████████████████████████████████████████  47
Qwen3.6 27B Reasoning  Q4           15 GB   ██████████████████████████████████████████████   46
Qwen3.6 35B A3B        Q4           19 GB   ███████████████████████████████████████████      43
Gemma 4 31B            Q4           17 GB   ███████████████████████████████████████          39
gpt-oss-120B (high)    MXFP4        63 GB   █████████████████████████████████                33
GLM-4.6                Q2-mix     ~110 GB   █████████████████████████████████                33
Gemma 4 26B A4B        Q4           14 GB   ███████████████████████████████                  31
GLM-4.5-Air            Q4           57 GB   ███████████████████████                          23

So sánh với Định luật Moore

Định luật Moore ban đầu nói về số lượng bóng bán dẫn: gấp đôi sau mỗi 24 tháng. Nếu hiểu nôm na là “khả năng tăng gấp đôi sau mỗi hai năm”, nó tạo ra một mốc tham chiếu cho tiến bộ công nghệ.

AI cục bộ trên MacBook Pro đã tăng điểm từ 10 lên 47 trong 24 tháng. Đó là 2,23 lần gấp đôi, hoặc gấp đôi sau mỗi 10,7 tháng. Nhanh hơn gấp đôi tốc độ của Định luật Moore.

Nếu trí thông minh cục bộ tuân theo nghiêm ngặt Định luật Moore, thì tháng 5/2026 sẽ chỉ đạt điểm số khoảng 20 (tương đương Llama 3.3 70B). Thay vào đó, chúng ta có DeepSeek V4 Flash với điểm 47.

Điều đáng kinh ngạc hơn là: Định luật Moore nói về việc phần cứng nhanh hơn. Trong câu chuyện này, phần cứng gần như không đổi. Tất cả thành quả đến từ phần mềm và thiết kế mô hình.

Tại sao điều này xảy ra?

Có ba yếu tố chính đóng góp vào kết quả này:

Sparse Mixture of Experts (MoE thưa): MoE tách rời dung lượng mô hình khỏi khối lượng tính toán cho mỗi token. Một mô hình 284 tỷ tham số với 13 tỷ tham số hoạt động mỗi token sẽ đọc bộ nhớ tương đương với một mô hình dày 13 tỷ, nhưng lại chứa nhiều kiến thức hơn trong trọng số. Điều này giúp gpt-oss-120B và DeepSeek V4 Flash có thể chạy trên phần cứng tiêu dùng.
Lượng tử hóa quyết liệt trở thành tiêu chuẩn: Q4 GGUF và MLX 4-bit đã trở nên phổ biến từ giữa năm 2024. Bước tiếp theo là các sơ đồ độ chính xác hỗn hợp (mixed-precision): IQ2_XXS cho các chuyên gia định tuyến kết hợp với Q8 cho attention và chuyên gia chia sẻ. Điều này bảo toàn chất lượng tốt hơn nhiều so với lượng tử hóa thấp đồng nhất.
Các mô hình dày nhỏ được tinh chỉnh suy luận: Qwen3.6 27B (Reasoning) đạt 46 điểm là một mô hình dày 27 tỷ tham số nhưng gần như ngang ngửa với MoE 284 tỷ. Dữ liệu huấn luyện tốt hơn, công thức học tăng cường (RL) hiệu quả hơn và huấn luyện chuỗi suy nghĩ (chain-of-thought) rõ ràng đã đẩy khả năng trên mỗi tham số lên cao trong năm 2025 và 2026.

Năm tới sẽ mang lại điều gì?

Nếu ngoại suy với tốc độ gấp đôi sau mỗi 10,7 tháng, điểm số index sẽ đạt khoảng 75 vào tháng 5/2027 trên cùng một phần cứng laptop 128 GB. Điều này giả định rằng các đổi mới về kiến trúc tiếp tục xuất hiện và chỉ số Intelligence Index không bị thay đổi mốc cơ sở một lần nữa.

Rào cản lớn nhất hiện nay là mức trần 128 GB. Nếu Apple tăng bộ nhớ thống nhất tối đa trong M6 Max, đường cong phát triển sẽ có thêm không gian để tiến lên. Nếu trần vẫn giữ nguyên, những bước tiến trong tương lai sẽ hoàn toàn đến từ việc mô hình trở nên nhỏ hơn nhưng thông minh hơn.

Một số lưu ý

Artificial Analysis Intelligence Index đã thay đổi mốc cơ sở hai lần trong giai đoạn này. Mọi điểm số trong bài viết đã được quy đổi về phiên bản v4.0.
Chỉ số này được chạy trên các endpoint server độ chính xác đầy đủ. Mô hình lượng tử hóa cục bộ thường thấp hơn từ 1 đến 3 điểm đối với Q4 dense.
“Nằm vừa trong 128 GB ở mức lượng tử hóa khả dụng” là cách nói ngắn gọn. Định dạng “vừa” phụ thuộc vào công cụ lượng tử hóa nhiều hơn là một con số bit-width đơn lẻ.
Độ dài ngữ cảnh (context length) tiêu tốn bộ nhớ. Khi vượt quá khoảng 10K token, tốc độ giải mã giảm 30-50% trên M4 và M5 Max, và KV cache sẽ nhanh chóng chiếm hết RAM trống. Các mô hình MoE lớn hơn trở nên kém hiệu quả hơn sau mốc 64K token.

Tự mình trải nghiệm

Mọi mô hình trong bài viết đều có trên Hugging Face. Các con số của Artificial Analysis có tại artificialanalysis.ai/models. Thông số MacBook Pro có trên apple.com. Bản GGUF DeepSeek V4 Flash của antirez nằm tại huggingface.co/antirez/deepseek-v4-gguf.

Hãy tải chúng về và chạy cục bộ. Những con số trong bài viết này sẽ sớm trở nên lạc hậu chỉ sau một năm.

AI Today - SkyAI