Hai năm sử dụng AI cục bộ trên laptop- Khi các mô hình mở vượt xa định luật Moore
Chia sẻ về trải nghiệm sử dụng AI cục bộ trên máy tính xách tay trong hai năm qua
- 9 min read
Hai Năm Chạy AI Cục Bộ Trên Laptop: Khi Các Mô Hình Mở Vượt Mặt Định Luật Moore
Tóm tắt nhanh (TL;DR)
Từ tháng 5 năm 2024 đến tháng 5 năm 2026, chiếc MacBook Pro đắt nhất mà bạn có thể mua vẫn dừng lại ở mức 128 GB bộ nhớ thống nhất. Trần phần cứng gần như không thay đổi. Tuy nhiên, mô hình trọng số mở thông minh nhất mà bạn có thể thực sự chạy trên đó đã tăng điểm từ 10 (Llama 3 70B) lên 47 (DeepSeek V4 Flash phiên bản mixed-Q2 GGUF của antirez) trên bảng xếp hạng Artificial Analysis Intelligence Index.
Đó là mức tăng 4,7 lần trong 24 tháng, hoặc trí thông minh tăng gấp đôi sau mỗi 10,7 tháng.
Định luật Moore (về số lượng bóng bán dẫn) dự báo mức tăng gấp đôi sau mỗi 24 tháng. AI trọng số mở chạy cục bộ trên laptop đã cải thiện nhanh hơn gấp đôi so với Định luật Moore, trong khi phần cứng hoàn toàn không thay đổi.
Mô hình trọng số mở thông minh nhất trên MacBook Pro 128 GB
Artificial Analysis Intelligence Index v4.0 (điểm càng cao càng tốt)
Tháng 5/2024 Llama 3 70B ██████████ 10
Tháng 10/2024 Qwen 2.5 72B ████████████████ 16
Tháng 3/2025 Llama 3.3 70B ████████████████ 14
Tháng 10/2025 gpt-oss-120B █████████████████████████████████ 33
Tháng 5/2026 Gemma 4 31B ███████████████████████████████████████ 39
Tháng 5/2026 Qwen3.6 27B ██████████████████████████████████████████████ 46
Tháng 5/2026 DeepSeek V4 Flash ███████████████████████████████████████████████ 47
└──────────────────┘
│
Định luật Moore dự đoán điểm số sẽ là ≈ 20 tại thời điểm này
(bắt đầu từ 10, gấp đôi sau mỗi 24 tháng)
Phần cứng đứng yên
Tiền đề của bài viết này rất đơn giản: Mua chiếc MacBook Pro đắt nhất trên thị trường. Xem mô hình trọng số mở thông minh nhất mà bạn có thể thực sự chạy trên đó là gì (đo bằng một bài benchmark cố định). Lặp lại việc này mỗi 6 tháng trong vòng 2 năm.
| Phiên bản chip | Thời gian có mặt trên thị trường | Bộ nhớ thống nhất tối đa | Băng thông bộ nhớ |
|---|---|---|---|
| M3 Max (Tháng 11/2023) | Tháng 5/2024 đến Tháng 10/2024 | 128 GB | 400 GB/s |
| M4 Max (Tháng 10/2024) | Tháng 11/2024 đến Tháng 3/2026 | 128 GB | 546 GB/s |
| M5 Max (Tháng 3/2026) | Tháng 3/2026 đến nay | 128 GB | 614 GB/s |
Ba thế hệ chip Max cao cấp nhất. Trần RAM không hề thay đổi. Băng thông bộ nhớ tăng khoảng 50%, điều này quan trọng đối với tốc độ giải mã (decode speed), nhưng không làm thay đổi việc mô hình nào có thể nằm vừa trong bộ nhớ.
Điều thay đổi chính là các mô hình.
Năm mốc thời gian ghi nhận
Tại mỗi thời điểm, tôi chọn mô hình trọng số mở thông minh nhất thỏa mãn:
- Đã được phát hành tính đến ngày đó.
- Nằm vừa trong 128 GB ở mức lượng tử hóa (quantization) có thể sử dụng được. Mặc định là Q4, nhưng các sơ đồ mixed Q2 (IQ2_XXS cho các chuyên gia định tuyến cộng với Q8 cho attention, chuyên gia chia sẻ và đầu ra) cũng được chấp nhận.
- Chạy với tốc độ 5 token/giây hoặc nhanh hơn trên chiếc MacBook Pro cao cấp nhất tại thời điểm đó.
Tất cả điểm số đều dựa trên Artificial Analysis Intelligence Index v4.0 so với mô hình chạy full-precision trên server.
| Ngày | Mô hình trọng số mở tốt nhất | Lượng tử hóa | Điểm số |
|---|---|---|---|
| Tháng 5/2024 | Llama 3 70B Instruct | Q4 | 10 |
| Tháng 10/2024 | Qwen 2.5 72B Instruct | Q4 | 16 |
| Tháng 3/2025 | Llama 3.3 70B Instruct | Q4 | 14 |
| Tháng 10/2025 | gpt-oss-120B (high) | MXFP4 native | 33 |
| Tháng 5/2026 | DeepSeek V4 Flash | IQ2_XXS + Q8 mix | 47 |
Tiến trình 10, 16, 14, 33, 47 không diễn ra theo đường thẳng. Có hai bước nhảy vọt (điểm đứt gãy).
Bước nhảy vọt 1: Sự xuất hiện của Sparse MoE (Tháng 8/2025)
Trong hơn một năm, “trần” cục bộ là các mô hình dày (dense) 70 tỷ tham số: Llama 3 70B, sau đó là Qwen 2.5 72B, rồi Llama 3.3 70B. Rào cản chính là băng thông bộ nhớ của Mac: một mô hình dày 70B ở mức Q4 đọc khoảng 40 GB cho mỗi token, giới hạn tốc độ giải mã ở mức 8 đến 12 token/giây trên M4 Max.
gpt-oss-120B đã phá vỡ điều này. Nó có tổng 117 tỷ tham số, nhưng chỉ có 5,1 tỷ tham số hoạt động cho mỗi token. Bộ định tuyến MoE (Mixture of Experts) chọn một tập hợp con các chuyên gia khác nhau cho mỗi token, vì vậy việc giải mã chỉ bị giới hạn băng thông trên đường dẫn hoạt động. Kết quả là: tốc độ đạt 40 đến 60 token/giây trên M4 Max, trong khi điểm số Intelligence Index nhảy từ 14 lên 33.
Mô hình này cũng được xuất bản nguyên bản ở định dạng MXFP4, nghĩa là gần như không có tổn thất chất lượng do lượng tử hóa trên bản chạy cục bộ.
Bước nhảy vọt 2: Mô hình dày suy luận nhỏ đuổi kịp, MoE khổng lồ nằm vừa nhờ Q2 (Tháng 4/2026)
Hai sự kiện diễn ra trong vòng hai tuần:
Qwen3.6 27B (Reasoning) ra mắt ngày 22/4/2026. Một mô hình dày 27 tỷ tham số đạt 46 điểm Intelligence Index. Ở mức Q4, nó chỉ chiếm 15 GB. Trên MacBook Pro 128 GB, điều này để lại 113 GB trống cho ngữ cảnh (context), KV cache hoặc các ứng dụng khác.
DeepSeek V4 Flash ra mắt ngày 24/4/2026. Tổng 284 tỷ tham số, 13 tỷ tham số hoạt động. Ở độ chính xác đầy đủ, nó không thể chạy trên laptop. Nhưng antirez đã công bố bản GGUF sử dụng IQ2_XXS cho các chuyên gia định tuyến (phần lớn trọng số) và Q8 cho attention, chuyên gia chia sẻ và đầu ra. Tổng dung lượng: 80,8 GB. Điểm số full-precision: 47.
Cả hai đều đưa trần của laptop vượt xa gpt-oss-120B. DeepSeek V4 Flash dẫn đầu về điểm số, nhưng Qwen3.6 27B là câu chuyện ấn tượng hơn: một mô hình dày 27B gần như tương đương với một mô hình MoE 284B trên cùng một bài benchmark.
Các mô hình trọng số mở chạy được trên MacBook Pro 128 GB, tháng 5/2026
Sắp xếp theo Artificial Analysis Intelligence Index v4.0 (điểm càng cao càng tốt)
Mô hình Lượng tử hóa Kích thước Điểm số
───────────────────── ───────── ──────── ───────────────────────────────────────────────
DeepSeek V4 Flash Q2-mix 80.8 GB ███████████████████████████████████████████████ 47
Qwen3.6 27B Reasoning Q4 15 GB ██████████████████████████████████████████████ 46
Qwen3.6 35B A3B Q4 19 GB ███████████████████████████████████████████ 43
Gemma 4 31B Q4 17 GB ███████████████████████████████████████ 39
gpt-oss-120B (high) MXFP4 63 GB █████████████████████████████████ 33
GLM-4.6 Q2-mix ~110 GB █████████████████████████████████ 33
Gemma 4 26B A4B Q4 14 GB ███████████████████████████████ 31
GLM-4.5-Air Q4 57 GB ███████████████████████ 23
So sánh với Định luật Moore
Định luật Moore ban đầu nói về số lượng bóng bán dẫn: gấp đôi sau mỗi 24 tháng. Nếu hiểu nôm na là “khả năng tăng gấp đôi sau mỗi hai năm”, nó tạo ra một mốc tham chiếu cho tiến bộ công nghệ.
AI cục bộ trên MacBook Pro đã tăng điểm từ 10 lên 47 trong 24 tháng. Đó là 2,23 lần gấp đôi, hoặc gấp đôi sau mỗi 10,7 tháng. Nhanh hơn gấp đôi tốc độ của Định luật Moore.
Nếu trí thông minh cục bộ tuân theo nghiêm ngặt Định luật Moore, thì tháng 5/2026 sẽ chỉ đạt điểm số khoảng 20 (tương đương Llama 3.3 70B). Thay vào đó, chúng ta có DeepSeek V4 Flash với điểm 47.
Điều đáng kinh ngạc hơn là: Định luật Moore nói về việc phần cứng nhanh hơn. Trong câu chuyện này, phần cứng gần như không đổi. Tất cả thành quả đến từ phần mềm và thiết kế mô hình.
Tại sao điều này xảy ra?
Có ba yếu tố chính đóng góp vào kết quả này:
- Sparse Mixture of Experts (MoE thưa): MoE tách rời dung lượng mô hình khỏi khối lượng tính toán cho mỗi token. Một mô hình 284 tỷ tham số với 13 tỷ tham số hoạt động mỗi token sẽ đọc bộ nhớ tương đương với một mô hình dày 13 tỷ, nhưng lại chứa nhiều kiến thức hơn trong trọng số. Điều này giúp
gpt-oss-120BvàDeepSeek V4 Flashcó thể chạy trên phần cứng tiêu dùng. - Lượng tử hóa quyết liệt trở thành tiêu chuẩn: Q4 GGUF và MLX 4-bit đã trở nên phổ biến từ giữa năm 2024. Bước tiếp theo là các sơ đồ độ chính xác hỗn hợp (mixed-precision): IQ2_XXS cho các chuyên gia định tuyến kết hợp với Q8 cho attention và chuyên gia chia sẻ. Điều này bảo toàn chất lượng tốt hơn nhiều so với lượng tử hóa thấp đồng nhất.
- Các mô hình dày nhỏ được tinh chỉnh suy luận: Qwen3.6 27B (Reasoning) đạt 46 điểm là một mô hình dày 27 tỷ tham số nhưng gần như ngang ngửa với MoE 284 tỷ. Dữ liệu huấn luyện tốt hơn, công thức học tăng cường (RL) hiệu quả hơn và huấn luyện chuỗi suy nghĩ (chain-of-thought) rõ ràng đã đẩy khả năng trên mỗi tham số lên cao trong năm 2025 và 2026.
Năm tới sẽ mang lại điều gì?
Nếu ngoại suy với tốc độ gấp đôi sau mỗi 10,7 tháng, điểm số index sẽ đạt khoảng 75 vào tháng 5/2027 trên cùng một phần cứng laptop 128 GB. Điều này giả định rằng các đổi mới về kiến trúc tiếp tục xuất hiện và chỉ số Intelligence Index không bị thay đổi mốc cơ sở một lần nữa.
Rào cản lớn nhất hiện nay là mức trần 128 GB. Nếu Apple tăng bộ nhớ thống nhất tối đa trong M6 Max, đường cong phát triển sẽ có thêm không gian để tiến lên. Nếu trần vẫn giữ nguyên, những bước tiến trong tương lai sẽ hoàn toàn đến từ việc mô hình trở nên nhỏ hơn nhưng thông minh hơn.
Một số lưu ý
- Artificial Analysis Intelligence Index đã thay đổi mốc cơ sở hai lần trong giai đoạn này. Mọi điểm số trong bài viết đã được quy đổi về phiên bản v4.0.
- Chỉ số này được chạy trên các endpoint server độ chính xác đầy đủ. Mô hình lượng tử hóa cục bộ thường thấp hơn từ 1 đến 3 điểm đối với Q4 dense.
- “Nằm vừa trong 128 GB ở mức lượng tử hóa khả dụng” là cách nói ngắn gọn. Định dạng “vừa” phụ thuộc vào công cụ lượng tử hóa nhiều hơn là một con số bit-width đơn lẻ.
- Độ dài ngữ cảnh (context length) tiêu tốn bộ nhớ. Khi vượt quá khoảng 10K token, tốc độ giải mã giảm 30-50% trên M4 và M5 Max, và KV cache sẽ nhanh chóng chiếm hết RAM trống. Các mô hình MoE lớn hơn trở nên kém hiệu quả hơn sau mốc 64K token.
Tự mình trải nghiệm
Mọi mô hình trong bài viết đều có trên Hugging Face. Các con số của Artificial Analysis có tại artificialanalysis.ai/models. Thông số MacBook Pro có trên apple.com. Bản GGUF DeepSeek V4 Flash của antirez nằm tại huggingface.co/antirez/deepseek-v4-gguf.
Hãy tải chúng về và chạy cục bộ. Những con số trong bài viết này sẽ sớm trở nên lạc hậu chỉ sau một năm.
Link bài viết gốc
- Tags:
- Ai
- 11 May 2026
- Huggingface.co