Đơn giản hóa ngăn xếp AI- Chìa khóa cho trí tuệ có thể mở rộng, di động từ đám mây đến biên
Nội dung được trình bày bởi Arm
- 12 min read
Đơn giản hóa ngăn xếp AI: Chìa khóa cho trí tuệ có thể mở rộng, di động từ đám mây đến biên
Được trình bày bởi Arm
Một ngăn xếp phần mềm đơn giản hơn là chìa khóa để AI di động, có thể mở rộng trên đám mây và biên.
AI hiện đang cung cấp năng lượng cho các ứng dụng thực tế, nhưng các ngăn xếp phần mềm rời rạc đang kìm hãm nó. Các nhà phát triển thường xuyên xây dựng lại cùng một mô hình cho các mục tiêu phần cứng khác nhau, mất thời gian cho mã kết dính thay vì xuất xưởng các tính năng. Tin tốt là một sự thay đổi đang diễn ra. Các chuỗi công cụ thống nhất và các thư viện được tối ưu hóa đang giúp có thể triển khai các mô hình trên các nền tảng mà không ảnh hưởng đến hiệu suất.
Tuy nhiên, một trở ngại quan trọng vẫn còn: sự phức tạp của phần mềm. Các công cụ khác nhau, tối ưu hóa cụ thể cho phần cứng và các ngăn xếp công nghệ phân lớp tiếp tục gây khó khăn cho sự tiến bộ. Để mở khóa làn sóng đổi mới AI tiếp theo, ngành phải xoay chuyển một cách quyết định khỏi phát triển biệt lập và hướng tới các nền tảng đầu cuối được sắp xếp hợp lý.
Sự chuyển đổi này đã hình thành. Các nhà cung cấp đám mây lớn, nhà cung cấp nền tảng biên và cộng đồng nguồn mở đang hội tụ trên các chuỗi công cụ thống nhất giúp đơn giản hóa quá trình phát triển và tăng tốc triển khai, từ đám mây đến biên. Trong bài viết này, chúng ta sẽ khám phá lý do tại sao đơn giản hóa là chìa khóa cho AI có thể mở rộng, điều gì đang thúc đẩy động lực này và cách các nền tảng thế hệ tiếp theo đang biến tầm nhìn đó thành kết quả thực tế.
Điểm nghẽn: phân mảnh, phức tạp và kém hiệu quả
Vấn đề không chỉ là sự đa dạng của phần cứng; đó là nỗ lực trùng lặp trên các khung và mục tiêu làm chậm thời gian tạo ra giá trị.
- Các mục tiêu phần cứng đa dạng: GPU, NPU, thiết bị chỉ có CPU, SoC di động và bộ tăng tốc tùy chỉnh.
- Phân mảnh công cụ và khung: TensorFlow, PyTorch, ONNX, MediaPipe và những thứ khác.
- Hạn chế về biên: Các thiết bị yêu cầu hiệu suất theo thời gian thực, tiết kiệm năng lượng với chi phí tối thiểu.
Theo Gartner Research, những sự không phù hợp này tạo ra một trở ngại chính: hơn 60% các sáng kiến AI bị đình trệ trước khi sản xuất, do sự phức tạp của tích hợp và sự thay đổi hiệu suất.
Đơn giản hóa phần mềm trông như thế nào
Sự đơn giản hóa đang kết hợp xung quanh năm động thái giúp cắt giảm chi phí và rủi ro tái thiết kế:
- Các lớp trừu tượng đa nền tảng giúp giảm thiểu việc tái thiết kế khi chuyển các mô hình.
- Các thư viện được điều chỉnh hiệu suất được tích hợp vào các khung ML chính.
- Thiết kế kiến trúc thống nhất có quy mô từ trung tâm dữ liệu đến thiết bị di động.
- Các tiêu chuẩn và thời gian chạy mở (ví dụ: ONNX, MLIR) giảm khóa và cải thiện khả năng tương thích.
- Hệ sinh thái ưu tiên nhà phát triển nhấn mạnh tốc độ, khả năng tái tạo và khả năng mở rộng.
Những thay đổi này đang làm cho AI dễ tiếp cận hơn, đặc biệt là đối với các công ty khởi nghiệp và nhóm học thuật trước đây thiếu nguồn lực để tối ưu hóa theo yêu cầu. Các dự án như Optimum của Hugging Face và các điểm chuẩn MLPerf cũng đang giúp tiêu chuẩn hóa và xác nhận hiệu suất trên phần cứng chéo.
Động lực của hệ sinh thái và các tín hiệu thực tế Sự đơn giản hóa không còn là khát vọng nữa; nó đang xảy ra ngay bây giờ. Trong toàn ngành, các cân nhắc về phần mềm đang ảnh hưởng đến các quyết định ở cấp độ IP và thiết kế silicon, dẫn đến các giải pháp sẵn sàng sản xuất ngay từ ngày đầu tiên. Những người chơi hệ sinh thái lớn đang thúc đẩy sự thay đổi này bằng cách điều chỉnh các nỗ lực phát triển phần cứng và phần mềm, mang lại sự tích hợp chặt chẽ hơn trên toàn bộ ngăn xếp.
Một chất xúc tác quan trọng là sự trỗi dậy nhanh chóng của suy luận biên, trong đó các mô hình AI được triển khai trực tiếp trên các thiết bị thay vì trên đám mây. Điều này đã làm tăng nhu cầu về các ngăn xếp phần mềm được sắp xếp hợp lý hỗ trợ tối ưu hóa đầu cuối, từ silicon đến hệ thống đến ứng dụng. Các công ty như Arm đang đáp ứng bằng cách cho phép kết hợp chặt chẽ hơn giữa các nền tảng điện toán và chuỗi công cụ phần mềm của họ, giúp các nhà phát triển tăng tốc thời gian triển khai mà không ảnh hưởng đến hiệu suất hoặc tính di động. Sự xuất hiện của các mô hình nền tảng đa phương thức và đa năng (ví dụ: LLaMA, Gemini, Claude) cũng đã thêm vào tính cấp thiết. Các mô hình này yêu cầu thời gian chạy linh hoạt có thể mở rộng trên môi trường đám mây và biên. Các tác nhân AI, tương tác, điều chỉnh và thực hiện các tác vụ một cách tự động, tiếp tục thúc đẩy nhu cầu về phần mềm đa nền tảng, hiệu quả cao.
MLPerf Inference v3.1 bao gồm hơn 13.500 kết quả hiệu suất từ 26 người gửi, xác nhận điểm chuẩn đa nền tảng về khối lượng công việc AI. Kết quả trải rộng trên cả trung tâm dữ liệu và thiết bị biên, thể hiện sự đa dạng của các triển khai được tối ưu hóa hiện đang được thử nghiệm và chia sẻ.
Tổng hợp lại, những tín hiệu này làm rõ rằng nhu cầu và ưu đãi của thị trường đang phù hợp với một tập hợp các ưu tiên chung, bao gồm tối đa hóa hiệu suất trên mỗi watt, đảm bảo tính di động, giảm thiểu độ trễ và cung cấp bảo mật và tính nhất quán ở quy mô lớn.
Điều gì phải xảy ra để đơn giản hóa thành công
Để nhận ra lời hứa của các nền tảng AI đơn giản hóa, một số điều phải xảy ra:
- Đồng thiết kế phần cứng/phần mềm mạnh mẽ: các tính năng phần cứng được hiển thị trong các khung phần mềm (ví dụ: bộ nhân ma trận, hướng dẫn bộ tăng tốc) và ngược lại, phần mềm được thiết kế để tận dụng phần cứng cơ bản.
- Chuỗi công cụ và thư viện mạnh mẽ, nhất quán: nhà phát triển cần các thư viện đáng tin cậy, được ghi chép đầy đủ, hoạt động trên các thiết bị. Tính di động hiệu suất chỉ hữu ích nếu các công cụ ổn định và được hỗ trợ tốt.
- Hệ sinh thái mở: nhà cung cấp phần cứng, người bảo trì khung phần mềm và nhà phát triển mô hình cần hợp tác. Các tiêu chuẩn và dự án được chia sẻ giúp tránh việc phát minh lại bánh xe cho mọi thiết bị hoặc trường hợp sử dụng mới.
- Các trừu tượng không làm lu mờ hiệu suất: mặc dù trừu tượng cấp cao giúp các nhà phát triển, nhưng chúng vẫn phải cho phép điều chỉnh hoặc hiển thị khi cần thiết. Sự cân bằng phù hợp giữa trừu tượng và kiểm soát là chìa khóa.
- Bảo mật, quyền riêng tư và lòng tin được tích hợp sẵn: đặc biệt là khi nhiều điện toán chuyển sang thiết bị (biên/di động), các vấn đề như bảo vệ dữ liệu, thực thi an toàn, tính toàn vẹn của mô hình và quyền riêng tư mới quan trọng.
Arm là một ví dụ về sự đơn giản hóa do hệ sinh thái dẫn dắt
Đơn giản hóa AI ở quy mô lớn hiện phụ thuộc vào thiết kế trên toàn hệ thống, nơi silicon, phần mềm và công cụ phát triển phát triển đồng bộ. Cách tiếp cận này cho phép khối lượng công việc AI chạy hiệu quả trên các môi trường đa dạng, từ các cụm suy luận đám mây đến các thiết bị biên bị hạn chế pin. Nó cũng làm giảm chi phí tối ưu hóa theo yêu cầu, giúp đưa các sản phẩm mới ra thị trường nhanh hơn. Arm (Nasdaq:Arm) đang thúc đẩy mô hình này với trọng tâm hướng đến nền tảng giúp đẩy các tối ưu hóa phần cứng-phần mềm lên thông qua ngăn xếp phần mềm. Tại COMPUTEX 2025, Arm đã chứng minh cách CPU Arm9 mới nhất của họ, kết hợp với các phần mở rộng ISA dành riêng cho AI và các thư viện Kleidi, cho phép tích hợp chặt chẽ hơn với các khung được sử dụng rộng rãi như PyTorch, ExecuTorch, ONNX Runtime và MediaPipe. Sự liên kết này làm giảm nhu cầu về các kernel tùy chỉnh hoặc các toán tử được điều chỉnh bằng tay, cho phép các nhà phát triển mở khóa hiệu suất phần cứng mà không từ bỏ các chuỗi công cụ quen thuộc.
Hàm ý thực tế là rất lớn. Trong trung tâm dữ liệu, các nền tảng dựa trên Arm đang mang lại hiệu suất trên mỗi watt được cải thiện, rất quan trọng để mở rộng khối lượng công việc AI một cách bền vững. Trên các thiết bị tiêu dùng, những tối ưu hóa này cho phép trải nghiệm người dùng siêu phản hồi và trí thông minh nền luôn bật, nhưng tiết kiệm năng lượng.
Nói rộng hơn, ngành đang kết hợp xung quanh sự đơn giản hóa như một mệnh lệnh thiết kế, nhúng hỗ trợ AI trực tiếp vào lộ trình phần cứng, tối ưu hóa cho tính di động của phần mềm và tiêu chuẩn hóa hỗ trợ cho thời gian chạy AI chính thống. Cách tiếp cận của Arm minh họa cách tích hợp sâu trên toàn bộ ngăn xếp điện toán có thể biến AI có thể mở rộng thành một thực tế thiết thực.
Xác nhận thị trường và động lực
Vào năm 2025, gần một nửa số điện toán được vận chuyển đến các hyperscaler lớn sẽ chạy trên kiến trúc dựa trên Arm, một cột mốc nhấn mạnh một sự thay đổi đáng kể trong cơ sở hạ tầng đám mây. Khi khối lượng công việc AI trở nên thâm dụng tài nguyên hơn, các nhà cung cấp đám mây đang ưu tiên các kiến trúc mang lại hiệu suất trên mỗi watt vượt trội và hỗ trợ tính di động của phần mềm liền mạch. Sự phát triển này đánh dấu một trục chiến lược hướng tới cơ sở hạ tầng có thể mở rộng, tiết kiệm năng lượng được tối ưu hóa cho hiệu suất và nhu cầu của AI hiện đại.
Ở biên, các công cụ suy luận tương thích với Arm đang cho phép trải nghiệm thời gian thực, chẳng hạn như dịch trực tiếp và trợ lý giọng nói luôn bật, trên các thiết bị chạy bằng pin. Những tiến bộ này mang lại khả năng AI mạnh mẽ trực tiếp cho người dùng mà không làm giảm hiệu quả năng lượng.
Động lực của nhà phát triển cũng đang tăng tốc. Trong một hợp tác gần đây, GitHub và Arm đã giới thiệu Arm Linux và Windows runner gốc cho GitHub Actions, sắp xếp hợp lý các quy trình CI cho các nền tảng dựa trên Arm. Các công cụ này hạ thấp rào cản gia nhập cho các nhà phát triển và cho phép phát triển đa nền tảng, hiệu quả hơn ở quy mô lớn.
Điều gì xảy ra tiếp theo
Đơn giản hóa không có nghĩa là loại bỏ hoàn toàn sự phức tạp; nó có nghĩa là quản lý nó theo những cách trao quyền cho sự đổi mới. Khi ngăn xếp AI ổn định, người chiến thắng sẽ là những người mang lại hiệu suất liền mạch trên một bối cảnh phân mảnh.
Từ góc độ hướng tới tương lai, hãy mong đợi:
- Điểm chuẩn như lan can bảo vệ: Bộ MLPerf + OSS hướng dẫn nơi tối ưu hóa tiếp theo.
- Nhiều ngược dòng hơn, ít nhánh hơn: Các tính năng phần cứng nằm trong các công cụ chính thống, không phải các nhánh tùy chỉnh.
- Hội tụ nghiên cứu + sản xuất: Bàn giao nhanh hơn từ các bài báo sang sản phẩm thông qua thời gian chạy được chia sẻ.
Kết luận
Giai đoạn tiếp theo của AI không phải là về phần cứng kỳ lạ; nó cũng là về phần mềm đi tốt. Khi cùng một mô hình đáp ứng hiệu quả trên đám mây, máy khách và biên, các nhóm sẽ xuất xưởng nhanh hơn và tốn ít thời gian hơn để xây dựng lại ngăn xếp.
Sự đơn giản hóa trên toàn hệ sinh thái, không phải khẩu hiệu do thương hiệu dẫn đầu, sẽ phân tách những người chiến thắng. Sách hướng dẫn thực tế rất rõ ràng: thống nhất các nền tảng, tối ưu hóa ngược dòng và đo lường bằng các điểm chuẩn mở. Khám phá cách các nền tảng phần mềm Arm AI đang cho phép tương lai này — hiệu quả, an toàn và ở quy mô lớn.
Các bài viết được tài trợ là nội dung do một công ty sản xuất, công ty này đang trả tiền cho bài đăng hoặc có mối quan hệ kinh doanh với VentureBeat và chúng luôn được đánh dấu rõ ràng. Để biết thêm thông tin, hãy liên hệ sales@venturebeat.com.