Sản phẩm Cơ sở hạ tầng AI mới của ScaleOps giảm 50% chi phí GPU cho các LLM doanh nghiệp tự lưu trữ cho những người dùng đầu tiên

Sản phẩm Cơ sở hạ tầng AI được công bố hôm nay, mở rộng khả năng tự động hóa hiện có của công ty để giải quyết nhu cầu ngày càng tăng về việc sử dụng GPU hiệu quả, hiệu suất dự đoán được và giảm gánh nặng vận hành trong các triển khai AI quy mô lớn.

  • 8 min read
Sản phẩm Cơ sở hạ tầng AI mới của ScaleOps giảm 50% chi phí GPU cho các LLM doanh nghiệp tự lưu trữ cho những người dùng đầu tiên
Sản phẩm Cơ sở hạ tầng AI được công bố hôm nay, mở rộng khả năng tự động hóa hiện có của công ty để giải quyết nhu cầu ngày càng tăng về việc sử dụng GPU hiệu quả, hiệu suất dự đoán được và giảm gánh nặng vận hành trong các triển khai AI quy mô lớn.

ScaleOps ra mắt sản phẩm hạ tầng AI mới, giảm 50% chi phí GPU cho LLM tự host của doanh nghiệp cho những người dùng đầu tiên

ScaleOps đã mở rộng nền tảng quản lý tài nguyên đám mây của mình với một sản phẩm mới nhắm đến các doanh nghiệp đang vận hành các mô hình ngôn ngữ lớn (LLM) tự host và các ứng dụng AI dựa trên GPU.

Sản phẩm AI Infra Product được công bố hôm nay, mở rộng khả năng tự động hóa hiện có của công ty để giải quyết nhu cầu ngày càng tăng về việc sử dụng GPU hiệu quả, hiệu suất có thể dự đoán và giảm gánh nặng vận hành trong các triển khai AI quy mô lớn.

Công ty cho biết hệ thống này hiện đang hoạt động trong môi trường sản xuất của doanh nghiệp và mang lại những cải thiện đáng kể về hiệu quả cho những người dùng đầu tiên, giảm chi phí GPU từ 50% đến 70%, theo công ty. ScaleOps không công khai niêm yết giá doanh nghiệp cho giải pháp này mà thay vào đó mời khách hàng quan tâm nhận báo giá tùy chỉnh dựa trên quy mô và nhu cầu hoạt động của họ tại đây.

Yodar Shafrir, CEO và Đồng sáng lập của ScaleOps, cho biết trong một email gửi VentureBeat rằng nền tảng này sử dụng “cơ chế chủ động và phản ứng để xử lý các đỉnh đột ngột mà không ảnh hưởng đến hiệu suất”, đồng thời lưu ý rằng các chính sách điều chỉnh quy mô tải công việc của nó “tự động quản lý dung lượng để giữ cho tài nguyên sẵn sàng.”

Ông nói thêm rằng việc giảm thiểu độ trễ khởi động lạnh của GPU là một ưu tiên, nhấn mạnh rằng hệ thống “đảm bảo phản hồi tức thì khi lưu lượng truy cập tăng đột biến”, đặc biệt đối với các khối lượng công việc AI, nơi thời gian tải mô hình là đáng kể.

Mở rộng Tự động hóa Tài nguyên sang Hạ tầng AI

Các doanh nghiệp triển khai các mô hình AI tự host đối mặt với sự biến đổi về hiệu suất, thời gian tải dài và sự thiếu hiệu quả liên tục của tài nguyên GPU. ScaleOps định vị Sản phẩm Hạ tầng AI mới như một phản ứng trực tiếp đối với các vấn đề này.

Nền tảng này phân bổ và điều chỉnh quy mô tài nguyên GPU theo thời gian thực và thích ứng với những thay đổi về nhu cầu lưu lượng truy cập mà không yêu cầu sửa đổi các đường ống triển khai mô hình hiện có hoặc mã ứng dụng.

Theo ScaleOps, hệ thống này quản lý môi trường sản xuất cho các tổ chức bao gồm Wiz, DocuSign, Rubrik, Coupa, Alkami, Vantor, Grubhub, Island, Chewy và một số công ty Fortune 500.

Sản phẩm AI Infra giới thiệu các chính sách điều chỉnh quy mô theo nhận biết tải công việc, điều chỉnh dung lượng một cách chủ động và phản ứng để duy trì hiệu suất trong thời gian lưu lượng truy cập tăng đột biến. Công ty tuyên bố rằng các chính sách này giảm độ trễ khởi động lạnh liên quan đến việc tải các mô hình AI lớn, giúp cải thiện khả năng phản hồi khi lưu lượng truy cập tăng lên.

Tích hợp Kỹ thuật và Khả năng Tương thích Nền tảng

Sản phẩm được thiết kế để tương thích với các mẫu hạ tầng doanh nghiệp phổ biến. Nó hoạt động trên tất cả các bản phân phối Kubernetes, các nền tảng đám mây lớn, trung tâm dữ liệu tại chỗ và môi trường bị cô lập. ScaleOps nhấn mạnh rằng việc triển khai không yêu cầu thay đổi mã, viết lại hạ tầng hoặc sửa đổi các tệp kê khai hiện có.

Shafrir cho biết nền tảng “tích hợp liền mạch vào các đường ống triển khai mô hình hiện có mà không yêu cầu bất kỳ thay đổi mã hoặc hạ tầng nào”, và ông nói thêm rằng các nhóm có thể bắt đầu tối ưu hóa ngay lập tức với các công cụ GitOps, CI/CD, giám sát và triển khai hiện có của họ.

Shafrir cũng giải quyết cách thức tự động hóa tương tác với các hệ thống hiện có. Ông cho biết nền tảng hoạt động mà không làm gián đoạn quy trình làm việc hoặc tạo xung đột với logic lập lịch hoặc điều chỉnh quy mô tùy chỉnh, giải thích rằng hệ thống “không thay đổi các tệp kê khai hoặc logic triển khai” mà thay vào đó tăng cường các bộ lập lịch, bộ tự động điều chỉnh và các chính sách tùy chỉnh bằng cách kết hợp ngữ cảnh hoạt động thời gian thực trong khi tôn trọng các ranh giới cấu hình hiện có.

Hiệu suất, Khả năng hiển thị và Kiểm soát Người dùng

Nền tảng cung cấp khả năng hiển thị đầy đủ về việc sử dụng GPU, hành vi mô hình, số liệu hiệu suất và các quyết định điều chỉnh quy mô ở nhiều cấp độ, bao gồm pod, khối lượng công việc, nút và cụm. Mặc dù hệ thống áp dụng các chính sách điều chỉnh quy mô khối lượng công việc mặc định, ScaleOps lưu ý rằng các nhóm kỹ thuật vẫn giữ khả năng tinh chỉnh các chính sách này khi cần thiết.

Trong thực tế, công ty nhằm mục đích giảm hoặc loại bỏ việc tinh chỉnh thủ công mà các nhóm DevOps và AIOps thường thực hiện để quản lý khối lượng công việc AI. Việc cài đặt được dự định yêu cầu nỗ lực tối thiểu, được ScaleOps mô tả là một quy trình hai phút sử dụng một cờ helm duy nhất, sau đó quá trình tối ưu hóa có thể được kích hoạt thông qua một hành động duy nhất.

Tiết kiệm Chi phí và Các Nghiên cứu Trường hợp Doanh nghiệp

ScaleOps báo cáo rằng các lần triển khai ban đầu của Sản phẩm AI Infra đã đạt được mức giảm chi phí GPU từ 50–70% trong môi trường khách hàng. Công ty đã trích dẫn hai ví dụ:

  • Một công ty phần mềm sáng tạo lớn vận hành hàng nghìn GPU có mức sử dụng trung bình 20% trước khi áp dụng ScaleOps. Sản phẩm này đã tăng mức sử dụng, hợp nhất công suất sử dụng chưa đầy đủ và cho phép các nút GPU giảm quy mô. Những thay đổi này đã giảm hơn một nửa chi tiêu GPU tổng thể. Công ty cũng báo cáo giảm 35% độ trễ cho các khối lượng công việc chính.
  • Một công ty trò chơi toàn cầu đã sử dụng nền tảng để tối ưu hóa một khối lượng công việc LLM động chạy trên hàng trăm GPU. Theo ScaleOps, sản phẩm này đã tăng mức sử dụng lên gấp bảy lần trong khi vẫn duy trì hiệu suất dịch vụ. Khách hàng ước tính tiết kiệm 1,4 triệu đô la hàng năm chỉ từ khối lượng công việc này.

ScaleOps tuyên bố rằng mức tiết kiệm GPU dự kiến thường vượt quá chi phí áp dụng và vận hành nền tảng, và các khách hàng có ngân sách hạ tầng hạn chế đã báo cáo thời gian hoàn vốn nhanh chóng.

Bối cảnh Ngành và Quan điểm Công ty

Việc áp dụng nhanh chóng các mô hình AI tự host đã tạo ra những thách thức hoạt động mới cho các doanh nghiệp, đặc biệt là xung quanh hiệu quả GPU và sự phức tạp của việc quản lý khối lượng công việc quy mô lớn. Shafrir mô tả bối cảnh rộng lớn hơn là một nơi mà “hạ tầng AI gốc trên đám mây đang đạt đến điểm bùng phát.”

“Các kiến trúc gốc trên đám mây đã mở ra sự linh hoạt và kiểm soát tuyệt vời, nhưng chúng cũng tạo ra một cấp độ phức tạp mới,” ông nói trong thông báo. “Việc quản lý tài nguyên GPU ở quy mô lớn đã trở nên hỗn loạn—lãng phí, các vấn đề về hiệu suất và chi phí tăng vọt giờ đây là tiêu chuẩn. Nền tảng ScaleOps được xây dựng để khắc phục điều này. Nó cung cấp giải pháp hoàn chỉnh để quản lý và tối ưu hóa tài nguyên GPU trong môi trường gốc trên đám mây, cho phép các doanh nghiệp chạy LLM và ứng dụng AI một cách hiệu quả, tiết kiệm chi phí và đồng thời cải thiện hiệu suất.”

Shafrir nói thêm rằng sản phẩm này tập hợp đầy đủ các chức năng quản lý tài nguyên đám mây cần thiết để quản lý nhiều khối lượng công việc khác nhau ở quy mô lớn. Công ty định vị nền tảng như một hệ thống toàn diện để tối ưu hóa liên tục, tự động.

Một Phương pháp Tiếp cận Thống nhất cho Tương lai

Với việc bổ sung Sản phẩm AI Infra, ScaleOps đặt mục tiêu thiết lập một phương pháp tiếp cận thống nhất để quản lý GPU và khối lượng công việc AI, tích hợp với hạ tầng doanh nghiệp hiện có.

Các số liệu hiệu suất ban đầu của nền tảng và mức tiết kiệm chi phí được báo cáo cho thấy sự tập trung vào việc cải thiện hiệu quả có thể đo lường được trong hệ sinh thái ngày càng mở rộng của các triển khai AI tự host.

Recommended for You

Gia đình Olmo 3 của Ai2 thách thức Qwen và Llama với khả năng tùy chỉnh và suy luận mở hiệu quả

Gia đình Olmo 3 của Ai2 thách thức Qwen và Llama với khả năng tùy chỉnh và suy luận mở hiệu quả

Viện Allen về AI (Ai2) hy vọng sẽ tận dụng nhu cầu ngày càng tăng đối với các mô hình tùy chỉnh và các doanh nghiệp đang tìm kiếm sự minh bạch hơn từ các mô hình AI với bản phát hành mới nhất của mình.

Grok 4.1 Fast truy cập dành cho nhà phát triển hấp dẫn và API Công cụ Tác nhân bị lu mờ bởi sự tâng bốc của Musk

Grok 4.1 Fast truy cập dành cho nhà phát triển hấp dẫn và API Công cụ Tác nhân bị lu mờ bởi sự tâng bốc của Musk

Công ty khởi nghiệp AI tạo sinh tiên phong của Elon Musk, xAI, đã chính thức mở quyền truy cập của nhà phát triển vào các mô hình Grok 4.1 Fast của mình vào tối qua và giới thiệu API Công cụ Tác nhân mới—nhưng các cột mốc kỹ thuật đã nhanh chóng bị lu mờ bởi làn sóng chế giễu của công chúng về các phản hồi của Grok trên mạng xã hội X trong vài ngày qua ca ngợi người tạo ra nó, Musk, là người có năng lực thể thao hơn các cầu thủ bóng đá Mỹ vô địch và võ sĩ huyền thoại Mike Tyson, mặc dù không thể hiện bất kỳ kỹ năng công khai nào ở cả hai môn thể thao.