Tại sao kỷ nguyên AI đang buộc phải thiết kế lại toàn bộ xương sống điện toán

Kỷ nguyên AI đang buộc phải thiết kế lại toàn bộ xương sống điện toán.

  • 13 min read
Tại sao kỷ nguyên AI đang buộc phải thiết kế lại toàn bộ xương sống điện toán
Kỷ nguyên AI đang buộc phải thiết kế lại toàn bộ xương sống điện toán.

Tại sao kỷ nguyên AI đang buộc phải thiết kế lại toàn bộ xương sống điện toán

Khách mời

Bạn muốn những thông tin chi tiết thông minh hơn trong hộp thư đến của mình? Đăng ký nhận bản tin hàng tuần của chúng tôi để chỉ nhận những gì quan trọng đối với các nhà lãnh đạo AI, dữ liệu và bảo mật doanh nghiệp. Đăng ký ngay


Trong vài thập kỷ qua, chúng ta đã chứng kiến những tiến bộ gần như không thể tưởng tượng được về hiệu suất và hiệu quả điện toán, nhờ Luật Moore và được hỗ trợ bởi phần cứng thương mại mở rộng quy mô và phần mềm liên kết lỏng lẻo. Kiến trúc này đã cung cấp các dịch vụ trực tuyến cho hàng tỷ người trên toàn cầu và đặt hầu như tất cả kiến thức của nhân loại vào trong tầm tay chúng ta.

Nhưng cuộc cách mạng điện toán tiếp theo sẽ đòi hỏi nhiều hơn thế nữa. Thực hiện lời hứa của AI đòi hỏi một sự thay đổi lớn về khả năng vượt xa những tiến bộ của kỷ nguyên internet. Để đạt được điều này, chúng ta với tư cách là một ngành phải xem xét lại một số nền tảng đã thúc đẩy sự chuyển đổi trước đó và đổi mới một cách tập thể để suy nghĩ lại toàn bộ ngăn xếp công nghệ. Hãy cùng khám phá những lực lượng thúc đẩy sự thay đổi lớn này và vạch ra kiến trúc này phải trông như thế nào.

Từ phần cứng thương mại đến điện toán chuyên dụng

Trong nhiều thập kỷ, xu hướng chủ đạo trong điện toán là sự dân chủ hóa điện toán thông qua kiến trúc mở rộng quy mô được xây dựng trên các máy chủ thương mại, gần như giống hệt nhau. Sự đồng nhất này cho phép vị trí khối lượng công việc linh hoạt và sử dụng tài nguyên hiệu quả. Nhu cầu của AI tổng quát, phụ thuộc nhiều vào các phép toán có thể đoán trước trên các tập dữ liệu khổng lồ, đang đảo ngược xu hướng này.

Hiện tại, chúng ta đang chứng kiến một sự thay đổi quyết định hướng tới phần cứng chuyên dụng - bao gồm ASIC, GPU và bộ xử lý tensor (TPU) - mang lại sự cải thiện đáng kể về hiệu suất trên mỗi đô la và trên mỗi watt so với CPU đa năng. Sự gia tăng của các đơn vị điện toán dành riêng cho từng miền, được tối ưu hóa cho các tác vụ hẹp hơn, sẽ rất quan trọng để thúc đẩy những tiến bộ nhanh chóng liên tục trong AI.


Chuỗi Tác động của AI Trở lại San Francisco - Ngày 5 tháng 8

Giai đoạn tiếp theo của AI đã đến - bạn đã sẵn sàng chưa? Tham gia cùng các nhà lãnh đạo từ Block, GSK và SAP để có cái nhìn độc quyền về cách các tác nhân tự trị đang định hình lại quy trình làm việc của doanh nghiệp - từ ra quyết định theo thời gian thực đến tự động hóa toàn diện.

Đảm bảo vị trí của bạn ngay bây giờ - không gian có hạn: https://bit.ly/3GuuPLF

Vượt ra ngoài ethernet: Sự trỗi dậy của các kết nối liên kết chuyên dụng

Các hệ thống chuyên dụng này thường sẽ yêu cầu giao tiếp “tất cả-với-tất cả”, với băng thông terabit trên giây và độ trễ nano giây gần bằng tốc độ bộ nhớ cục bộ. Các mạng ngày nay, phần lớn dựa trên các công tắc Ethernet thương mại và giao thức TCP/IP, không được trang bị tốt để xử lý những yêu cầu khắc nghiệt này.

Do đó, để mở rộng quy mô khối lượng công việc của AI tổng quát trên các cụm máy gia tốc chuyên dụng rộng lớn, chúng ta đang chứng kiến sự trỗi dậy của các kết nối liên kết chuyên dụng, chẳng hạn như ICI cho TPU và NVLink cho GPU. Các mạng được xây dựng có mục đích này ưu tiên truyền trực tiếp từ bộ nhớ sang bộ nhớ và sử dụng phần cứng chuyên dụng để tăng tốc độ chia sẻ thông tin giữa các bộ xử lý, bỏ qua hiệu quả chi phí của các ngăn xếp mạng theo lớp truyền thống.

Sự chuyển đổi này hướng tới mạng tập trung vào điện toán, tích hợp chặt chẽ sẽ rất cần thiết để vượt qua các tắc nghẽn giao tiếp và mở rộng quy mô AI thế hệ tiếp theo một cách hiệu quả.

Phá vỡ bức tường bộ nhớ

Trong nhiều thập kỷ, hiệu suất đạt được trong tính toán đã vượt xa sự tăng trưởng về băng thông bộ nhớ. Mặc dù các kỹ thuật như bộ nhớ đệm và SRAM xếp chồng lên nhau đã giảm thiểu phần nào điều này, nhưng bản chất sử dụng nhiều dữ liệu của AI chỉ làm trầm trọng thêm vấn đề.

Nhu cầu không ngừng cung cấp cho các đơn vị điện toán ngày càng mạnh mẽ đã dẫn đến bộ nhớ băng thông cao (HBM), xếp chồng DRAM trực tiếp trên gói bộ xử lý để tăng băng thông và giảm độ trễ. Tuy nhiên, ngay cả HBM cũng phải đối mặt với những hạn chế cơ bản: Chu vi chip vật lý hạn chế tổng luồng dữ liệu và việc di chuyển các tập dữ liệu khổng lồ ở tốc độ terabit tạo ra những hạn chế năng lượng đáng kể.

Những hạn chế này làm nổi bật nhu cầu quan trọng về kết nối băng thông cao hơn và nhấn mạnh sự cấp bách đối với những đột phá trong kiến trúc xử lý và bộ nhớ. Nếu không có những đổi mới này, tài nguyên điện toán mạnh mẽ của chúng ta sẽ ở trạng thái chờ dữ liệu, làm giảm đáng kể hiệu quả và quy mô.

Từ các trang trại máy chủ đến các hệ thống mật độ cao

Các mô hình máy học (ML) tiên tiến ngày nay thường dựa vào các phép tính được điều phối cẩn thận trên hàng chục đến hàng trăm nghìn phần tử điện toán giống hệt nhau, tiêu thụ năng lượng rất lớn. Sự liên kết chặt chẽ và đồng bộ hóa chi tiết ở cấp độ micro giây này đặt ra những yêu cầu mới. Không giống như các hệ thống chấp nhận tính không đồng nhất, các tính toán ML yêu cầu các phần tử đồng nhất; việc trộn các thế hệ sẽ làm tắc nghẽn các đơn vị nhanh hơn. Các đường dẫn giao tiếp cũng phải được lên kế hoạch trước và có hiệu quả cao, vì sự chậm trễ trong một phần tử duy nhất có thể làm đình trệ toàn bộ quá trình.

Những nhu cầu khắc nghiệt về điều phối và năng lượng này đang thúc đẩy nhu cầu về mật độ điện toán chưa từng có. Giảm thiểu khoảng cách vật lý giữa các bộ xử lý trở nên cần thiết để giảm độ trễ và tiêu thụ điện năng, mở đường cho một lớp hệ thống AI siêu dày đặc mới.

Sự thúc đẩy cho mật độ cực cao và tính toán phối hợp chặt chẽ này về cơ bản làm thay đổi thiết kế tối ưu cho cơ sở hạ tầng, đòi hỏi phải suy nghĩ lại một cách triệt để về bố cục vật lý và quản lý năng lượng động để ngăn chặn các tắc nghẽn hiệu suất và tối đa hóa hiệu quả.

Một phương pháp mới để dung sai lỗi

Dung sai lỗi truyền thống dựa vào tính dự phòng giữa các hệ thống kết nối lỏng lẻo để đạt được thời gian hoạt động cao. Điện toán ML đòi hỏi một cách tiếp cận khác.

Thứ nhất, quy mô tính toán quá lớn làm cho việc cung cấp quá mức trở nên quá tốn kém. Thứ hai, đào tạo mô hình là một quá trình đồng bộ hóa chặt chẽ, trong đó một lỗi duy nhất có thể lan đến hàng nghìn bộ xử lý. Cuối cùng, phần cứng ML tiên tiến thường đẩy đến ranh giới của công nghệ hiện tại, có khả năng dẫn đến tỷ lệ lỗi cao hơn.

Thay vào đó, chiến lược mới nổi bao gồm việc kiểm tra thường xuyên - lưu trạng thái tính toán - kết hợp với giám sát theo thời gian thực, phân bổ nhanh chóng các tài nguyên dự phòng và khởi động lại nhanh chóng. Phần cứng và thiết kế mạng cơ bản phải cho phép phát hiện lỗi nhanh chóng và thay thế thành phần liền mạch để duy trì hiệu suất.

Một cách tiếp cận bền vững hơn để cung cấp năng lượng

Ngày nay và trong tương lai, khả năng tiếp cận năng lượng là một nút thắt cổ chai quan trọng để mở rộng quy mô điện toán AI. Trong khi thiết kế hệ thống truyền thống tập trung vào hiệu suất tối đa trên mỗi chip, chúng ta phải chuyển sang thiết kế đầu cuối tập trung vào hiệu suất trên mỗi watt được cung cấp, ở quy mô lớn. Cách tiếp cận này rất quan trọng vì nó xem xét tất cả các thành phần của hệ thống - điện toán, mạng, bộ nhớ, cung cấp năng lượng, làm mát và khả năng chịu lỗi - hoạt động cùng nhau một cách liền mạch để duy trì hiệu suất. Việc tối ưu hóa các thành phần một cách riêng biệt sẽ hạn chế nghiêm trọng hiệu quả tổng thể của hệ thống.

Khi chúng ta thúc đẩy hiệu suất cao hơn, các chip riêng lẻ cần nhiều năng lượng hơn, thường vượt quá khả năng làm mát của các trung tâm dữ liệu làm mát bằng không khí truyền thống. Điều này đòi hỏi phải chuyển sang các giải pháp làm mát bằng chất lỏng sử dụng nhiều năng lượng hơn nhưng cuối cùng hiệu quả hơn và thiết kế lại cơ bản cơ sở hạ tầng làm mát của trung tâm dữ liệu.

Ngoài việc làm mát, các nguồn điện dự phòng thông thường, như nguồn cấp điện kép và máy phát điện diesel, tạo ra chi phí tài chính đáng kể và làm chậm quá trình cung cấp công suất. Thay vào đó, chúng ta phải kết hợp các nguồn điện và bộ nhớ khác nhau ở quy mô nhiều gigawatt, được quản lý bởi các bộ điều khiển lưới điện siêu nhỏ theo thời gian thực. Bằng cách tận dụng tính linh hoạt của khối lượng công việc AI và phân phối theo khu vực địa lý, chúng ta có thể cung cấp nhiều khả năng hơn mà không cần các hệ thống sao lưu tốn kém chỉ cần thiết vài giờ mỗi năm.

Mô hình năng lượng đang phát triển này cho phép phản hồi theo thời gian thực đối với tình trạng sẵn có của năng lượng - từ việc tắt các tính toán trong thời gian thiếu hụt đến các kỹ thuật tiên tiến như chia tỷ lệ tần số cho khối lượng công việc có thể chịu được hiệu suất giảm. Tất cả những điều này đòi hỏi đo từ xa và kích hoạt theo thời gian thực ở các cấp độ hiện không khả dụng.

Bảo mật và quyền riêng tư: Được tích hợp sẵn, không phải gắn thêm

Một bài học quan trọng từ kỷ nguyên internet là bảo mật và quyền riêng tư không thể được gắn một cách hiệu quả vào một kiến trúc hiện có. Các mối đe dọa từ những kẻ xấu sẽ chỉ ngày càng tinh vi hơn, đòi hỏi các biện pháp bảo vệ dữ liệu người dùng và tài sản trí tuệ độc quyền phải được xây dựng vào cấu trúc của cơ sở hạ tầng ML. Một quan sát quan trọng là AI cuối cùng sẽ tăng cường khả năng của kẻ tấn công. Điều này, đến lượt nó, có nghĩa là chúng ta phải đảm bảo rằng AI đồng thời siêu tăng cường khả năng phòng thủ của chúng ta.

Điều này bao gồm mã hóa dữ liệu đầu cuối, theo dõi dòng dữ liệu mạnh mẽ với nhật ký truy cập có thể xác minh, ranh giới bảo mật được thực thi bằng phần cứng để bảo vệ các tính toán nhạy cảm và các hệ thống quản lý khóa phức tạp. Tích hợp các biện pháp bảo vệ này từ đầu sẽ rất cần thiết để bảo vệ người dùng và duy trì lòng tin của họ. Giám sát theo thời gian thực những gì có khả năng là petabit/giây đo từ xa và ghi nhật ký sẽ là chìa khóa để xác định và vô hiệu hóa các vectơ tấn công kim-trong-đống-cỏ, bao gồm cả những vectơ đến từ các mối đe dọa bên trong.

Tốc độ như một mệnh lệnh chiến lược

Nhịp điệu của việc nâng cấp phần cứng đã thay đổi đáng kể. Không giống như sự phát triển giá đỡ theo giá đỡ gia tăng của cơ sở hạ tầng truyền thống, việc triển khai siêu máy tính ML đòi hỏi một cách tiếp cận khác về cơ bản. Điều này là do điện toán ML không dễ dàng chạy trên các triển khai không đồng nhất; mã điện toán, thuật toán và trình biên dịch phải được điều chỉnh cụ thể cho từng thế hệ phần cứng mới để tận dụng tối đa khả năng của nó. Tốc độ đổi mới cũng là chưa từng có, thường mang lại hệ số hai hoặc nhiều hơn về hiệu suất hàng năm so với phần cứng mới.

Do đó, thay vì nâng cấp dần dần, giờ đây cần phải triển khai đồng thời và ồ ạt phần cứng đồng nhất, thường là trên toàn bộ trung tâm dữ liệu. Với việc làm mới phần cứng hàng năm mang lại những cải tiến về hiệu suất theo hệ số nguyên, khả năng thiết lập nhanh chóng các công cụ AI khổng lồ này là tối quan trọng.

Mục tiêu phải là rút ngắn dòng thời gian từ thiết kế đến triển khai hoàn toàn hơn 100.000 chip, cho phép cải thiện hiệu quả đồng thời hỗ trợ các đột phá về thuật toán. Điều này đòi hỏi phải tăng tốc và tự động hóa triệt để mọi giai đoạn, đòi hỏi một mô hình giống như sản xuất cho các cơ sở hạ tầng này. Từ kiến trúc đến giám sát và sửa chữa, mọi bước phải được sắp xếp hợp lý và tự động hóa để tận dụng mọi thế hệ phần cứng ở quy mô chưa từng có.

Đáp ứng thời điểm: Nỗ lực tập thể cho cơ sở hạ tầng AI thế hệ tiếp theo

Sự trỗi dậy của AI tổng quát đánh dấu không chỉ là một sự phát triển, mà là một cuộc cách mạng đòi hỏi phải hình dung lại một cách triệt để cơ sở hạ tầng điện toán của chúng ta. Những thách thức phía trước - về phần cứng chuyên dụng, mạng kết nối và hoạt động bền vững - là rất quan trọng, nhưng tiềm năng biến đổi của AI mà nó sẽ cho phép cũng vậy.

Có thể dễ dàng thấy rằng cơ sở hạ tầng điện toán kết quả của chúng ta sẽ không thể nhận ra trong vài năm tới, có nghĩa là chúng ta không thể chỉ cải thiện các bản thiết kế mà chúng ta đã thiết kế. Thay vào đó, chúng ta phải cùng nhau, từ nghiên cứu đến công nghiệp, bắt tay vào nỗ lực xem xét lại các yêu cầu của điện toán AI từ các nguyên tắc đầu tiên, xây dựng một bản thiết kế mới cho cơ sở hạ tầng toàn cầu cơ bản. Điều này đến lượt nó sẽ dẫn đến những khả năng hoàn toàn mới, từ y học đến giáo dục đến kinh doanh, ở quy mô và hiệu quả chưa từng có.

Amin Vahdat là Phó Chủ tịch và Tổng Giám đốc phụ trách máy học, hệ thống và AI đám mây tại Google Cloud.

Recommended for You

Tại sao các nhà phát triển giỏi nhất trong tương lai sẽ không chỉ viết code - họ sẽ quản lý, điều phối và điều khiển AI

Tại sao các nhà phát triển giỏi nhất trong tương lai sẽ không chỉ viết code - họ sẽ quản lý, điều phối và điều khiển AI

Các nhà phát triển giỏi nhất trong tương lai sẽ không chỉ viết code mà còn quản lý, điều phối và điều khiển AI.

Google phát hành công khai Gemini 2.5 'Deep Think' AI, người chiến thắng huy chương Olympiad - nhưng có một điều kiện...

Google phát hành công khai Gemini 2.5 'Deep Think' AI, người chiến thắng huy chương Olympiad - nhưng có một điều kiện...

Google phát hành công khai Gemini 2.5 'Deep Think' AI, người chiến thắng huy chương Olympiad - nhưng có một điều kiện...