大手クラウドはクラウド専用チップで戦う時代へ。各社がクラウド基盤に専用SoC、サーバにArm、AI処理に独自プロセッサを相次いで採用

今回は「大手クラウドはクラウド専用チップで戦う時代へ。各社がクラウド基盤に専用SoC、サーバにArm、AI処理に独自プロセッサを相次いで採用」についてご紹介します。

関連ワード（世代、推論処理、機械学習用等）についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。

今から10年以上前にクラウドが登場した当時、その中味はインテルのプロセッサを搭載したサーバとその上で実行される仮想化ハイパーバイザを中心に構成されていました。

しかしその後、2017年にはAmazon Web Services（AWS）は、クラウド基盤に独自開発したSystem on a Chip（SoC）を載せたNitro Systemを2013年から採用していることを明らかにします。

同じ2017年、Googleも機械学習に最適化した専用プロセッサを利用したサービス「Cloud TPU」を発表するなど、大手クラウド事業者はその規模を活かしてクラウドに最適化したチップを開発し採用することで、他社との差別化を図ろうとしていることが明らかになってきました

そして今月（2023年11月）、マイクロソフトがクラウドインフラ専用SoCを採用した「Azure Boost」を正式版とし、高電力効率を実現するArmベースの独自プロセッサ「Azure Cobalt」と独自設計のAIチップ「Azure Maia」を相次いで発表したことで、AWS、Microsoft Azure、Google Cloudの3大クラウド事業者は本格的にクラウド専用チップで戦う時代に入ったように見えます。

AWS、マイクロソフト、Googleの各社におけるチップレベルの取り組みをまとめてみましょう。

AWS：クラウド基盤にNitro System

前述の通り、AWSは2017年11月のイベント「AWS re:Invent 2017」で、同社クラウド独自の基盤技術である「Nitro System」（ナイトロシステム）の存在を明かし、2013年から採用していると説明しました。

Nitro Systemは、もともとAmazon EC2を実現するためにホストサーバで稼働していたソフトウェアを、AWSが独自に開発したハードウェアにオフロードしたものです。

処理がオフロードされたことで、ホストサーバの能力のほとんどすべてがユーザーのインスタンスに振り分けられるようになり、Amazon EC2と関連するネットワークやストレージ性能の向上にも寄与しています。

2022年に開催された「AWS re:Invent 2022」では、このNitro Systemの最新版として「AWS Nitro v5」が発表され、さらなる性能向上が図られています。

AWS：サーバにArmベースのGraviton

2018年に開催された「AWS re:Invent 2018」で、AWSは2015年に買収したASICベンダであるAnnapurna Labsが設計と製造を担当した16コアの64ビットARMプロセッサである「AWS Graviton Processor」を発表。高効率なプロセッサとして、従来のインテルXeonプロセッサと比較してワークロードあたり45％の低コストで利用できると説明しました。

2019年には第二世代となる「Graviton 2」を発表。初代と比較してコア数で4倍、メモリの速度で5倍、全体として 7倍の性能向上を実現し、x86世代のインスタンスと比較して40％の価格性能比があると説明。

2021年に発表されたGraviton 3プロセッサは、Graviton 2と比較して浮動小数点演算で2倍、機械学習で3倍の能力を備え、最大で60％の電力消費量削減を実現しています。

AWS：機械学習と推論にInferentiaとTrainium

「AWS re:Invent 2018」ではGravitonだけでなく、機械学習用プロセッサ「AWS Inferentia」も発表されています。

「AWS Inferentia」は推論を高速かつ効率よく実行することに特化したプロセッサで、TensorFlow、MXNET、PyTorch、Caffe2、ONNXなど主要な機械学習フレームワークに対応します。

2020年に開催された「AWS re:Invent 2020」で、AWSは機械学習のトレーニング処理に最適化した独自プロセッサ「Trainium」を発表しました。

Trainiumは、TensorFlow、PyTorch、MXNetなどの主要な機械学習ライブラリに対応し、機械学習のトレーニング処理でテラフロップス級の性能を発揮。従来のプロセッサやGPUを用いた場合よりも高速で安価なトレーニング処理を実現すると説明されています。

Microsoft Azure：クラウド基盤にAzure Boot

AWSに続いてMicrosoft Azureの動向を見ていきます。

マイクロソフトはMicrosoft Azureの基盤システムとして、ハイパーバイザとホストOSが行っていた処理を専用のシステムオンチップ（SoC）を用いたNICにオフロードし、より高性能なクラウド基盤によるインスタンスを提供する「Azure Boost」を今年（2023年）7月にプレビュー公開し、11月に正式版になったと発表しました。

参考：マイクロソフト、クラウド専用チップでAureの仮想マシンを強化する「Azure Boost」が正式版に

Microsoft Azure：サーバにArmベースのAzure Cobalt

今月（2023年11月）開催されたイベント「Microsoft Ignite 2023」で、マイクロソフトが突如発表したのが、クラウド向けに最適化したArmベースの独自設計プロセッサ「Microsoft Azure Cobalt」です。

同社CEOのサティア・ナデラ氏はこの64ビット 128コアのArmベースチップがあらゆるクラウドプロバイダの中で最速だと説明し、AWS Gravitonよりも優れているとの自信をにじませています。

Microsoft Azure：機械学習と推論にAzure Maia

「Microsoft Ignite 2023」では、AIの学習や推論処理を高速に実行可能な独自設計のAIアクセラレータチップ「Azure Maia」も発表されました。

専用の冷却機構を備えたラックに組み込まれたAzure Maiaは、すでにGitHub Copilotを含む同社のAIサービスに使われており、今後外部にも公開されていく予定です。

こうしてマイクロソフトは、AWSが独自に開発したNitro System、Graviton、Inferentia、Trainiumにそれぞれ対抗するシステムやチップを揃えたことになります。

これらを見ると、マイクロソフトはとにかく顧客から見てAWSとほぼ同等の性能とコストを備えたクラウドインフラを実現したうえで、少なくとも現時点で同社がAWSよりも明らかに優位だと考えられる開発者向けツールやCopilotによるAIサービスをMicrosoft Azureと密に連携させることで優位性を実現する、という戦略をとっているのではなかと推測されます。

Google Cloud：クラウド基盤にIPU

大手クラウドの3社目はGoogle Cloudのクラウド専用チップへの取り組みです。

2022年10月、Google Cloudとインテルは両社が共同開発したクラウド基盤用のASIC「Intel Infrastructure Processing Unit」（Intel IPU）のGoogle Cloudでの採用を明らかにしました。採用されたのは、コードネーム「Mout Evans」として開発されたSoC（System on a Chip）です。

Intel IPUもNitro SystemやAzure Boostと同じように、ホストサーバからさまざまな処理をオフロードすることで、高速かつセキュアなI/O処理の実現と、ホストサーバの負荷軽減などを実現します。

Google Cloud：サーバにAmpere Altra

2022年7月、Google Cloudは、Arm Neoverse N1コアを搭載したAmpere Altraプロセッサベースの仮想マシンやKubernetesのノードの提供を発表しました。

このAmpere Altraはクラウド専用というわけではなく、Amperer Computingによる汎用プロセッサとなります。

Google Cloud：機械学習と推論にCloud TPU

2017年、Googleは5月に開催したイベント「Google I/O 2017」で、機械学習に最適化した独自ASICであるTensorFlow Processing Unit（TPU）を用いたクラウドサービス「Cloud TPU」を発表しています。

Google Cloudもクラウド基盤、インスタンス、機械学習のいずれもクラウドに最適化したプロセッサの採用を始めていますが、TPU以外のIntel IPU、Ampere Altraについてはインテル、Ampere Computingという外部ベンダから調達する製品である点が、AWSやMicrosoft Azureと異なる特徴だといえます。

大手クラウドはチップレベルから再構築されようとしている

このように、Google Cloudが採用したAmpere Altraを除くすべてのチップがクラウド専用に設計され製造されたものです。

大手クラウドが提供するクラウドサービスは、そのサービス提供を継続しながらも、チップのレベルからクラウドサービスに最適化されたハードウェアによってさらに高性能で高効率なシステムへと再構築されようとしているところだといえるでしょう。

元記事： https://www.publickey1.jp/blog/23/socarmai.html

AWS Google Cloud Microsoft Azure クラウドサーバストレージハードウェア #世代 #推論処理 #機械学習用

COMMENTS

この記事について議論する

グローバルのクラウドインフラ市場シェア、この3カ月でマイクロソフトのシェアが2％増加。2023年第2四半期、Synergy ResearchとCanalysの調査結果

マイクロソフト、クラウド専用チップでAureの仮想マシンを強化する「Azure Boost」正式版に