1000ノード超のデータ分析基盤はクラウドでも安定稼働–テラデータがAWSで実証
今回は「1000ノード超のデータ分析基盤はクラウドでも安定稼働–テラデータがAWSで実証」についてご紹介します。
関連ワード (ビッグデータ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
日本テラデータは3月10日、クラウド上に1000ノードを超える大規模なデータ分析システムを構築しても障害が発生することなく安定稼働が可能だとする実証実験の結果を発表した。
この実証では、1012ノードの仮想マシンによる単一のクラスターで構成されたテラデータのデータ分析基盤「Teradata Vantage」のシステムをAmazon Web Services(AWS)に構築。1023人のアクティブユーザーが数千のクエリーを同時実行するなどの検証を数週間に渡って行い、「期間中に仮想マシンのハードウェアで何度か障害が発生したが、システム停止はなく、分析基盤としての機能を継続提供できることを確認できた」(クラウド・テクノロジー・リードの笹間則克氏)と成果を強調した。
さまざまな調査で日常生活やビジネスシーンから生成されるデータ量が年々増加していることが示されているが、テラデータがこの日の説明会で引用した米IDCの「Worldwide Global DataSphere Forecast, 2021-2025」によれば、2025年までに生成・収集・複製されるデータ総量は、16.5エクサバイトに達する。しかし、分析対象になるデータ量はその半分以下で、機械学習などを用いた分析はごく一部にとどまるという。
同社は、今後データ分析需要が加速度的に増加することを予見し、今回の検証を行ったという。具体的には、一般的な分析と分析結果を業務判断などに用いる「DSS(意思決定支援システム)」の両者を組み合わせたクエリーを数週間に渡り実行した。AWS環境でこの規模を検証することは初めての試みになるとしている
単一のシステムで構築した理由は、「分析環境の大規模化により増加する管理コストを最小化し、分析に注力できることが重要になる。クラスターもスタートアップ企業や小規模な分析環境では有効だが、他方では分析環境の大規模化に伴って煩雑になる管理コストを抑制しないといけない」(笹間氏)からという。さらに、システム間でデータを移動させるコスト、重複する作業の排除、可観測性など多様な観点からも単一のシステムとする利点は大きいとしている。
テクノロジーセールス事業部長の小永井崇氏は、Teradata Vintageについて、「『エンタープライズ・アナリティクス向けコネクテッド・マルチクラウド・データプラットフォーム』と呼称し、ビジネスに必要な全てのデータを最大限に活用できるエンタープライズ規模に対応したアナリティクス向けの分析基盤」と説明した。
Teradata Vantageは、AWSやMicrosoft Azure、Google Cloudなどのパブリッククラウドサービスに加え、VMware製品で構築されたプライベートクラウドやオンプレミスのITインフラ環境で動作する。ただ、代表取締役社長の髙橋倫二氏は、「国内はマルチクラウド化までを検討する顧客が少なく、データ分析分野で複数のクラウド環境を利用する場面は多くはない」と話す。
Teradata Vintage自体としては、外部作成された予測モデルを取り込める「Vantage BYOM(Bring Your Own Model)」を2021年10月にサポートし、オープンな機械学習モデル「Open Neural Network Exchange」や、Pythonの機械学習ライブラリー「scikit-learn」への対応を予定している。
また事業も2021年と同様に堅調だといい、高橋氏は「オンプレミス版のTeradata Vantageの顧客も『次はクラウド』と移行を望んでいる。従来は、大半の顧客がAWSを選択していたが、2021年からMicrosoft AzureやGoogle Cloudを選択する顧客も増えてきた」と現状を説明。データ分析をパブリッククラウドで行う潮流に変化しているとした。また10月には、実際に顧客を招いてユーザーカンファレンス「Teradata Universe San Diego 2022」を開催する予定だとしている。