Linuxをクラスタ化して高可用性を実現。ソフトバンクの業務インフラに採用された高可用ソフトウェアの理由[PR]

今回は「Linuxをクラスタ化して高可用性を実現。ソフトバンクの業務インフラに採用された高可用ソフトウェアの理由[PR]」についてご紹介します。

関連ワード (採用、統括部、要望等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


SoftBankやY!mobile、LINEMOなどの携帯電話サービスや、PayPayによる決済サービスなど、多くのサービスで知られるソフトバンク。

同社の業務システムを支えるITインフラを担う共通プラットフォーム開発本部 ITクラウド開発統括部は、データセンターで稼働する5000台規模の物理サーバと、それを基盤とする約2万台の仮想サーバを構築、運用、管理しています。

パブリッククラウドなどに依存せず、自社でITインフラを構築運用する理由について、共通プラットフォーム開発本部 ITクラウド開発統括部 ITクラウド基盤開発部 部長 前田高尚氏は次のように語ります。

「弊社にはITインフラの運用はもちろん開発のためのエンジニアもいるので、自分たちでITインフラを構築運用できる体制が整っていますし、コストや品質も適切なものになると考えています。

以前と比べるとビジネスはスピードが上がってきており、機器もトラフィックも増加しているので、部分的にはパートナーの協力もお借りしつつ、ITインフラの自動化に徹底的に取り組んでいるところです」(前田氏)

LINUXサーバの高可用性を実現するMIRACLE CLUSTERPRO X

同社のITインフラのほとんどのマシンではOSとしてLinuxを用いています。以前はCentOSを採用していましたが、2021年12月末にCentOSの開発とサポートの終了後は、同じRed Hat Enterprise Linux互換のディストリビューションであるサイバートラストのMIRACLE LINUXに移行しました。

そのMIRACLE LINUXの採用以前から可用性向上のために使われていたのが「MIRACLE CLUSTERPRO X」と「MIRACLE LINUX HA」です。

fig

MIRACLE CLUSTERPRO Xはシステムの障害をつねに監視し、障害を検出すると障害が発生したサーバから健全なサーバへと処理を引き継ぐフェイルオーバー処理を行うことで、たとえ障害が発生したとしてもシステムが継続して稼働し続けることを実現するソフトウェアです。

仮想環境にも対応し、仮想化基盤のライブマイグレーション機能との共用も可能。

異なるデータセンター間や遠隔地にあるサーバ間でもクラスタを構成できるため、データセンター内でのシステムの高可用性だけでなく災害対策としての利用も可能になっています。

fig

一方のMIRACLE LINUX HAは、障害を検知すると自動的にOSの再起動やアプリケーションの再起動による復旧動作を行うことで単一サーバーでの障害時間を最低限に抑え、ビジネスの継続性を高める、廉価な高可用性ソリューション製品です。こちらも仮想化基盤に対応しています。

コストと仮想環境への対応でMIRACLE CLUSTERPRO Xを選択

同社のITインフラではMIRACLE CLUSTERPRO Xが現時点で200クラスタ程度導入されており、今後さらに100クラスタ以上の投入が予定されています。

同社がMIRACLE CLUSTERPROXを採用するにあたり、実はそれ以前からA社、B社のクラスタソフトウェアが導入されていました。しかしそれぞれの製品ともに同社の要件を十分に満たせない課題があったため、最終的に現在のMIRACLE CLUSTERPRO Xの採用となりました。

共通プラットフォーム開発本部 ITクラウド開発統括部 ITクラウド基盤開発部 ITクラウド基盤開発課 担当課長 岩村英男氏は、次のように、それまでの経緯を説明します。

「最初に導入したA社のクラスタ製品はVMware ESXiによる仮想環境が非推奨で、課金体系もコストが嵩むものでした。B社製品も検討しましたが、その製品もコストが思うように下がらない。そこで検討したのが、MIRACLE CLUSTERPRO Xです。それまでの製品と比較しても機能的にも遜色がありませんでした」(岩村氏)

「VMware ESXiに対応していることは大きかったですね」(前田氏)

「我々にとってVMware ESXiの仮想環境に対応していることは大事な要件でした。さらに物理コア単位の課金ではなく仮想環境に対応した料金体系で低コストであることも重要です。MIRACLE CLUSTERPRO Xはどちらの条件も満たすものでした」(岩村氏)

新バージョンで自動化ツールでの操作も可能に

同社がITインフラの自動化ツールとして利用しているAnsibleで、MIRACLE CLUSTERPRO Xの自動化ができるようになったことも採用の後押しになったと岩村氏はコメントします。

「当初、MIRACLE CLUSTERPRO Xの自動化にはいろいろと縛りがあったのですが、それらについて要望を出したところ、Ansibleを利用した自動化が可能になりました。そこも非常によかったところです」(岩村氏)

その上でHAソフトウェアとして構成がシンプルで導入しやすく、問題もほとんどなかったとのこと。

「我々はアプリケーション開発者のためにHA構成に対応するためのガイドラインを作っているのですが、他社製品と比較してもシンプルで対応しやすいところは評価が高いと思います」(岩村氏)

導入後もトラブルらしいトラブルはなく、安定して動作していると前田氏、岩村氏ともに振り返ります。

MIRACLE LINUX HAでDRサイトにもコストを抑えつつ可用性を確保

一方、Linuxサーバ単体で可用性を高めるMIRACLE LINUX HAは、万が一プライマリのデータセンターが災害などで障害を起こしたとき、ディザスタリカバリ先のデータセンターに導入されています。

というのも、ディザスタリカバリ先のすべてのサーバに、本番環境とまったく同じものを用意するのは大きな予算が必要となるためです。

そこで、仮想環境が備える高可用性の機能とMIRACLE LINUX HAが備える高可用性の機能を組み合わせ、社内でインフラを利用しているユーザーともこのシステム体制でのサービスレベルであることを合意することで、低コストながら本番環境とそれほど遜色のない可用性の確保を実現しました。

「しかもMIRACLE LINUX HAはMIRACLE CLUSTERPRO Xと兄弟製品なので、構成ファイルなどは2台体制のクラスタから1台分を間引くとほぼそのまま、すごく簡単にできる利点もありました」(岩村氏)

新しい技術を用いた基盤へと進めていく

前田氏は、今後もさらに高可用性やリリース速度を向上していくために、アプリ開発者含めKubernetesへの対応を進めていくと話します。

「クラスタ化ソフトウェアを導入することで、インフラレイヤでシンプルに高可用性が実現できることは素晴らしいことだと思います。しかしこれからは、やはりアプリケーションそのものを作り替えて、可搬性や可用性をどんどん上げていくことも組織全体として目指しています。

そのためにKubernetesのような新しい技術を基盤とするITインフラもわれわれの統括部でしっかり作っていく、そこで可用性も高めていく、というところへ進んでいくことを考えています」(前田氏)

fig

≫MIRACLE CLUSTERPRO Xの製品ページ
≫MIRACLE LINUX HAの製品ページ

(この記事はサイバートラスト株式会社提供のタイアップ記事です)

COMMENTS


Recommended

TITLE
CATEGORY
DATE
Cバンドが注目される理由–米通信事業者の5G展開と課題
IT関連
2022-03-08 15:39
オラクル、シングルラックにIaaSクラウドを詰め込んだ「Oracle Compute Cloud@Customer」提供開始
Oracle
2023-08-16 08:24
組織や企業の教育コンテンツに特化したAIビデオ生成プラットフォームSynthesiaが13.5億円調達
人工知能・AI
2021-04-23 19:08
厚労省「生活保護は国民の権利」と投稿 「ホームレスの命はどうでもいい」──DaiGoの炎上発言などを受け「社会的に注目が集まっていると判断」
ネットトピック
2021-08-14 00:14
宅配物受取サービス「ecbo pickup」がクリーニング「ルビー」と業務提携、15店舗で導入開始
シェアリングエコノミー
2021-04-10 11:25
スタートアップ500社と2025年までに連携–マイクロソフトが中小企業支援
IT関連
2021-06-02 10:11
電気自動車のサウンドデザインをAIを駆使して行うPentagramのスズキユウリ氏
モビリティ
2021-06-05 13:30
ニコ動に“プレミア公開”風機能 新作動画を公開と同時に「ニコ生」で配信
企業・業界動向
2021-08-03 16:54
ユニクロ「エアリズム寝具」全国発売 シーツも吸水・速乾
くらテク
2021-01-27 20:43
世界中のITエンジニアが悩まされている原因不明でテストが失敗する「フレイキーテスト」問題。対策の最新動向をJenkins作者の川口氏が解説(前編)。DevOps Days Tokyo 2022
CI/CD
2022-06-06 20:34
SAP、WalkMeを買収へ–2024年第3四半期に完了見込み
IT関連
2024-06-07 17:46
マイクロソフト、量子コンピューティングへの取り組み状況を報告
IT関連
2022-06-30 13:07
Google Cloud、日本に接続する海底ケーブルを増設–1500億円を投資
IT関連
2024-04-13 17:08
三重県、県庁のセキュリティ対策を境界防御からゼロトラストに転換
IT関連
2023-12-15 16:29