運用チームが災害時に現場にたどりつけなくても、止まらないシステムを作りたい。サイバートラストはBCP対策をどう作った?[PR]

今回は「運用チームが災害時に現場にたどりつけなくても、止まらないシステムを作りたい。サイバートラストはBCP対策をどう作った?[PR]」についてご紹介します。

関連ワード (社内、運用、部部長等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


顧客向けに止められないさまざまなサービスを24時間365日提供しているサイバートラスト。

同社は、これらの高可用性が求められるシステムの一部に、クラスタリングソフトウェア「CLUSTERPRO X」を採用したことを明らかにしました。

具体的には、東京および東京から十分離れた地域のそれぞれに、仮想化ハイパーバイザ「KVM」とLinux OSを用いた数十台のシステムを配置し、CLUSTERPRO Xを用いて両者をクラスタ化。

もしもメインのシステムである東京が障害や災害などでサービス提供に支障が発生したとしても、自動的に遠隔地のシステムに切り替えることで高可用システムを実現しています。

CLUSTERPRO Xでクラスタリングシステムが完結する

同社情報システム部部長の吉藤英明氏はCLUSTERPRO X採用の理由を「障害検知からフェイルオーバー、DNSの切り替えまで、クラスタリングに関わるシステム全体がCLUSTERPRO Xだけで完結すること、そしてCLUSTERPRO X自身が市場に登場してから20年以上使われてきた長い実績を持つこと」と説明しました。

fig写真左から、サイバートラスト OSS事業本部 Linuxサービス部 吉田俊輔氏、管理本部 情報システム部 杉山元正氏、管理本部 情報システム部 部長 吉藤英明氏

同社は今回の高可用システムを構築する前から、多数の物理サーバ、仮想サーバを用いてサービスを運用し、サービスの継続性も維持してきました。

今回、それを仮想化によりサーバを集約、整理するのと同時に、CLUSTERPRO Xを用いた遠隔地とのクラスタリングを構築したのです。

同社がサービスの冗長性をどのようなシステムで構築したのか、ポイントを見ていきましょう。

KVM、Linux、そしてCLUSTERPRO Xによる構成

あらためて高可用性を実現したシステム構成を見てくと、仮想化に用いたハイパーバイザはKVM。同社の情報システム部 杉山元正氏は、KVMを選択した理由を「商用製品では、何かしら細かい設定をしようとすると有償でのオプションとなり、価格が上がっていく可能性が高いこと。また、年間保守料もかかりますし、ベンダーロックインされてしまうと他への移行も難しくなります。それらがオープンソースのKVMを選んだ大きな要因です」と話しました。

また同社はオープンソース事業においてKVMを扱っているために社内に知見があることもKVMを選択した理由として挙げられました。

Linux OSとしては同社が開発し提供しているMIRACLE LINUXを採用しています。

そして前述の通り、クラスタリングソフトウェアとして採用されたのがCLUSTERPRO Xです。

fig

CLUSTERPRO XはWindowsとLinuxの両方に対応し、物理サーバーから仮想サーバー、AWSやMicrosoft Azureなどのパブリッククラウド環境、異なるデータセンター間やクラウド間でも利用可能なマルチクラウド環境、遠隔地間でのディザスタリカバリなど、さまざまな環境に幅広く対応します。

検出可能な障害はサーバの突発的なダウンからOSのスローダウンや部分的障害、アプリケーションやサービスの停止、ハングアップ、NICなどLANの異常、CLUSTERPRO X自体の異常など多岐にわたり、OSやミドルウェア、アプリケーションなどのさまざまな障害に対応して可用性を向上させます。

災害時に運用チームが現場にたどりつけないことも考慮

杉山氏は、BCP(Business Continuity Plan:事業継続計画。緊急時の総合的な復旧対策)の観点において、単純なDR(Disaster Recovery:一時的なシステム復旧対策)だけでなく、包括的なサービス復旧が重要と説明します。

「例えば東京で大災害が発生したら、別拠点へシステムを引き継ぐだけでなく、顧客向けに公開しているURL(DNS情報)を東京から別拠点へ書き換える必要があります。単純にシステムをフェイルオーバーしただけでは、お客様がそのシステムにたどり着けません。

つまりBCPを実現するためには、平時にシステムの監視を適切に行い、「大災害」を定義し、その状況になったらどのようにサービス継続させるかという仕組みを作っておく必要があります。これを分かりやすく細かく設定できて、構成全体が内部で連係・完結するものがCLUSTERPRO Xだけでした」(杉山氏)

しかも大災害が発生しているということは、すなわち東京に一定規模の災害が起きている可能性が高いことを考えると、十分な体制を持った運用チームが現場にたどりつけないことまで考慮しなければならない、と杉山氏は付け加えます。

「その場合、CLUSTERPRO XはNECさんの製品ですから、残された運用スタッフであってもNECさんに問い合わせることで運用を続けていくことができるだろう、ということまで想定しています。

今回構築した高可用性システムは、さまざまな製品を組み合わせて実現することもできます。しかし万が一なにか不測の問題が発生したときに、いくつもの製品ベンダに問い合わせて原因をさぐる作業は、災害発生時には困難なことでしょう。

その点で、CLUSTERPRO Xだけで構築できるというシンプルな構成は、災害時などの高可用性を考えた場合に大きなメリットだと思います」(杉山氏)

「責任あるサービス提供を継続するためには、このシステムを構築した私たちが障害発生時に現場にたどり着けなかったとしても大丈夫だよね、という状態にしておきたいと考えています」(吉藤氏)

責任あるサービス提供を継続するために

この高可用システムはすでに1年以上問題なく稼働しており、メンテナンスや障害を想定した演習も行っているとしています。

現在はAlmaLinuxにも対応した最新のCLUSTERPRO Xへの移行を実施中であり、その上で今後はカオスエンジニアリングのような、本番環境において災害を想定した擬似的な環境を日常的に起こすことで、ふだんから災害に備えるような仕組みを持ちたいと話します。

CLUSTERPRO Xによる高可用性システムと、不断の運用体制の向上によって、そうした運用体制の完成度はさらに高まっていくことでしょう。

高可用性クラスタリングソフトウェア「MIRACLE CLUSTERPRO X」 の最新版を提供開始
CLUSTERPRO概要: 高可用性クラスタリング CLUSTERPRO | NEC

(本記事はサイバートラスト提供によるタイアップ記事です)

COMMENTS


Recommended

TITLE
CATEGORY
DATE
三菱UFJ銀行、営業店のセルフサービス化を促進–日本IBMがシステム開発
IT関連
2022-07-16 00:36
日立、再生可能エネルギーの使用状況を可視化するシステム開発
IT関連
2021-01-27 16:07
社会課題解決に取り組むデジタル企業に–NRIの桑津研究理事
IT関連
2021-04-06 08:32
「Linux Mint 22」ベータ版がリリース
IT関連
2024-07-06 04:55
ソフトバンク、世界初のLenovo製“画面折りたたみPC”発売 5G対応で約40万円
製品動向
2021-03-05 20:34
シスコ、Splunkを買収へ–約280億ドルで
IT関連
2023-09-23 10:39
日立システムズとAWS、3年間の戦略的協業契約を締結
IT関連
2022-08-12 20:24
国際レベルのサイバー攻撃に対抗する 今取り組むべきセキュリティ対策
PR
2021-01-29 14:25
ServiceNowと富士通、戦略的協業を発表–製造向けに業務高度化策を展開
IT関連
2024-05-09 13:27
Google、PostgreSQL互換のAlloyDBにAI機能を組み込んだ「AlloyDB AI」正式版に。ローカルで実行できるソフトウェア版も提供
Google
2024-03-07 20:03
ランサムウェア攻撃受けたColonialは「通常」運用に–攻撃関与のDarkSideは運用停止か
IT関連
2021-05-17 08:16
Meta、画像内の物体を識別するAIモデル「Segment Anything Model」を公開
IT関連
2023-04-07 04:28
五輪に便乗した詐欺サイト、5つの手口 「チケット払い戻し」やIOC偽サイトなど Kasperskyが注意喚起
セキュリティ
2021-07-30 21:25
全国のパン屋さんをD2C化するパンフォーユーが1.8億円調達、ベーカリー向けSaaS機能拡充
フードテック
2021-02-09 17:14