運用チームが災害時に現場にたどりつけなくても、止まらないシステムを作りたい。サイバートラストはBCP対策をどう作った?[PR]

今回は「運用チームが災害時に現場にたどりつけなくても、止まらないシステムを作りたい。サイバートラストはBCP対策をどう作った?[PR]」についてご紹介します。

関連ワード (社内、運用、部部長等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


顧客向けに止められないさまざまなサービスを24時間365日提供しているサイバートラスト。

同社は、これらの高可用性が求められるシステムの一部に、クラスタリングソフトウェア「CLUSTERPRO X」を採用したことを明らかにしました。

具体的には、東京および東京から十分離れた地域のそれぞれに、仮想化ハイパーバイザ「KVM」とLinux OSを用いた数十台のシステムを配置し、CLUSTERPRO Xを用いて両者をクラスタ化。

もしもメインのシステムである東京が障害や災害などでサービス提供に支障が発生したとしても、自動的に遠隔地のシステムに切り替えることで高可用システムを実現しています。

CLUSTERPRO Xでクラスタリングシステムが完結する

同社情報システム部部長の吉藤英明氏はCLUSTERPRO X採用の理由を「障害検知からフェイルオーバー、DNSの切り替えまで、クラスタリングに関わるシステム全体がCLUSTERPRO Xだけで完結すること、そしてCLUSTERPRO X自身が市場に登場してから20年以上使われてきた長い実績を持つこと」と説明しました。

fig写真左から、サイバートラスト OSS事業本部 Linuxサービス部 吉田俊輔氏、管理本部 情報システム部 杉山元正氏、管理本部 情報システム部 部長 吉藤英明氏

同社は今回の高可用システムを構築する前から、多数の物理サーバ、仮想サーバを用いてサービスを運用し、サービスの継続性も維持してきました。

今回、それを仮想化によりサーバを集約、整理するのと同時に、CLUSTERPRO Xを用いた遠隔地とのクラスタリングを構築したのです。

同社がサービスの冗長性をどのようなシステムで構築したのか、ポイントを見ていきましょう。

KVM、Linux、そしてCLUSTERPRO Xによる構成

あらためて高可用性を実現したシステム構成を見てくと、仮想化に用いたハイパーバイザはKVM。同社の情報システム部 杉山元正氏は、KVMを選択した理由を「商用製品では、何かしら細かい設定をしようとすると有償でのオプションとなり、価格が上がっていく可能性が高いこと。また、年間保守料もかかりますし、ベンダーロックインされてしまうと他への移行も難しくなります。それらがオープンソースのKVMを選んだ大きな要因です」と話しました。

また同社はオープンソース事業においてKVMを扱っているために社内に知見があることもKVMを選択した理由として挙げられました。

Linux OSとしては同社が開発し提供しているMIRACLE LINUXを採用しています。

そして前述の通り、クラスタリングソフトウェアとして採用されたのがCLUSTERPRO Xです。

fig

CLUSTERPRO XはWindowsとLinuxの両方に対応し、物理サーバーから仮想サーバー、AWSやMicrosoft Azureなどのパブリッククラウド環境、異なるデータセンター間やクラウド間でも利用可能なマルチクラウド環境、遠隔地間でのディザスタリカバリなど、さまざまな環境に幅広く対応します。

検出可能な障害はサーバの突発的なダウンからOSのスローダウンや部分的障害、アプリケーションやサービスの停止、ハングアップ、NICなどLANの異常、CLUSTERPRO X自体の異常など多岐にわたり、OSやミドルウェア、アプリケーションなどのさまざまな障害に対応して可用性を向上させます。

災害時に運用チームが現場にたどりつけないことも考慮

杉山氏は、BCP(Business Continuity Plan:事業継続計画。緊急時の総合的な復旧対策)の観点において、単純なDR(Disaster Recovery:一時的なシステム復旧対策)だけでなく、包括的なサービス復旧が重要と説明します。

「例えば東京で大災害が発生したら、別拠点へシステムを引き継ぐだけでなく、顧客向けに公開しているURL(DNS情報)を東京から別拠点へ書き換える必要があります。単純にシステムをフェイルオーバーしただけでは、お客様がそのシステムにたどり着けません。

つまりBCPを実現するためには、平時にシステムの監視を適切に行い、「大災害」を定義し、その状況になったらどのようにサービス継続させるかという仕組みを作っておく必要があります。これを分かりやすく細かく設定できて、構成全体が内部で連係・完結するものがCLUSTERPRO Xだけでした」(杉山氏)

しかも大災害が発生しているということは、すなわち東京に一定規模の災害が起きている可能性が高いことを考えると、十分な体制を持った運用チームが現場にたどりつけないことまで考慮しなければならない、と杉山氏は付け加えます。

「その場合、CLUSTERPRO XはNECさんの製品ですから、残された運用スタッフであってもNECさんに問い合わせることで運用を続けていくことができるだろう、ということまで想定しています。

今回構築した高可用性システムは、さまざまな製品を組み合わせて実現することもできます。しかし万が一なにか不測の問題が発生したときに、いくつもの製品ベンダに問い合わせて原因をさぐる作業は、災害発生時には困難なことでしょう。

その点で、CLUSTERPRO Xだけで構築できるというシンプルな構成は、災害時などの高可用性を考えた場合に大きなメリットだと思います」(杉山氏)

「責任あるサービス提供を継続するためには、このシステムを構築した私たちが障害発生時に現場にたどり着けなかったとしても大丈夫だよね、という状態にしておきたいと考えています」(吉藤氏)

責任あるサービス提供を継続するために

この高可用システムはすでに1年以上問題なく稼働しており、メンテナンスや障害を想定した演習も行っているとしています。

現在はAlmaLinuxにも対応した最新のCLUSTERPRO Xへの移行を実施中であり、その上で今後はカオスエンジニアリングのような、本番環境において災害を想定した擬似的な環境を日常的に起こすことで、ふだんから災害に備えるような仕組みを持ちたいと話します。

CLUSTERPRO Xによる高可用性システムと、不断の運用体制の向上によって、そうした運用体制の完成度はさらに高まっていくことでしょう。

高可用性クラスタリングソフトウェア「MIRACLE CLUSTERPRO X」 の最新版を提供開始
CLUSTERPRO概要: 高可用性クラスタリング CLUSTERPRO | NEC

(本記事はサイバートラスト提供によるタイアップ記事です)

COMMENTS


Recommended

TITLE
CATEGORY
DATE
「Oracle CloudWorld 2022」閉幕–日本オラクル・三澤社長は何を思う
IT関連
2022-10-26 16:41
Plumeがブロードバンドプロバイダー向けにスマートホーム用Wi-Fiを強化、評価額1420億円で285億円調達
ソフトウェア
2021-02-25 04:01
人のやさしさを感じる会社に–ITの刷新と定着で文化を変えた日鉄工営の5年間
IT関連
2024-12-10 17:45
プログラミング言語「Rust」のための「Rust Foundation」設立–AWS、MS、グーグルらメンバー
IT関連
2021-02-10 08:42
テクノロジーで防災と減災を推進する「CORE」始動–NTTグループなど参加
IT関連
2022-04-22 02:57
銀河英雄伝説で学ぶセキュリティ–黎明篇「壮大なる攻防の世界」
IT関連
2024-03-09 21:36
サイバー攻撃を受けたデータの43%は復旧できず–ヴィーム年次調査
IT関連
2024-06-27 21:59
遠隔操作で月面に構築物 鹿島とJAXAが国内施設で実験
IT関連
2021-05-20 02:40
ローソンの低糖質パン人気 購買層は「40〜50代の男女」
くらテク
2021-05-12 14:49
自らもメタバースの住人で専用デバイスも開発、Shiftall岩佐氏に聞く「メタバース周りの現状」
IT関連
2022-02-22 10:34
Helpfeel、意図予測検索をPDF形式マニュアルの本文検索に応用–新製品を提供へ
IT関連
2023-10-06 07:09
MacWorldやIDC運営のIDGをBlackstoneが13億ドルで買収
企業・業界動向
2021-06-05 07:02
就活生にも強い味方、「個室型オフィス」需要増
IT関連
2021-02-19 08:08
「macOS」をもっと使いこなす–覚えておきたいターミナルコマンド5選
IT関連
2025-03-02 21:22