データガバナンスを確保したエンタープライズ規模の機械学習を実現するには

今回は「データガバナンスを確保したエンタープライズ規模の機械学習を実現するには」についてご紹介します。

関連ワード（ビッグデータ等）についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。

　空飛ぶ自動操縦の自動車やヒューマノイドロボットの助手が現実となるのはもう少し先かもしれませんが、機械学習は既にわれわれの生活の中で実用化されています。

　例えば、シンガポールの医療界では新型コロナウイルス感染症の拡大を防ぐため、機械学習／人工知能（AI）を活用したサーマルカメラやリアルタイムな接触者追跡システムが導入されています。また金融サービス部門でも関心が高まっています。

　IDCの試算によると、アジア太平洋地域（日本を除く）の金融サービス部門がAIに費やす金額は年平均22.1%増加し、2024年には 42億9000万ドルに達するとされています。活用例としては与信判断や不正分析などがあります。

　機械学習は需要が高まっていますが、その力をフルに引き出すためには、インサイト（洞察）に基づく全社的な組織運営を実現しなければなりません。これは「言うは易く行うは難し」で、実際にデータの状況は事業要件の変化に伴い刻々と変化します。

　機械学習はデータ駆動型のテクノロジーであるため、データ過多という問題は存在しません。事実、機械学習ツールは送り込まれるデータが多ければ多いほど正確になります。機械学習の利用者にとって、世界中で人々や企業、都市がどんどんつながり、膨大なデータが創出され続けることは朗報のように聞こえます。

　しかし、機械学習はデータに依存しているため、データ管理能力の向上が必要です。特に、多種多様なプラットフォームでデータが生成、保存、処理されるため、より優れたデータ管理能力が求められます。典型的な例を挙げましょう。

　アジア太平洋地域（日本を除く）の企業の90%以上が2022年に、オンプレミス／プライベートクラウド、複数のパブリッククラウド、従来型のプラットフォームを併用すると予測されています。こういった状況の中で、データをプラットフォーム間で移動し、全てのプラットフォームでデータの安全性とガバナンス（統制）を確保することは困難が伴います。

　さらに、第5世代移動体通信システム（5G）やモノのインターネット（IoT）の進展により、ストリーミングデータ（移動中、転送中のデータ）および保管中のデータ（データベースに格納、保存されている情報）を効果的に管理することが求められます。特に、ストリーミングデータはネットワークエッジで稼働している機械学習システムにとって重要です。このようなコネクテッドデバイスはリアルタイムなインサイトやレコメンドに基づく判断や対処が必要であるためです。

　また、機械学習の活用に求められる知識や経験、スキルを有する人材が不足していることも、インサイト駆動型な組織を実現していくための妨げとなる場合があります。対策の1つは、データの民主化によってさまざまな専門領域のより多くのユーザーが各プロセスでデータに基づいて意思決定できるようにすることです。しかし、そのためにはデータガバナンスを効かせてデータの一貫性と信頼性を確保し、悪用を防ぐことが重要です。

　「Garbage in, garbage out（質の悪いデータからは質の悪い結果しか生み出されない）」という表現がありますが、機械学習システムから得られるインサイトの信頼性はデータの品質に比例します。ですから、機械学習を組織全体にうまく展開するためには、強力なデータガバナンスがカギとなります。データが正確性、適時性、妥当性などの一定の基準を満たしていることをデータガバナンスにより確認することで、社内のユーザーは情報に基づいて意思決定を行うことができます。同時に、侵害による被害のリスクや、データプライバシー関連法および本人確認義務（KYC）といった規制の不順守のリスクを軽減します。

　データは多種多様なプラットフォームに拡散しているため、従来のポイントソリューションでデータガバナンスを効果的に効かせるのは困難でしょう。「エンタープライズデータクラウド」は、データの収集から蓄積、加工、配信、活用、予測まで、エンドツーエンドのデータライフサイクルソリューションをマルチ／ハイブリッドクラウド環境で提供します。また、一貫したセキュリティとガバナンスを提供します。これにより、組織内で常に権限に基づいてデータが利用、追跡、監査されていることを実現できます。

　アジア太平洋地域のUnited Overseas Bankは、エンタープライズデータクラウドを活用してデータガバナンスを強化しつつ機械学習を展開しています。Clouderaのデータプラットフォームを利用し、コンプライアンス、リテールバンキング、資産管理、ホールセールバンキングなどの社内全体の事業部門のデータを集約し、顧客や取引データをより包括的に把握しています。

　また、一元化されたプラットフォームにより、データガバナンスを確保しつつAIや機械学習の機能をさらに多様な事業に迅速かつ一貫して展開できるようになりました。150以上のビッグデータ解析サンドボックスを利用し、200人以上のユーザーがアイデアやデータに基づくイノベーションを検証しています。これによりマネーロンダリング（資金洗浄）防止対策による検出時間の短縮、よりターゲットを絞ったオファーやレコメンドによる顧客転換率の改善といった事業上のメリットが生まれています。

　アジア太平洋地域で機械学習が一般的になるのは遠い先のことではありません。関心の高まりに加え、同地域では政府による支援や方針が拡大しており、機械学習の活用による生産性の向上やイノベーション推進の後押しとなっています。しかし、データの品質が低く、必要なデータにタイムリーにアクセスできなければ、機械学習の力をフルに引き出すことはできません。エンタープライズデータクラウドのようなエンドツーエンドの接続されたデータライフサイクルソリューションを活用することで、組織は自信を持って機械学習を全社的に展開し、タイムリーで信頼できるインサイトを取得してデータの価値を解き放つことができます。

元記事： https://japan.zdnet.com/article/35198174/

IT関連 #ビッグデータ