“オープン標準”活用したデータ共有に強み–データブリックスのデータクリーンルーム戦略
今回は「“オープン標準”活用したデータ共有に強み–データブリックスのデータクリーンルーム戦略」についてご紹介します。
関連ワード (ビッグデータ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
データ活用はデジタル変革(DX)やデータドリブン経営の推進に不可欠な要素となっている。昨今は自社内で保有するデータだけでなく、他社が提供するデータと掛け合わせることで、新たな価値やビジネスを生み出すことも可能とされている。その一方で、企業間のデータ連携には、機密情報や個人情報の保護という課題がある。
世界各国で個人情報保護の動きが活発になっているのは言うまでもない。欧州連合(EU)の「一般データ保護規則(GDPR)」(2018年5月施行)や米国の「カリフォルニア州消費者プライバシー法(CCPA)」(2020年1月施行)、日本の「改正個人情報保護法」(2022年4月施行)など、個人情報の取り扱いに関する規制が強化されている。
そうした中、サードパーティークッキーに対する規制も強まっている。サードパーティークッキーは、ユーザーのウェブサイトの行動履歴を追跡するため、デジタル広告配信などで幅広く活用されてきたが、プライバシー保護の観点から世界各国で規制が進んでいる。GoogleやAppleをはじめとする大手IT企業(プラットフォーマー)もサードパーティークッキーの規制や廃止に動いている。
そこで注目を集めているのが、「データクリーンルーム」と呼ばれる技術である。データクリーンルームは、簡潔に言えば、企業の機密情報や個人のプライバシーを保護しながら、異なる企業間でデータを共有・分析するためのデータ共有環境になる。プライバシー保護の重要性が高まる中、データクリーンルームの市場は拡大すると予想されており、さまざまなデータ基盤ベンダーが製品やサービスの提供を始めている。
その中の1社がデータブリックスである。同社は2013年創業の米国企業で、クラウド型の統合データ分析基盤を提供している。「Apache Spark」「Delta Lake」「MLflow」といったオープンソースソフトウェアを組み合わせ、データウェアハウスとデータレイク両方の特徴を備えたデータ基盤「レイクハウス・プラットフォーム」を強みとする。
レイクハウス・プラットフォームとは、データウェアハウスのようなデータ構造とデータ管理機能を、データレイクのように安価なストレージに実装したものになるという。膨大な生データを収集・蓄積するデータレイクと、そうしたデータを分析しやすい形に処理・保管するデータウェアハウスを組み合わせてデータ基盤を構築する動きが増えているが、それらの仕組みを統合することで、データ管理部門の生産性を高め、データ処理を迅速化できる。そして、それらのデータをシームレスにAIへフィードすることができ、迅速なAIへの統合が可能となる。
その一部として提供されるのが「Databricks Clean Rooms」で、データのプライバシーやセキュリティを保護しながら、顧客やパートナーと安全かつ効率的にデータを共有できる環境を提供する。同サービスの最大の特徴であり、差別化のポイントとなっているのが、「Delta Sharing」である。これは、データブリックスが開発したセキュアなデータ共有のためのオープン標準で、Delta Sharingに対応したデータプラットフォーム間でのデータ共有を可能にする。