東芝データ、統合データサイエンス基盤を導入–購買データの効率的な分析環境を構築
今回は「東芝データ、統合データサイエンス基盤を導入–購買データの効率的な分析環境を構築」についてご紹介します。
関連ワード (ビッグデータ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
東芝データは、データブリックスが提供する統合データサイエンス基盤「レイクハウス・プラットフォーム」をデータ分析基盤として採用した。
東芝データは2020年2月に設立し、東芝グループが展開する電子レシートサービス「スマートレシート」におけるデータ連携サービスの構築に取り組んでいる。スマートレシートは、会計時に通常は紙で提供される購入商品の明細レシートを電子化し、電子レシートセンターでデータとして管理、提供するサービス。
データブリックスは、業界標準のビッグデータ処理エンジンであるSparkに関する技術を保有している。レイクハウス・プラットフォームは、データウェアハウスの信頼性、ガバナンス、性能と、データレイクの柔軟性、機械学習との親和性、オープンフォーマットを提供している。分析やデータサイエンス、機械学習(ML)を統合することで、データ分析基盤のサイロ化を解消し、分析環境をシンプルにし、管理/運用工数や費用を抑え、健全な投資利益率(ROI)を実現するという。
東芝データは、同プラットフォームの導入により、主要事業の1つである購買データ活用におけるビッグデータ処理やリアルタイム分析を効率化するとともに、高度な分析処理によってデータの価値向上を推進していくという。
スマートレシートは会員数130万人(2023年4月末時点)を超え、会員本人の同意に基づき購買データを統計処理し、さまざまなデータサービスに活用している。さらには、日本国内の購買変化を速やかに捉え、機会を逃さない商品開発や、暮らしの変化に順応させる政策立案に寄与していく取り組みを展開している。
これらのデータ活用基盤となるプラットフォームの構築や分析を実施するためのシステム導入を検討するに当たり、(1)「半構造データを含めたビッグデータに対する高速かつスケーラブルな分析処理」、(2)「時々刻々と発生するデータストリームに対する低遅延の分析処理」、(3)「データを管理する自社システム環境内に分析機能をアドオン」、(4)「少ないリソースで分析環境の構築・運用」といった課題があった。
東芝データではこれらの課題解決に向けて、データブリックスの技術的な支援を受けながら、データプライバシーにも最大限配慮しつつ鮮度の高い購買データをリアルタイムで統計処理するためのデータ分析基盤を構築。購買データのリアルタイム分析を担う「ストリーム型統計データ処理」への拡張も、レイクハウス・プラットフォームの新機能「Delta Live Tables」の活用でスムーズに行うことができたという。
また、レイクハウス・プラットフォームによるデータ分析環境の活用範囲は、当初予定していたビッグデータのETL(抽出/変換/格納)処理や分析にとどまらず、Sparkのストリーミング機能で可能になった発生データのリアルタイム分析や、AI/ML技術の活用にも拡大しているという。