BigQueryがDocument AIを統合。請求書など画像データの内容をSQLで検索可能に、AIが画像から項目や数値を自動抽出

今回は「BigQueryがDocument AIを統合。請求書など画像データの内容をSQLで検索可能に、AIが画像から項目や数値を自動抽出」についてご紹介します。

関連ワード (利用方法、抽出可能、表記等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


Google Cloudは、大規模並列データ処理サービスのBigQueryに、画像データから自動的に内容を抽出するAI機能「Document AI」を統合したと発表しました。

Document AIは、請求書や領収書、パスポート、契約書といったドキュメントの画像データを与えると、その項目と内容を生成AIによって自動的に抽出する機能を提供します。

BigQueryがDocument AIを統合することで、BigQueryからSQL文を用いてドキュメントの画像データ群に対して問い合わせが可能になります。

例えば、Google Cloud Storageに請求書の画像スキャンをまとめて保存しておき、BigQueryで今月の日付の請求書の合計金額をSQLで求める、などの処理ができるわけです。

fig

具体的な利用方法のおおまかな手順は次の通りです。

  1. ドキュメントの画像データから抽出したいデータのスキーマを定義し、抽出のサンプルや注釈を提供、Document AIをトレーニングします(あらかじめよくあるフォーマットの学習サンプルも用意されているようです)。 2.Google Cloud Storage上のドキュメントの画像データを、データベースの仮想的な表となるオブジェクトテーブルとして定義します。
  2. オブジェクトテーブルに対して項目を抽出する関数を呼び出すと、どのような項目が抽出可能かが返ってきます。
  3. オブジェクトテーブルの項目を列名のようにWhere節で表記したSQLでクエリが発行可能です。

そのほかにも、テキスト分析による感情の分析、ドキュメントの要約、抽出したデータと別テーブルとのジョインなど、さまざまな処理が可能だと説明されています。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
「GPT-3.5 Turbo」がファインチューニングに対応、独自にカスタマイズ可能に
IT関連
2023-08-26 00:21
新宿の巨大猫 “渋谷のハチ公”狙う?
くらテク
2021-07-14 20:08
ファンの力で“蒸れ”抑える「快眠マット」「風ふとん」、アテックスが発売
くらテク
2021-05-19 19:33
河川情報をケーブルテレビでリアルタイム配信–千葉で国内初の取り組み
IT関連
2024-03-14 08:00
Metaの自己教師あり学習AI「data2vec」がバージョン2.0に–学習速度が向上
IT関連
2022-12-20 14:09
コストパフォーマンス重視のサイバー犯罪が目立った2022年–セキュアワークスが報告
IT関連
2023-01-21 08:21
世界初、ハイエースで全日本ラリー参戦
くらテク
2021-03-06 22:52
CISA、「既知の悪用された脆弱性カタログ」に36件を追加–早急なパッチ適用を
IT関連
2022-06-14 00:19
モバイルバッテリーシェアリング「ChargeSPOT」を手がけるINFORICHが23億円調達
シェアリングエコノミー
2021-04-17 07:09
IT中心にグローバル人材の獲得支援を行うフォースバレーが約3億円調達、SaaS事業を強化
IT関連
2022-03-16 12:19
第1回:ポストコロナ時代、チャンスを逃さないビジネス基盤とは
IT関連
2021-01-27 16:58
コニカミノルタ、働く価値を高めるオフィスづくり–オフィス改革への関心集まる
IT関連
2022-09-23 20:31
サイバーセキュリティは「テトリス」と同じ–M・ヒッポネン氏が語るサイバー犯罪との闘い
IT関連
2023-06-27 23:13
セキュリティ投資、「データ侵害の防止」「リモートワークでのセキュリティ確保」を重視
IT関連
2022-10-21 11:48