オラクル、本物のようなテストデータ群を生成AIが自動生成してくれる「Select AI for Synthetic Data Generation」発表。Oracle CloudWorld 2024
今回は「オラクル、本物のようなテストデータ群を生成AIが自動生成してくれる「Select AI for Synthetic Data Generation」発表。Oracle CloudWorld 2024」についてご紹介します。
関連ワード (機能、自然言語、設計時等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
米オラクルは、生成AIがテスト用に実データのような特徴を備えたデータ群を自動的に生成してくれるOracle Autonomous Databaseの新機能「Select AI for Synthetic Data Generation」を発表しました。
ソフトウェアの開発において、ユーザーインターフェイスの設計時やテスト時、コードのテスト時、性能テストや負荷テストなど、さまざまな場面で適切なテストデータを用意する必要があります。
このとき、理想的には本番環境で使われる実データ全体もしくは一部をテストデータとして利用できることが望ましいといえますが、現実的には開発時にはそのようなデータは入手困難であることが一般的です。
もしも入手可能であったとしても、情報漏洩のリスクやプライバシーポリシーなどの面で、実データを開発環境やテスト環境で使うことはほとんどの場合において許されないことが想定されます。
そのため、できるだけ実データに似せたダミーデータを開発者自身が用意することになりますが、手作業で実データのような内容やデータの分布を備えたダミーデータを大量に作成するのは非常に面倒な作業です。
生成AIがスキーマやプロンプトを元にダミーデータを生成
これを解決するのが、今回発表された「Select AI for Synthetic Data Generation」です。
Oracle Autonomous Databaseには、自然言語を用いてデータベースへ問い合わせなどができる生成AI機能として「Select AI」が用意されています。
「Select AI for Synthetic Data Generation」はそのSelect AIの新機能であり、生成AIがスキーマとメタデータ、自然言語の指示などを元に、ダミーデータを自動生成してくれます。
具体的には、データベーススキーマを定義する際に「generate_synthetic_data()」関数を呼び出すことで、生成されるテーブル内にダミーデータが生成されます。テーブルのスキーマを指定する際に、自然言語でどのようなデータかを指示することも可能です。
例えば、映画データを格納するテーブルに「all movies are released in 2009」(全ての映画は2009年に公開された)や「the value for state should either be CA, WA, or TX」(州の名前はCAかWA、TXのいずれか)といった制約を付けてデータを生成させる例が示されています。
生成AIがダミーデータを生成するには一定の時間がかかりますが、時間短縮のためにタスクを分割して並列実行していると説明されています。