OpenAI、リアルタイムAPIをプレミアム料金で提供へ–音声でのやり取りも可
今回は「OpenAI、リアルタイムAPIをプレミアム料金で提供へ–音声でのやり取りも可」についてご紹介します。
関連ワード (CIO/経営等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
OpenAIの開発者向け年次イベント「OpenAI DevDay」が米国時間10月2日にサンフランシスコで開催され、多くの製品と機能が発表された。今回の目玉は、リアルタイムのアプリケーションプログラミングインターフェース(API)の導入だった。
この開発者向け機能によって、推論オペレーションの実施中、すなわち、プロダクション大規模言語モデル(LLM)で予測をしている最中に、音声言語による入出力の送受信が可能になる。こうしたタイプの情報のやり取りを導入することで、人間と言語モデルの間の会話が、より滑らかでリアルタイムなものになることが期待されている。
ただし、この機能を使うにはかなりの追加料金がかかる。リアルタイムAPIのベースとなるモデルは、大規模言語モデル「GPT-4o」となるが、OpenAIの現行料金では、このモデルの料金は100万トークンあたり入力テキストで2.50ドル、出力テキストで10ドルに設定されている。
一方、リアルタイムの入出力では、少なくともこの2倍の料金がかかる。リアルタイムAPIを使う場合、GPT-4oへのテキストでの入出力は、100万トークンあたり、入力に5ドル、出力に20ドルがかかる。
また、音声トークンを使うことも可能だが、この場合は100万トークンあたりのコストが入力で100ドル、出力で200ドルに跳ね上がる。
OpenAIによると、音声会話の標準的な統計値で計算した場合、音声トークンの料金は「音声入力が1分あたり約0.06ドル、音声出力が1分あたり約0.24ドルに相当する」という。
OpenAIでは、生成AIにおけるリアルタイム音声の活用例をいくつか挙げている。例えば、人にアドバイスを与えるオートメーション化されたヘルスコーチ、新たな言語を練習したい学生と会話ができる語学チューターなどで活用できるという。
他にも、この年次会議で、OpenAIはプロンプトキャッシングの手法で開発者が負担するコストの総額を削減する方法を提示した。これは以前にモデルに送信された入力トークンを再利用する手法だ。このアプローチによって、GPT-4oの入力テキストトークンのコストを50%削減できるという。