OpenAI、「GPT-4 Turbo with Vision」を「OpenAI API」で一般提供
今回は「OpenAI、「GPT-4 Turbo with Vision」を「OpenAI API」で一般提供」についてご紹介します。
関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
OpenAIは、「ChatGPT」や「Copilot」といった最も人気の高いAIチャットボットのいくつかを動作させるのに利用されている高度な大規模言語モデル(LLM)で最も知られている。マルチモーダルモデルは、視覚アプリケーションの新たな範囲を解き放つことでチャットボットの能力を新たな段階に引き上げることができ、OpenAIは一つのモデルを開発者に対して利用可能にした。
OpenAIは米国時間4月9日、「GPT-4 Turbo with Vision」が「OpenAI API」を通じて開発者に一般提供されたとX(旧Twitter)の投稿で発表した。同モデルは、最新の「GPT-4 Turbo」モデルにビジョン機能を追加したもの。
この最新モデルでは、GPT-4 Turboの12万8000トークンウィンドウと2023年12月までの知識という制限に変わりはない。主な違いはビジョン機能で、画像やビジュアルコンテンツの理解が可能になっている。
GPT-4 Turbo with Visionが利用可能になる前は、開発者はテキストと画像のために別々のモデルを呼び出す必要があった。現在、開発者は、両方に対応する一つのモデルを呼び出すだけでよく、プロセスを簡略化し、幅広いユースケースに向けて扉を開くことができる。
OpenAIは、開発者が同モデルを使用している方法の一部を紹介しており、それらは非常に魅力的だ。
例えば、AIソフトウェアエンジニアリングアシスタントのDevinさんは、コーディングのよりよい支援を目的にGPT-4 Turbo with Visionを使っている。健康・フィットネスアプリ「Healthify」では、GPT-4 Turbo with Visionを使って、ユーザーの食事の写真をスキャンし、写真認識を通じて栄養に関するインサイトを提供している。最後にMake Realでは、GPT-4 Turbo with Visionを使ってユーザーの描いた絵を実際に動作可能なウェブサイトに変換している。
GPT-4 Turbo with Visionモデルは、ChatGPT内部でも一般に向けて提供されていないが、OpenAIは、ChatGPTでもまもなく利用可能になることを明らかにしている。GPT-4 Turbo with Vision APIを使ってみたい開発者は、こちらでどのようにすればよいか知ることができる。