「ChatGPT」、「高度な音声モード」の提供を開始–有料ユーザーを対象に
今回は「「ChatGPT」、「高度な音声モード」の提供を開始–有料ユーザーを対象に」についてご紹介します。
関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
OpenAIが5月の「Spring Update」イベントで発表し、最も期待されていた機能の1つ「Advanced Voice Mode」(高度な音声モード)が、ついにアルファ版の段階を脱し、「ChatGPT Plus」と「ChatGPT Team」の全ユーザーに提供されることになった。
OpenAIは米国時間9月24日、ユーザーがアシスタントの会話に割り込んだり、自分の感情に即した応答を得たりできるAdvanced Voice Modeを、ChatGPT PlusとChatGPT Teamのユーザーに提供し始めたことを明らかにした。また、この提供に合わせて、「Arbor」「Maple」「Sol」「Spruce」「Vale」という5つの新しい音声を、「Standard Voice Mode」(標準的な音声モード)とAdvanced Voice Modeの両方で利用できるようにした。
OpenAIによると、ChatGPT PlusとChatGPT Teamのユーザーには段階的に提供され、「ChatGPT Enterprise」と「ChatGPT Edu」のユーザーには来週から提供されるという。この機能を使えるようになったかどうかは、「ChatGPT」インターフェース内の音声モードオプションの横に表示されるポップアップメッセージで確認できる。
7月のアルファ版リリース以来、OpenAIはAdvanced Voice Modeに改良を加え、外国語のアクセントへの対応や会話のスピードとスムーズさを改善してきた。また、Advanced Voice Modeのデザインを変更し、青い球体のアニメーションが表示されるようにした。
さらに、個々のユーザーに適したエクスペリエンスを提供するため、Advanced Voice Modeで「Custom Instructions」(カスタム指示)機能と「Memory」(メモリー)機能を利用できるようにした。これにより、応答を生成する際に、ユーザーが共有した基準や指定した基準を考慮するようになる。
ただし、アルファ版と同じく、ユーザーは音声モードのマルチモーダル機能にはアクセスできない。そのため、以下のデモ動画にあるように、スマートフォンの画面に表示した内容に基づいてアドバイスを受けたり、スマートフォンのカメラで撮影した内容に即した応答を得たりすることは不可能だ。
OpenAIは、モデルの安全性を確保するため、45の言語にまたがる100人以上で構成された外部のレッドチームを活用して音声機能をテストした。また8月には、自社の安全性評価ツール「Preparedness Framework」や外部のレッドチームなどによるリスク評価に基づいて大規模言語モデル(LLM)の安全性を説明した詳細レポート「GPT-4o System Card」を公開したが、これにはAdvanced Voice Modeに関する説明も記載されている。