マスク氏のxAIが発表した新モデル「Grok 3」は期待以上–チャットボットランキングでも急上昇

今回は「マスク氏のxAIが発表した新モデル「Grok 3」は期待以上–チャットボットランキングでも急上昇」についてご紹介します。

関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 Elon Musk氏は、2015年にOpenAIが設立された際に出資者の一人だった。しかしその後、同氏は同社との関係を完全に断ち切り、OpenAIが当初の非営利活動から逸脱したと主張している。そして現在、同氏は自身のAI企業xAIを設立し、「Grok」と呼ばれる大規模言語モデル(LLM)を開発している。そのxAIが発表した新モデル「Grok 3」は、チャットボットのリーダーボードでトップに急上昇している。

 先日、Musk氏はライブ配信を開催し、xAIの最新AIモデル群であるGrok 3を発表した。Grok 3の開発には、xAIがテネシー州メンフィスに構築した20万個のGPUを擁する独自のデータセンターを活用し、前モデル「Grok 2」と比べて10倍のトレーニングを実施した。

 「Grok 3を発表できることをとてもうれしく思う。Grok 2よりもはるかに優れた能力を持つと確信している」と、Musk氏はライブ配信で語った。

 このモデルファミリーには、Grok 3を基盤とする推論モデルも含まれている。OpenAIの「o1」や「o3」モデルなど、市場に出回っている他の推論モデルと同様に、「Grok 3 Reasoning」のベータ版は、より質の高い結果を出力するために、思考時間を長めに取る設計となっている。

 全てのGrok 3モデルは、主要なモデルとの競合を目標に開発されている。Grok 3はOpenAIの「GPT-4o」やGoogleの「Gemini」と競合し、Grok 3 Reasoningは「03-mini(high)」、o1、「Deepseek-R1」などと競合する。市場に登場してから24時間も経たないうちに、xAIの製品はベンチマークとリーダーボードを独占するほどの勢いを見せている。

 Grok 3の事前トレーニングは1月初旬に終了しており、現在もトレーニング中ではあるが、既に幾つかのAIベンチマークで主要なモデルを上回るパフォーマンスを発揮している。具体的には、数学的推論をテストする「AIME ’24」、科学(特に生物学、物理学、化学)の習熟度をテストする「GPQA」、コーディング能力をテストする「LCB Oct-Feb」などで優れた結果を出している。

 Grok 3と「Grok 3 mini」の推論モデルは現在も開発中だが、xAIがライブ配信中に共有した結果によると、両モデルのベータ版は、AIME、GPQA、LCBの分野において、03-mini(high)、o1、DeepSeek-R1、「Gemini-2 Flash Thinking」と比較しても遜色ないパフォーマンスを示している。

 技術ベンチマーク以外でも、Grok 3はChatbot Arenaのランキングでも急上昇した。Chatbot Arenaは、ユーザーが2つのLLMと並行してチャットを行い、モデル名を知らなくてもそれぞれの応答を比較することでLLMを評価するプラットフォームである。

 Grok 3の公式リリースに先立ち、初期バージョンのモデルが「chocolate」という名前でChatbot Arenaで実行され、Gemini、GPT-4o、DeepSeek-R1などと比較して全てのカテゴリーで1位を獲得した。また、Chatbot Arenaで1400点以上のスコアを記録した最初のモデルとなった。

 エージェント機能への需要に応えるため、xAIはOpenAIやGoogleのディープリサーチ機能と同様の「DeepSearch」も立ち上げた。DeepSearchでは、ユーザーが質問をすると、Grokがそれを分析し、ウェブを検索し、思考のプロセスを随時アウトプットしながら、必要に応じてデータや表とともに最終的な回答を生成する。つまり、あるトピックの調査を依頼し、10分後に戻ってくると、その作業は完了しているというイメージだ。

 特筆すべきは「Grokの思考を読み取る」ことができ、最終的な回答にたどり着くまでの過程を理解できることである。これにより、Grokの操縦性が向上し、結果をより深く理解できるようになる。

 一部のGrokモデルがベータ版として利用可能になっている。Grok 3は有料プランの「X Premium+」で利用でき、最新機能や利用制限の増加、DeepSearchへのアクセス、「Think」または「Big Brain」オプションをクリックして高度な推論モードを利用できる。

 TechCrunchが指摘するように、X Premium+のサブスクリプション料金は発表当時の22ドルから値上がりして月額40ドルとなった。

 xAIはまた、最も先進的な機能にいち早くアクセスしたいヘビーユーザー向けに、「ChatGPT Pro」と似た新しいサブスクリプションプラン「SuperGrok」を発表した。同プランの料金はまだ発表されていないが、ChatGPT Proが月額200ドルであることから、かなりの金額になることが予想される。

 最も洗練されたバージョンについて、Musk氏はユーザーに1週間待つよう勧めている。それまでには、新しい音声統合機能が展開できる状態になっている見込みだという。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
高配当利回り株で資産形成:次の景気後退はいつか?どう乗り切るか?(その2)
IT関連
2021-07-01 22:42
テレワークで生産性向上?–常態化で見えたこと
IT関連
2021-03-29 18:12
花王グループ、通勤費/交通費の精算をAIで自動化–約5万5000時間の業務時間を削減
IT関連
2021-07-08 16:38
OpenAI、よく考えて回答する新AIモデル「OpenAI o1」を発表
IT関連
2024-09-14 07:02
人間中心のAIを作るには「生産的な不快感」が必要
IT関連
2022-12-13 02:01
フリーのITエンジニアやWebデザイナーも国の労災保険へ加入が可能に。業務や通勤での疾病、負傷、死亡など補償。国の労働政策審議会が了承。9月から
働き方
2021-07-06 07:34
カシオ「G-SHOCK」に角型ケースのワークアウト用モデル 「初号機のデザインを継承」
くらテク
2021-06-16 00:35
ソフトバンクの人型ロボット「Pepper」が「りんな」を手がけるrinnaのAI会話エンジン最新版を採用
IT関連
2021-08-21 17:42
Google Cloud、乗っ取られて暗号資産を無断採掘されているインスタンスを検出する「VM threat detection」発表。ハイパーバイザによるメモリ分析でエージェントレス
Google
2022-02-09 09:22
Slackの情報集約機能「Slack canvas」が正式公開
IT関連
2023-04-27 02:01
世界PC出荷台数、2023年2Qは前年比13.4%減–6四半期連続の減少
IT関連
2023-07-13 16:08
Denoが新フレームワーク「Fresh 1.0」リリース。Just-in-timeレンダリングやランタイムオーバヘッドゼロなどの特徴がもたらす優位性とは?
Deno
2022-07-04 09:12
“二重で脅す”ランサムウェア、さらに手口が巧妙化した新種も システムの正しい守り方を専門家に聞く (1/2 ページ)
クラウドユーザー
2021-06-12 23:44
関西電力、クラウド契約サービス「クラウドサイン」を全社導入–印紙税や人件費を削減
IT関連
2022-03-08 01:15