Metaの自己教師あり学習AI「data2vec」の可能性–より汎用的なAIへの布石へ
今回は「Metaの自己教師あり学習AI「data2vec」の可能性–より汎用的なAIへの布石へ」についてご紹介します。
関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
複数のデータ種類を処理できるニューラルネットワーク(NN)、つまりどのような型のデータであっても、同じ基本構造ですべてを処理できる、より汎用的な人工知能(AI)の開発競争が始まっている。
NNにおけるマルチモダリティーと呼ばれるこうした分野では現在、画像やテキスト、音声といったさまざまなデータを同一のアルゴリズムで処理し、画像認識や自然言語理解、音声検出といった種々の観点から評価するという取り組みが活発に進められている。
そしてこうした汎用ネットワークはAIのベンチマークテストで高いスコアをたたき出している。その最新の成果が、Meta Platforms(「Facebook」や「Instagram」「WhatsApp」を擁する旧称Facebook)のAI部門のリサーチャーらによって開発された「data2vec」だ。
MetaのリサーチャーであるAlexei Baevski氏とWei-Ning Hsu氏、Qiantong Xu氏、Arun Babu氏、Jiatao Gu氏、Michael Auli氏が同社ブログに記しているように、ここで重要なのは、人間が備えているような汎用の学習能力に近づけていくことだ。
同ブログには「人間は、どのように情報を得るかにかかわらず、例えば目からか、あるいは耳からかにかかわらず、いずれも似たような方法で学習する一方、自己教師あり学習アルゴリズムが画像や音声、テキストといったモダリティーから学習する方法は、現在のところそれぞれ大きく異なっている」と記されている。
ここでの大事なポイントは、「AIは、まったく精通していない分野のものも含めて数多くのさまざまなタスクをこなせるようになるための学習能力を身に付けなければならない」ということだ。
Metaの最高経営責任者(CEO)Mark Zuckerberg氏はこの取り組みと、将来のメタバースとの関連について以下のように述べている。
data2vecという名称は、Googleによって2013年に開発された「単語の埋め込み」プログラム「word2vec」をもじったものだ。word2vecは、単語のまとまりがどのように結合されるのかを予測する、つまりテキストというデータの型でNNを表現するためのプログラムだ。
一方data2vecは、GoogleのAshish Vaswani氏とその同僚らが2017年に開発した「Transformer」と呼ばれる標準的なNNモデルを基にして、複数のデータ型で使用できるようにBaevski氏らが拡張したものだ。