Meta、200言語を翻訳するAI「NLLB-200」をオープンソース化

今回は「Meta、200言語を翻訳するAI「NLLB-200」をオープンソース化」についてご紹介します。

関連ワード (ビッグデータ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 Metaは米国時間7月6日、200種類もの言語翻訳が可能な人工知能(AI)モデル「NLLB-200」をオープンソース化したと発表した。これにより、さまざまな技術とデジタルコンテンツが、今までよりもはるかに広い範囲の人々に開放されることになるとみられる。「No Language Left Behind(NLLB)」というこのモデルは、55のアフリカ系言語を含め、合わせて200種類の言語を高い品質で翻訳できる。

 「英語、標準中国語、スペイン語、アラビア語など、わずか数種類の言語がウェブを独占している」と、同社はブログ記事の中で述べている。「非常に広く使われているこれらの言語を母国語とする人々は、自分の母国語で記述されたものを読むことの重要性を、当たり前と感じているかもしれない。NLLBは、より多くの人々が、感情や文脈に誤りの多い中間言語を必要とすることなく、それぞれが望む言語で文章を読めるように支援する」

 同社は、NLLBを自社製品の改良に利用しているが、このモデルがオープンソース化されることにより、技術者らは、ジャワ語やウズベク語のような言語で適切に動作するAIアシスタントなどのツール構築や、スワヒリ語やオロモ語でのボリウッド映画の字幕作成に利用できるようになる。

 NLLBは、単一の最先端AIモデルが対応できる言語の数を2倍近くにまで増やしている。Metaによると、カンバ語やラオ語など、多くの言語が、既存の翻訳ツールで十分にサポートされていないか、まったくサポートされていないという。広く使用されている翻訳ツールで現在サポートされているアフリカ系言語は、25種類を下回る。

 NLLB-200は翻訳品質についても、これまでのAI研究と比べて平均44%向上している。また、一部のアフリカやインドの言語の翻訳精度は70%以上高かったという。翻訳品質を判定するために、Metaは、自動指標評価と人間による評価の両方を実施した。

 Metaの研究者らはNLLB-200の翻訳品質を高めるため、4万種類の言語の使用法における性能評価を支援するデータセット「FLORES-200」を構築した。

 Metaは、NLLB-200のオープンソース化に加えて、FLORES-200のデータセット、モデルトレーニングコード、トレーニングデータセットを再作成するためのコードを開発者らに提供する。

 また、NLLB-200を効果的に使用し、サステナビリティ(持続可能性)、フードセキュリティ(食料安全保障)、ジェンダーに基づく暴力や教育など、国際連合(UN)の持続可能な開発目標(SDGs)を支持する分野に取り組む研究者や非営利組織に、最大20万ドル(約2700万円)の助成金を提供する。

 Metaはこのモデルが自社製品全体で、毎日250億回を超える翻訳に対応すると期待している。コンテンツの翻訳とより適切な広告の表示に加えて、有害なコンテンツや偽情報の検出にも利用される予定だ。

 MetaのNLLB研究は、ウィキペディア編集者らが使用する翻訳システムにも利用されている。Metaは、ウィキペディアをはじめとする無料の知識プロジェクトを運営する非営利組織Wikimedia Foundationと提携し、ウィキペディアの翻訳システムの改良を支援している。ウィキペディアは、300を超える言語で提供されているが、英語版には600万件を超える記事が掲載されているのに対し、記事数がはるかに少ない言語がほとんどだ。

 編集者らは、Wikimedia Foundationの「Content Translation Tool」を介してNLLB-200の技術を利用し、リソースが少ない20以上の言語で記事を翻訳できる。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
Google、「Pixel 5a(5G)」を5万1700円で発売へ 過去最大6.34インチでIP67
製品動向
2021-08-19 08:39
イノベーション大国のスイスに学ぶ、AI・量子技術へのアプローチ
IT関連
2023-12-19 18:20
CruiseとWaymoを追う中国の自律走行車企業AutoXがサンフランシスコでテスト開始へ
IT関連
2022-02-13 01:38
AI契約審査プラットフォーム「LegalForce」が知産関連契約書のレビュー対応類型を拡充、累計10類型に
リーガルテック
2021-06-18 19:59
Dropbox、バックアップ機能を単独製品としても提供
IT関連
2022-04-16 00:14
データガバナンスを確保したエンタープライズ規模の機械学習を実現するには
IT関連
2023-01-13 06:46
[速報]オラクル、ホワイトボックス化したクラウド一式をSIerに提供する「Oracle Alloy」発表。SIerがカスタマイズし自社ブランドでのサービス実現。Oracle CloudWorld 2022
Oracle Cloud
2022-10-20 23:16
リーガルテックでのAI活用–ハードルはやはり紙の契約書
IT関連
2024-02-06 21:10
NECら3社が「秘密計算研究会」立ち上げ データを暗号化したまま計算する技術の評価基準策定へ
クラウドユーザー
2021-02-19 18:56
AWSが4.5兆円超のデータセンター投資を米バージニア州で計画、2040年までに
AWS
2023-01-23 07:42
550円の「Raspberry Pi Pico」でIoT その1:気温と湿度、気圧を測定する :名刺サイズの超小型PC「ラズパイ」で遊ぶ(第44回)(1/2 ページ)
アプリ・Web
2021-07-24 16:03
「楽天モバイルの通話アプリが使えない」 福井のケーブルテレビ局が技術サポートを求め異例の発表
セキュリティ
2021-03-09 00:59
京都のヤサカタクシーとNearMeが「攻めのDX」でタッグ、タクシー業界のDXと乗車客の快適な移動を目指し業務提携
モビリティ
2021-04-14 03:10
コロナ禍でも実績を重ねるラクスのマネジメント論 成長の鍵は「リーダーシッププリンシプル」
PR
2021-01-19 05:16