Firefox、オンデバイスAIで画像のAltテキストを自動生成する実験的機能を導入、スクリーンリーダーのユーザーに利便性

今回は「Firefox、オンデバイスAIで画像のAltテキストを自動生成する実験的機能を導入、スクリーンリーダーのユーザーに利便性」についてご紹介します。

関連ワード (改良、日以内、環境等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


Firefoxの開発元であるMozillaは、Webページ上の画像のAltテキストをオンデバイスAIモデルを使用して自動的に生成する実験的な機能を、9月にリリースされる予定のFirefox 130で導入することを明らかにしました。

fig

この機能は、Firefoxに搭載されているPDFエディタの一部となる予定です。

最終目標としては、Webページを音声で読み上げるスクリーンリーダーを使用している視覚障害者などのユーザが一般的なブラウジングで利用できるようにすることとされています。

オンデバイスAIでAltテキストを生成する理由

画像のAltテキストは、Webページで画像が表示できないときに、画像の代わりに使われるテキストの情報です。しかし、Altテキストが設定されていない画像は多くのWebページで存在します。

今回のMozillaの取り組みは、こうしたAltテキストが設定されていない画像を含むWebページでも、Altテキストを自動生成することで、画像の説明をスクリーンリーダーに対してきちんと提供できるようにすることです。

クラウドで提供されている高度な生成AIを用いればこうしたことは比較的容易に実装できそうですが、その場合にはユーザーが見ているWebページの画像をクラウドに送信することになるため、ユーザーのプライバシーの問題や生成AIの利用コストの問題などが発生します。

そのため、今回の実験的実装では小規模なオンデバイスAIが用いられることになりました。

Mozillaによると、オンデバイスAIの利点は次のようになっています。

プライバシー: すべての処理がデバイス内で行われるため、データのプライバシーが保証されます。また、ユーザーのデータがモデルの学習に使用されることはありません。
資源効率: クラウド上で稼働する高性能GPUが不要になるため、リソースの消費量が削減され、環境にやさしくなります。
透明性の向上: AIモデルを組織内で管理することでトレーニングデータセットを直接監視できるため、一部の大規模言語モデル(LLM)と比べて透明性が高まります。
カーボンフットプリントのモニタリング: AIモデルを組織内でトレーニングすることで、CodeCarbonなどのツールを使ってCO2排出量を正確に追跡できます。
改善の容易さ: 再トレーニングは1台のハードウェアで1日以内に完了するため、モデルの頻繁な更新と改良が可能です。

オンデバイスAIを用いたAltテキストの出力例

オンデバイスAIを用いた実際のAltテキストの出力例も紹介されています。

下記の画像の「FIREFOX」は、1億8200万パラメータの蒸留済みGPT-2とVision Transformer(ViT)画像エンコーダを用いた結果です。「BASELINE MODEL」はやや大きめのViT+GPT-2モデル。「HUMAN TEXT」は人間が記述したAltテキストです。

fig

手の位置のせいで「BASELINE MODEL」は女性がケーキを持っていると説明していますが、「FIREFOX」はおおむね画像の概要を説明したテキストになっています。

Mozillaは今後も継続的にこのAIモデルを改良していくとしています。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
ヨドバシ.comを支える内製プライベートクラウド/GitHub Codespacesが全ユーザーに無料提供へ/マイクロソフト「.NET 7」正式リリースほか、2022年11月の人気記事
編集後記
2022-12-09 08:25
日本MS、法人向けに「Microsoft 365 Copilot」を提供–知的財産保護のサポート製品も
IT関連
2023-10-31 20:24
広島市と日本IBM、地域のDX推進に向け連携–「IBM地域DXセンター」設立予定
IT関連
2022-12-28 23:08
高速プロトコル「QUIC」、IETFが標準として承認
IT関連
2021-05-31 16:45
スペースデブリの軌道を精緻に把握–富士通の新解析システムがJAXAで運用開始
IT関連
2022-04-09 21:50
クラウドネイティブ化がLINEのネットワーク開発にもたらしたスピード。テレコム企業はOSSとどう付き合うのか。Cloud Native Telecom Operator Meetup 2022[PR]
クラウド
2022-12-08 15:09
ジャック・ドーシーCEOのSquare、音楽サービスTIDALの過半数株を約3億ドルで買収
企業・業界動向
2021-03-06 08:54
デジタル庁の民間人採用、倍率は40倍以上 1432人が応募
キャリア・しごと
2021-01-27 06:45
大学VCの慶應イノベーション・イニシアティブが2号ファンドを103億円で募集終了
VC / エンジェル
2021-01-26 18:28
グーグル、AIを活用した取り組みの最新状況を報告–洪水予測や信号の待ち時間短縮など
IT関連
2023-10-12 05:58
TOPPANホールディングス、「SAP S/4HANA」と「SAP BTP」でシステム基盤の近代化を推進
IT関連
2023-12-05 18:55
人工知能のクローズド化に反対する新興企業2社の決意
IT関連
2023-06-06 12:50
「いびつなiPadファミリー」は解消される? Appleの発表イベント「Spring Loaded.」で登場するかもしれないiPad ProとiPad miniのうわさまとめ
IT関連
2021-04-21 22:14
三菱地所、社員1万人を「DX人材」にする育成プログラムを開始
IT関連
2022-09-30 13:40