Google、AIでファイルの種類を高速正確に判別できる「Magika」をオープンソースで公開

今回は「Google、AIでファイルの種類を高速正確に判別できる「Magika」をオープンソースで公開」についてご紹介します。

関連ワード (一般、安全性評価、実現等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


Googleは、AIを用いることでファイルの種類を高速かつ正確に判別できるツール「Magika」をオープンソースで公開したと発表しました。

fig

Magikaは、あるファイルの中味が何なのか、記述されたプログラミング言語の種類、動画や画像、音声などのフォーマットの種類、ExcelやWord、PDFなどのオフィス系ソフトウェアの種類、OSの実行形式バイナリなどの種類を瞬時に判別してくれます。

下記はコマンドラインとしてMagikaを実行した例で、フォルダ内のファイルの種類を出力しています。

fig

特別に最適化された1MBのモデルでを用いて推論を実行

Magikaはファイルの判別に、Kerasを用いて特別に最適化されたディープラーニングによる、わずか1MBのモデルを用いていると説明されています。

このモデルは推論エンジンのOnnx上で実行されています。実行速度はGPUを用いずCPU上で処理されたとしても数ミリ秒程度とのこと。

GoogleはこのMagikaを100以上のファイルタイプを網羅する1Mファイルベンチマークで評価し、他の既存ツールより高い精度で判別を実行し、なおかつ他を約20%上回る高速度を実現したことも発表しています。

なぜファイルの中味を見て判別する必要があるのか?

一般にファイルの種類は拡張子によって示されますが、現実にはファイルの拡張子がつねに正しいとは限らないため、ファイルの内容を見て種類を判別する処理はさまざまなソフトウェアの内部で行われています。

例えば、コードエディタにおいてシンタックスハイライトの設定を行うためにプログラミング言語の種類を判別することや、業務アプリケーションが特定の種類のファイル以外は読み込まないような判別をすることなどが挙げられます。

特に重要とされているのはセキュリティの分野です。拡張子を偽ってユーザーにファイルを開かせようとするマルウェアに対処するために、拡張子ではなくファイルの内容から種類を適切に判断し、ファイルの種類に合わせて用意されたスキャナーによる安全性評価は欠かせません。

GoogleはMagikaをGmailやGoogle Driveなどの何百万ものファイル処理にすでに活用しており、これまで同社が利用していたルールによるファイル判別と比べて50%の精度向上を実現でき、より精度の高いスキャンが可能になったと説明されています。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
ラウンドアップ:変革を推し進める大手IT各社の経営トピック
IT関連
2022-08-16 20:20
「楽天全国スーパー」今秋スタート スーパーのネット進出支援、“楽天経済圏”に
企業・業界動向
2021-08-20 09:18
マイクロソフト、もしもCopilotの利用者が著作権侵害で訴えられたら、賠償金を代わりに支払うと約束。「Copilot Copyright Commitment」を発表
Microsoft
2023-09-14 22:23
カット野菜もシャキシャキ AIが仕切るスマート農業
IT関連
2021-05-21 13:49
インテルとドコモ、LTE/5G対応PCの企業展開に向け協業
IT関連
2021-04-21 19:27
開発者はリモートワークを望んでいる–企業が把握するべき効用とデメリット
IT関連
2022-01-25 09:55
写真SNS「Dispo」、日本で副業人材を募集 支社立ち上げに向け
ネットトピック
2021-07-15 16:04
ウクライナ軍に入隊したアジャイルコーチが、さまざまなメソッドを駆使して中隊長としてのリーダーシップを実現した話(中編)
アジャイル開発
2024-02-08 15:11
「脱炭素」でさらに注目が集まる気候テック、IoT、AI、SaaS活用でさまざまな企業、サービスが誕生
IT関連
2022-02-26 08:07
Shopifyは多くの富を生み出し、元従業員を創業者や投資家にする
ネットサービス
2021-05-25 00:19
NECとNTTドコモ、自然災害の救助活動で実証–ドローンなどで要救助者などを検知
IT関連
2022-06-29 06:34
インテル、第3四半期は予想を上回る利益–通期の業績見通しは下方修正
IT関連
2022-10-29 00:18
「進撃の巨人」最終回、深夜にアプリ盛況、雑誌は書店から駆逐される
くらテク
2021-04-11 12:44
AIが生成した作品は著作権で保護されない–米裁判所が判決
IT関連
2023-08-23 15:02