Google、AIでファイルの種類を高速正確に判別できる「Magika」をオープンソースで公開

今回は「Google、AIでファイルの種類を高速正確に判別できる「Magika」をオープンソースで公開」についてご紹介します。

関連ワード (一般、安全性評価、実現等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


Googleは、AIを用いることでファイルの種類を高速かつ正確に判別できるツール「Magika」をオープンソースで公開したと発表しました。

fig

Magikaは、あるファイルの中味が何なのか、記述されたプログラミング言語の種類、動画や画像、音声などのフォーマットの種類、ExcelやWord、PDFなどのオフィス系ソフトウェアの種類、OSの実行形式バイナリなどの種類を瞬時に判別してくれます。

下記はコマンドラインとしてMagikaを実行した例で、フォルダ内のファイルの種類を出力しています。

fig

特別に最適化された1MBのモデルでを用いて推論を実行

Magikaはファイルの判別に、Kerasを用いて特別に最適化されたディープラーニングによる、わずか1MBのモデルを用いていると説明されています。

このモデルは推論エンジンのOnnx上で実行されています。実行速度はGPUを用いずCPU上で処理されたとしても数ミリ秒程度とのこと。

GoogleはこのMagikaを100以上のファイルタイプを網羅する1Mファイルベンチマークで評価し、他の既存ツールより高い精度で判別を実行し、なおかつ他を約20%上回る高速度を実現したことも発表しています。

なぜファイルの中味を見て判別する必要があるのか?

一般にファイルの種類は拡張子によって示されますが、現実にはファイルの拡張子がつねに正しいとは限らないため、ファイルの内容を見て種類を判別する処理はさまざまなソフトウェアの内部で行われています。

例えば、コードエディタにおいてシンタックスハイライトの設定を行うためにプログラミング言語の種類を判別することや、業務アプリケーションが特定の種類のファイル以外は読み込まないような判別をすることなどが挙げられます。

特に重要とされているのはセキュリティの分野です。拡張子を偽ってユーザーにファイルを開かせようとするマルウェアに対処するために、拡張子ではなくファイルの内容から種類を適切に判断し、ファイルの種類に合わせて用意されたスキャナーによる安全性評価は欠かせません。

GoogleはMagikaをGmailやGoogle Driveなどの何百万ものファイル処理にすでに活用しており、これまで同社が利用していたルールによるファイル判別と比べて50%の精度向上を実現でき、より精度の高いスキャンが可能になったと説明されています。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
バリュー株の逆襲と「NT倍率」急落、いつまで?–米国株が悩む「高圧経済」
IT関連
2021-03-26 21:51
Cloudflare、サーバレスの「Cloudflare Workers」とJAMスタックの「Cloudflare Pages」を統合へ
Cloudflare
2023-05-19 17:21
リモートワークか、オフィス回帰か–経営者のこれまでの常識は通じなくなる
IT関連
2022-05-25 06:42
「シン・エヴァ」Prime Video独占配信 「日本以外」の世界中で
くらテク
2021-07-03 22:25
英国政府、ポルノサイトの年齢確認の復活なるか?
IT関連
2022-02-22 22:39
AIがヒット曲を量産? 人気曲の特徴を学習、メロディやコード進行を自動生成するアプリ登場
ネットトピック
2021-02-23 07:00
JVCケンウッド、通信型アルコール検知器を開発–測定結果をスマホで管理者に送信
IT関連
2022-03-27 22:34
クルマを移動式オフィスに 日産がキャラバンのコンセプトモデルを発表
企業・業界動向
2021-01-19 23:30
「Linux」でメールクライアント「Geary」を使う–便利な機能と残念な点
IT関連
2023-12-08 08:51
仮想通貨取引所Coinbaseの上場はダイレクトリスティングに
企業・業界動向
2021-01-30 21:35
トロイの木馬型マルウェアを使う仮想通貨マイニング攻撃–Linuxが標的
IT関連
2022-12-16 17:58
日産自動車、補修部品の入出庫管理システムに「IBM Cloud」を採用
IT関連
2022-11-30 13:55
仏OVHcloudのデータセンターで火災 4棟中1棟が全焼
クラウドユーザー
2021-03-12 13:53
Google、1エクサフロップを超える性能を持つ「TPU v4」発表、Google史上最高性能のシステム :Google I/O 2021
クラウドユーザー
2021-05-20 19:52