Google、AIでファイルの種類を高速正確に判別できる「Magika」をオープンソースで公開

今回は「Google、AIでファイルの種類を高速正確に判別できる「Magika」をオープンソースで公開」についてご紹介します。

関連ワード (一般、安全性評価、実現等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


Googleは、AIを用いることでファイルの種類を高速かつ正確に判別できるツール「Magika」をオープンソースで公開したと発表しました。

fig

Magikaは、あるファイルの中味が何なのか、記述されたプログラミング言語の種類、動画や画像、音声などのフォーマットの種類、ExcelやWord、PDFなどのオフィス系ソフトウェアの種類、OSの実行形式バイナリなどの種類を瞬時に判別してくれます。

下記はコマンドラインとしてMagikaを実行した例で、フォルダ内のファイルの種類を出力しています。

fig

特別に最適化された1MBのモデルでを用いて推論を実行

Magikaはファイルの判別に、Kerasを用いて特別に最適化されたディープラーニングによる、わずか1MBのモデルを用いていると説明されています。

このモデルは推論エンジンのOnnx上で実行されています。実行速度はGPUを用いずCPU上で処理されたとしても数ミリ秒程度とのこと。

GoogleはこのMagikaを100以上のファイルタイプを網羅する1Mファイルベンチマークで評価し、他の既存ツールより高い精度で判別を実行し、なおかつ他を約20%上回る高速度を実現したことも発表しています。

なぜファイルの中味を見て判別する必要があるのか?

一般にファイルの種類は拡張子によって示されますが、現実にはファイルの拡張子がつねに正しいとは限らないため、ファイルの内容を見て種類を判別する処理はさまざまなソフトウェアの内部で行われています。

例えば、コードエディタにおいてシンタックスハイライトの設定を行うためにプログラミング言語の種類を判別することや、業務アプリケーションが特定の種類のファイル以外は読み込まないような判別をすることなどが挙げられます。

特に重要とされているのはセキュリティの分野です。拡張子を偽ってユーザーにファイルを開かせようとするマルウェアに対処するために、拡張子ではなくファイルの内容から種類を適切に判断し、ファイルの種類に合わせて用意されたスキャナーによる安全性評価は欠かせません。

GoogleはMagikaをGmailやGoogle Driveなどの何百万ものファイル処理にすでに活用しており、これまで同社が利用していたルールによるファイル判別と比べて50%の精度向上を実現でき、より精度の高いスキャンが可能になったと説明されています。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
ソフトウェアの「部品」プラットフォームを目指すラキールの狙い
IT関連
2023-03-01 07:50
新種の「Bumblebee」マルウェア、ランサムウェアエコシステムの中核に
IT関連
2022-07-01 00:25
DellがVMwareを分離する計画が明らかに、これにより同社は9000億円以上を得る
その他
2021-04-16 11:30
アドビ、生成AI「Firefly」の次世代モデル3種を発表
IT関連
2023-10-12 03:21
Axiom Spaceの民間宇宙ステーション加圧モジュール開発は仏伊Thales Alenia Spaceが担当
宇宙
2021-07-20 09:31
安価に大量生産が可能な6G通信の電波制御のための新規材料「三次元バルクメタマテリアル」を開発
IT関連
2022-03-16 05:28
「Windows Subsystem for Linux(WSL)」が一般提供に
IT関連
2022-11-26 11:33
小規模企業のソーシャルメディア活用–ありのままを伝える投稿が成功のカギ
IT関連
2022-07-09 08:50
電話でタクシー運賃を事前確定 広島で8月開始、順次全国展開
ネットトピック
2021-07-30 03:22
ISID、行政手続き申請管理システムを提供–オン/オフライン両方に対応
IT関連
2022-06-29 01:15
やはり新型コロナウイルスの影響が色濃く出たCES 2021
ハードウェア
2021-01-18 00:38
藤田医科大学、AWSで「PHR」基盤を構築
IT関連
2022-11-09 14:40
日経平均急落–三大割安株「買い場」の判断変わらず
IT関連
2021-05-12 23:06
Twitchが誤情報を頻繁に共有するストリーマーを禁止処分に、ストリーム以外での行為も対象
IT関連
2022-03-06 14:50