Google、AIでファイルの種類を高速正確に判別できる「Magika」をオープンソースで公開

今回は「Google、AIでファイルの種類を高速正確に判別できる「Magika」をオープンソースで公開」についてご紹介します。

関連ワード (一般、安全性評価、実現等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


Googleは、AIを用いることでファイルの種類を高速かつ正確に判別できるツール「Magika」をオープンソースで公開したと発表しました。

fig

Magikaは、あるファイルの中味が何なのか、記述されたプログラミング言語の種類、動画や画像、音声などのフォーマットの種類、ExcelやWord、PDFなどのオフィス系ソフトウェアの種類、OSの実行形式バイナリなどの種類を瞬時に判別してくれます。

下記はコマンドラインとしてMagikaを実行した例で、フォルダ内のファイルの種類を出力しています。

fig

特別に最適化された1MBのモデルでを用いて推論を実行

Magikaはファイルの判別に、Kerasを用いて特別に最適化されたディープラーニングによる、わずか1MBのモデルを用いていると説明されています。

このモデルは推論エンジンのOnnx上で実行されています。実行速度はGPUを用いずCPU上で処理されたとしても数ミリ秒程度とのこと。

GoogleはこのMagikaを100以上のファイルタイプを網羅する1Mファイルベンチマークで評価し、他の既存ツールより高い精度で判別を実行し、なおかつ他を約20%上回る高速度を実現したことも発表しています。

なぜファイルの中味を見て判別する必要があるのか?

一般にファイルの種類は拡張子によって示されますが、現実にはファイルの拡張子がつねに正しいとは限らないため、ファイルの内容を見て種類を判別する処理はさまざまなソフトウェアの内部で行われています。

例えば、コードエディタにおいてシンタックスハイライトの設定を行うためにプログラミング言語の種類を判別することや、業務アプリケーションが特定の種類のファイル以外は読み込まないような判別をすることなどが挙げられます。

特に重要とされているのはセキュリティの分野です。拡張子を偽ってユーザーにファイルを開かせようとするマルウェアに対処するために、拡張子ではなくファイルの内容から種類を適切に判断し、ファイルの種類に合わせて用意されたスキャナーによる安全性評価は欠かせません。

GoogleはMagikaをGmailやGoogle Driveなどの何百万ものファイル処理にすでに活用しており、これまで同社が利用していたルールによるファイル判別と比べて50%の精度向上を実現でき、より精度の高いスキャンが可能になったと説明されています。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
宅配物受取サービス「ecbo pickup」がクリーニング「ルビー」と業務提携、15店舗で導入開始
シェアリングエコノミー
2021-04-10 11:25
パナソニックグループ、68社へ電子帳簿保存ソリューションを導入
IT関連
2024-05-23 22:18
体験型ストア運営のb8ta Japanが日本における全ライセンス取得し米国b8taから独立、アジア進出も視野
IT関連
2022-02-26 15:17
AIベンチマーク「MLPerf」の最新結果–NVIDIA、デル、クアルコムなど好成績
IT関連
2023-04-12 04:07
豊田通商、タレントマネジメントシステムを国内で稼働開始
IT関連
2023-09-01 01:24
NEC、ローカル5Gの導入を容易にしたセット商品を発売
IT関連
2024-03-07 22:27
【インタビュー】年初から話題のゲーム「Wordle」制作者が語る、バイラルでの人気とその先にあるもの
IT関連
2022-01-30 08:58
AWS、コンテナにWebアプリを置くと簡単にデプロイが完了する「App Runner」リリース。オートスケール、ロードバランス、証明書の管理などすべておまかせ
AWS
2021-05-24 18:00
AWSがLinux関連OSSを特許リスクから守る「Open Invention Network」に加盟。全特許をパテントプールに提供すると表明
AWS
2022-12-09 05:31
広島銀行とNTTデータ、業務プロセス高度化のクラウド基盤を構築
IT関連
2024-07-10 19:48
住友電工、5GとAIによる工場可視化で業務改善効果など確認
IT関連
2021-06-10 17:51
Huawei幹部の引き渡し カナダで審理再開
IT関連
2021-08-08 03:28
丸亀製麺のトリドール、データ分析基盤に「Qlik Sense」を導入
IT関連
2021-05-28 08:28
低スキル求職者が自分で面接を予約、採用の時間・費用を削減する求人マーケットプレイスFrontier
HRテック
2021-07-13 21:04