Google、AIでファイルの種類を高速正確に判別できる「Magika」をオープンソースで公開

今回は「Google、AIでファイルの種類を高速正確に判別できる「Magika」をオープンソースで公開」についてご紹介します。

関連ワード (一般、安全性評価、実現等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


Googleは、AIを用いることでファイルの種類を高速かつ正確に判別できるツール「Magika」をオープンソースで公開したと発表しました。

fig

Magikaは、あるファイルの中味が何なのか、記述されたプログラミング言語の種類、動画や画像、音声などのフォーマットの種類、ExcelやWord、PDFなどのオフィス系ソフトウェアの種類、OSの実行形式バイナリなどの種類を瞬時に判別してくれます。

下記はコマンドラインとしてMagikaを実行した例で、フォルダ内のファイルの種類を出力しています。

fig

特別に最適化された1MBのモデルでを用いて推論を実行

Magikaはファイルの判別に、Kerasを用いて特別に最適化されたディープラーニングによる、わずか1MBのモデルを用いていると説明されています。

このモデルは推論エンジンのOnnx上で実行されています。実行速度はGPUを用いずCPU上で処理されたとしても数ミリ秒程度とのこと。

GoogleはこのMagikaを100以上のファイルタイプを網羅する1Mファイルベンチマークで評価し、他の既存ツールより高い精度で判別を実行し、なおかつ他を約20%上回る高速度を実現したことも発表しています。

なぜファイルの中味を見て判別する必要があるのか?

一般にファイルの種類は拡張子によって示されますが、現実にはファイルの拡張子がつねに正しいとは限らないため、ファイルの内容を見て種類を判別する処理はさまざまなソフトウェアの内部で行われています。

例えば、コードエディタにおいてシンタックスハイライトの設定を行うためにプログラミング言語の種類を判別することや、業務アプリケーションが特定の種類のファイル以外は読み込まないような判別をすることなどが挙げられます。

特に重要とされているのはセキュリティの分野です。拡張子を偽ってユーザーにファイルを開かせようとするマルウェアに対処するために、拡張子ではなくファイルの内容から種類を適切に判断し、ファイルの種類に合わせて用意されたスキャナーによる安全性評価は欠かせません。

GoogleはMagikaをGmailやGoogle Driveなどの何百万ものファイル処理にすでに活用しており、これまで同社が利用していたルールによるファイル判別と比べて50%の精度向上を実現でき、より精度の高いスキャンが可能になったと説明されています。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
芝浦機械とマクニカが熟練技能の継承をAIで実現
IT関連
2022-06-23 13:55
Cloudflare、APIトラフィック管理ソリューションを発表
IT関連
2022-03-20 03:29
パナソニックHD、複数ロボットの管理制御を実証実験–効率的な運用目指す
IT関連
2023-03-10 22:29
Ubisoft、ゲームキャラを自然に動かせる低コストな深層学習モデルを開発 :Innovative Tech
イラスト・デザイン
2021-03-24 08:17
石川県加賀市、LGWAN接続系SaaSの業務利用でクラウドのファイル無害化を活用
IT関連
2023-09-07 03:23
マイクロソフト、通信やメディア業界でのクラウド導入を促進
IT関連
2021-04-08 13:26
日産エルグランドを「移動Web会議室」に 専用ディスプレイ設置、運転手付き
企業・業界動向
2021-05-26 19:31
ANAシステムズ、「Turing Certs」でグループ社員のキャリアパスポートを一括管理
IT関連
2024-04-07 17:25
アイザワ証券、法人向けセミナー管理システム導入–参加者の情報を一元管理
IT関連
2022-04-12 12:33
GitHubによるDockerコンテナレジストリ「GitHub Packages Container registry」が正式サービスに
Docker
2021-06-23 09:23
Ziddyちゃんの「私を社食に連れてって」:ニュータニックス・ジャパンの週1ランチでコラボレーション編
IT関連
2022-09-17 02:27
テレワーク、中高年は「歓迎」も20代「幸福度低下」のナゼ 若年層が実感する「抑圧」と「強制」
IT関連
2021-06-17 14:44
ゼロコピーで瞬時にプロセス間の大規模データ通信を可能にする「Eclipse iceoryx」ミドルウェア、Eclipse Foundationが公開
API
2021-07-14 23:46
三井住友銀、自社共通の「Vポイント」で残高チャージできるモバイル決済アプリ
最近の注目ニュース
2021-02-02 21:20