Google、AIでファイルの種類を高速正確に判別できる「Magika」をオープンソースで公開

今回は「Google、AIでファイルの種類を高速正確に判別できる「Magika」をオープンソースで公開」についてご紹介します。

関連ワード (一般、安全性評価、実現等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


Googleは、AIを用いることでファイルの種類を高速かつ正確に判別できるツール「Magika」をオープンソースで公開したと発表しました。

fig

Magikaは、あるファイルの中味が何なのか、記述されたプログラミング言語の種類、動画や画像、音声などのフォーマットの種類、ExcelやWord、PDFなどのオフィス系ソフトウェアの種類、OSの実行形式バイナリなどの種類を瞬時に判別してくれます。

下記はコマンドラインとしてMagikaを実行した例で、フォルダ内のファイルの種類を出力しています。

fig

特別に最適化された1MBのモデルでを用いて推論を実行

Magikaはファイルの判別に、Kerasを用いて特別に最適化されたディープラーニングによる、わずか1MBのモデルを用いていると説明されています。

このモデルは推論エンジンのOnnx上で実行されています。実行速度はGPUを用いずCPU上で処理されたとしても数ミリ秒程度とのこと。

GoogleはこのMagikaを100以上のファイルタイプを網羅する1Mファイルベンチマークで評価し、他の既存ツールより高い精度で判別を実行し、なおかつ他を約20%上回る高速度を実現したことも発表しています。

なぜファイルの中味を見て判別する必要があるのか?

一般にファイルの種類は拡張子によって示されますが、現実にはファイルの拡張子がつねに正しいとは限らないため、ファイルの内容を見て種類を判別する処理はさまざまなソフトウェアの内部で行われています。

例えば、コードエディタにおいてシンタックスハイライトの設定を行うためにプログラミング言語の種類を判別することや、業務アプリケーションが特定の種類のファイル以外は読み込まないような判別をすることなどが挙げられます。

特に重要とされているのはセキュリティの分野です。拡張子を偽ってユーザーにファイルを開かせようとするマルウェアに対処するために、拡張子ではなくファイルの内容から種類を適切に判断し、ファイルの種類に合わせて用意されたスキャナーによる安全性評価は欠かせません。

GoogleはMagikaをGmailやGoogle Driveなどの何百万ものファイル処理にすでに活用しており、これまで同社が利用していたルールによるファイル判別と比べて50%の精度向上を実現でき、より精度の高いスキャンが可能になったと説明されています。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
NSA、TLSプロトコルの更新を連邦機関のシステム管理責任者に勧告–オランダでも
IT関連
2021-01-21 06:26
LegalOn TechnologiesとLegalscape、資本業務提携を通じた戦略的パートナーシップ
IT関連
2024-02-14 18:42
さくらインターネット、生成AI向けクラウドサービス「高火力 PHY(ファイ)」提供開始。NVIDIA H100を8基搭載、200GbE×4本接続可能なベアメタルサーバ
GPU
2024-01-25 10:39
AWSが“駆け出し”のCTOを支援する新たなプログラム
IT関連
2022-05-28 11:19
三菱電機、DX人材の育成強化プログラムを開始–職務転換者や新入社員も対象
IT関連
2024-12-18 01:38
スーパー「ライフ」、AIによる需要予測を導入 生鮮食品などに対応
ロボット・AI
2021-01-20 13:53
島田商事、アパレル製造向け資産管理ツールを導入–受注入力を効率化
IT関連
2023-07-07 01:42
8種のツールを小型本サイズに収めたLiquid Instrumentsの「Moku:Go」はエンジニアや学生の必需品になる
ハードウェア
2021-05-21 00:34
トヨタ子会社、Lyftの自動運転車部門を5.5億ドルで買収
企業・業界動向
2021-04-28 16:34
KADOKAWA、漏えい情報の拡散行為に法的措置の準備を開始
IT関連
2024-07-11 10:44
富士通、ネットワークの近代化を量子着想技術で最適化–設備運用や技術者移動の費用を最大80%削減
IT関連
2023-03-10 13:42
倉庫テックの導入で現場従業員の8割以上が士気向上–ゼブラ調査
IT関連
2023-12-22 10:22
「“オンラインさい銭”に無断で名前使われた」──神社が相次いで注意喚起 運営元は「詐欺ではない」
ネットトピック
2021-07-10 04:12
「Google Chrome」の重大な脆弱性、CISAがアップデートを勧告
IT関連
2022-07-26 01:18