Google、AIでファイルの種類を高速正確に判別できる「Magika」をオープンソースで公開

今回は「Google、AIでファイルの種類を高速正確に判別できる「Magika」をオープンソースで公開」についてご紹介します。

関連ワード (一般、安全性評価、実現等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


Googleは、AIを用いることでファイルの種類を高速かつ正確に判別できるツール「Magika」をオープンソースで公開したと発表しました。

fig

Magikaは、あるファイルの中味が何なのか、記述されたプログラミング言語の種類、動画や画像、音声などのフォーマットの種類、ExcelやWord、PDFなどのオフィス系ソフトウェアの種類、OSの実行形式バイナリなどの種類を瞬時に判別してくれます。

下記はコマンドラインとしてMagikaを実行した例で、フォルダ内のファイルの種類を出力しています。

fig

特別に最適化された1MBのモデルでを用いて推論を実行

Magikaはファイルの判別に、Kerasを用いて特別に最適化されたディープラーニングによる、わずか1MBのモデルを用いていると説明されています。

このモデルは推論エンジンのOnnx上で実行されています。実行速度はGPUを用いずCPU上で処理されたとしても数ミリ秒程度とのこと。

GoogleはこのMagikaを100以上のファイルタイプを網羅する1Mファイルベンチマークで評価し、他の既存ツールより高い精度で判別を実行し、なおかつ他を約20%上回る高速度を実現したことも発表しています。

なぜファイルの中味を見て判別する必要があるのか?

一般にファイルの種類は拡張子によって示されますが、現実にはファイルの拡張子がつねに正しいとは限らないため、ファイルの内容を見て種類を判別する処理はさまざまなソフトウェアの内部で行われています。

例えば、コードエディタにおいてシンタックスハイライトの設定を行うためにプログラミング言語の種類を判別することや、業務アプリケーションが特定の種類のファイル以外は読み込まないような判別をすることなどが挙げられます。

特に重要とされているのはセキュリティの分野です。拡張子を偽ってユーザーにファイルを開かせようとするマルウェアに対処するために、拡張子ではなくファイルの内容から種類を適切に判断し、ファイルの種類に合わせて用意されたスキャナーによる安全性評価は欠かせません。

GoogleはMagikaをGmailやGoogle Driveなどの何百万ものファイル処理にすでに活用しており、これまで同社が利用していたルールによるファイル判別と比べて50%の精度向上を実現でき、より精度の高いスキャンが可能になったと説明されています。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
Rails 7.1正式リリース。本番デプロイ用のDockerfile自動生成、遅いクエリの非同期化など新機能
Ruby
2023-10-10 04:17
ラック社長が語った「経営視点でのゼロトラストセキュリティ対策」
IT関連
2021-03-19 16:33
商業車用サービスパーツを販売するいすゞA&S、採用管理システム採用
IT関連
2024-02-07 20:33
逗子駅前広場の交通データを分析・可視化–産官学連携で駅前再整備へ
IT関連
2023-04-06 14:28
ノートンライフロックがアバストと合併–取引規模は1兆円近く
IT関連
2021-08-12 00:24
「Linux」でシステムの情報を収集したいときに使用すべきコマンド5選
IT関連
2024-06-28 17:50
大阪市、小中オンライン学習で教員の習熟など支援へ
IT関連
2021-07-02 18:16
Clubhouseはラジオ業界の“黒船”か 番組制作の現場の視点は (1/3 ページ)
くわしく
2021-03-29 11:54
グーグル、3Dビデオチャット「Project Starline」の実験を提携先のオフィスに拡大
IT関連
2022-10-13 15:53
LayerX、iOSアプリ「バクラク申請・経費精算」をリリース
IT関連
2022-08-24 22:44
マイクロソフト、「Azure」のコンフィデンシャルコンピューティングでAMDと提携
IT関連
2021-03-16 21:25
多様なデータで人事異動を最適化–人事労務ソフト「SmartHR」に新機能
IT関連
2023-02-09 08:34
ITエンジニア本大賞2025/Google Agentspaceは生成AIが社内情報を横断的に読み取る/AIテストエージェント「Spark」登場ほか、2025年1月の人気記事
編集後記
2025-02-10 00:16
早稲田大学、研究支援・財務システムを「Microsoft Azure」へ移行
IT関連
2022-06-19 04:05