Google、AIでファイルの種類を高速正確に判別できる「Magika」をオープンソースで公開

今回は「Google、AIでファイルの種類を高速正確に判別できる「Magika」をオープンソースで公開」についてご紹介します。

関連ワード (一般、安全性評価、実現等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


Googleは、AIを用いることでファイルの種類を高速かつ正確に判別できるツール「Magika」をオープンソースで公開したと発表しました。

fig

Magikaは、あるファイルの中味が何なのか、記述されたプログラミング言語の種類、動画や画像、音声などのフォーマットの種類、ExcelやWord、PDFなどのオフィス系ソフトウェアの種類、OSの実行形式バイナリなどの種類を瞬時に判別してくれます。

下記はコマンドラインとしてMagikaを実行した例で、フォルダ内のファイルの種類を出力しています。

fig

特別に最適化された1MBのモデルでを用いて推論を実行

Magikaはファイルの判別に、Kerasを用いて特別に最適化されたディープラーニングによる、わずか1MBのモデルを用いていると説明されています。

このモデルは推論エンジンのOnnx上で実行されています。実行速度はGPUを用いずCPU上で処理されたとしても数ミリ秒程度とのこと。

GoogleはこのMagikaを100以上のファイルタイプを網羅する1Mファイルベンチマークで評価し、他の既存ツールより高い精度で判別を実行し、なおかつ他を約20%上回る高速度を実現したことも発表しています。

なぜファイルの中味を見て判別する必要があるのか?

一般にファイルの種類は拡張子によって示されますが、現実にはファイルの拡張子がつねに正しいとは限らないため、ファイルの内容を見て種類を判別する処理はさまざまなソフトウェアの内部で行われています。

例えば、コードエディタにおいてシンタックスハイライトの設定を行うためにプログラミング言語の種類を判別することや、業務アプリケーションが特定の種類のファイル以外は読み込まないような判別をすることなどが挙げられます。

特に重要とされているのはセキュリティの分野です。拡張子を偽ってユーザーにファイルを開かせようとするマルウェアに対処するために、拡張子ではなくファイルの内容から種類を適切に判断し、ファイルの種類に合わせて用意されたスキャナーによる安全性評価は欠かせません。

GoogleはMagikaをGmailやGoogle Driveなどの何百万ものファイル処理にすでに活用しており、これまで同社が利用していたルールによるファイル判別と比べて50%の精度向上を実現でき、より精度の高いスキャンが可能になったと説明されています。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
ネット上の“ワクチンデマ”、「ファクトチェック記事」「大臣のツイート」の打ち消し効果は? 専門家が調査 (1/2 ページ)
くわしく
2021-07-20 13:05
サムスン、12層DRAM「HBM3E 12H」を開発–AI分野の需要を見込み
IT関連
2024-03-01 20:17
マッチングアプリのBumbleが株式公開を申請
ネットサービス
2021-01-18 12:19
日立ソリューションズ、「PointInfinity」を拡張–デジタルマーケティングを包括的に支援
IT関連
2021-02-19 12:12
AWSとMSのクラウド市場独占に懸念–英放送通信庁が中間報告
IT関連
2023-04-08 03:03
eスポーツのオンライン大会プラットフォームを提供するJCGが総額5億円のシリーズB調達
ゲーム / eSports
2021-05-13 02:35
米国の中小起業や地方自治体にも中国ハッカーによるゼロデイ攻撃の被害
セキュリティ
2021-03-16 05:20
日立、災害状況をAIで把握する映像解析の基礎技術を開発
IT関連
2021-02-25 20:15
OIDF-J、民間事業者向けのデジタル本人確認ガイドラインを公開
IT関連
2023-03-21 05:18
大阪市とAWSジャパン、生成AI活用に関する協定を締結–責任あるAI利用を追求
IT関連
2023-09-13 20:27
ごみ拾いSNSアプリ「ピリカ」を使い、プラごみの総量算定に取り組む参加型プロジェクトが開始
IT関連
2022-02-01 07:44
「デル女性起業家ビジネスコンテスト」開催–起業家は多様化、しかし課題も残る
IT関連
2023-07-21 13:07
OpenStack、25回目のリリース「Yoga」公開
IT関連
2022-04-01 02:52
エヌエヌ生命とDataRobot、保険引受査定業務をAIで自動化
IT関連
2021-08-21 17:27