Google、AIでファイルの種類を高速正確に判別できる「Magika」をオープンソースで公開

今回は「Google、AIでファイルの種類を高速正確に判別できる「Magika」をオープンソースで公開」についてご紹介します。

関連ワード (一般、安全性評価、実現等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


Googleは、AIを用いることでファイルの種類を高速かつ正確に判別できるツール「Magika」をオープンソースで公開したと発表しました。

fig

Magikaは、あるファイルの中味が何なのか、記述されたプログラミング言語の種類、動画や画像、音声などのフォーマットの種類、ExcelやWord、PDFなどのオフィス系ソフトウェアの種類、OSの実行形式バイナリなどの種類を瞬時に判別してくれます。

下記はコマンドラインとしてMagikaを実行した例で、フォルダ内のファイルの種類を出力しています。

fig

特別に最適化された1MBのモデルでを用いて推論を実行

Magikaはファイルの判別に、Kerasを用いて特別に最適化されたディープラーニングによる、わずか1MBのモデルを用いていると説明されています。

このモデルは推論エンジンのOnnx上で実行されています。実行速度はGPUを用いずCPU上で処理されたとしても数ミリ秒程度とのこと。

GoogleはこのMagikaを100以上のファイルタイプを網羅する1Mファイルベンチマークで評価し、他の既存ツールより高い精度で判別を実行し、なおかつ他を約20%上回る高速度を実現したことも発表しています。

なぜファイルの中味を見て判別する必要があるのか?

一般にファイルの種類は拡張子によって示されますが、現実にはファイルの拡張子がつねに正しいとは限らないため、ファイルの内容を見て種類を判別する処理はさまざまなソフトウェアの内部で行われています。

例えば、コードエディタにおいてシンタックスハイライトの設定を行うためにプログラミング言語の種類を判別することや、業務アプリケーションが特定の種類のファイル以外は読み込まないような判別をすることなどが挙げられます。

特に重要とされているのはセキュリティの分野です。拡張子を偽ってユーザーにファイルを開かせようとするマルウェアに対処するために、拡張子ではなくファイルの内容から種類を適切に判断し、ファイルの種類に合わせて用意されたスキャナーによる安全性評価は欠かせません。

GoogleはMagikaをGmailやGoogle Driveなどの何百万ものファイル処理にすでに活用しており、これまで同社が利用していたルールによるファイル判別と比べて50%の精度向上を実現でき、より精度の高いスキャンが可能になったと説明されています。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
日本マイクロソフト、「Microsoft Purview」の新機能–社内の漏えいリスクなどに対応
IT関連
2023-09-30 17:39
「nasne」予約再開 3月に初期出荷分が完売
ライフ
2021-04-11 00:58
「SparkyLinux」–時代遅れのマシンを延命できる高速なLinuxディストロ
IT関連
2024-02-28 03:43
トレンドマイクロ、XDRにセキュリティ製品群の運用管理機能を追加
IT関連
2023-08-30 15:01
データセンターもハッカーの標的となる恐れ–セキュリティを強化するには
IT関連
2022-03-25 16:05
業務で使う生成AI、国内企業の契約率は16%、個人での契約は19%。懸念点は情報漏洩や偽情報。JIPDECとITRの調査結果
業界動向
2024-03-27 19:30
AmazonがFireタブレットの新ラインアップとキッズモデルを発表、ワイヤレス充電対応版も
ハードウェア
2021-04-29 13:46
マクニカ、脳科学とAIを組み合わせたオープンイノベーション組織を新設
IT関連
2021-07-15 06:45
半導体不足解消と新車需要によりフォードは2021年の利益増加を予想
モビリティ
2021-08-01 12:14
存在感増す中国ByteDance 統制強化で大手牽制、IT市場に変化
IT関連
2021-02-15 16:23
NEC、消費財企業の商品開発を支援–書類を電子化しデータ共有
IT関連
2022-11-17 20:11
埼玉県、職員1万2000人の行政事務をデジタル化–「Box」「Okta」を活用
IT関連
2022-04-19 08:40
デザインコミュニケーションツールのFigmaが日本法人を設立–数カ月をめどに日本語版をリリースへ
IT関連
2022-03-18 19:04
Google CloudのJavaランタイムにEclipse Temurin採用へ、GoogleがEclipse Adoptiumに参加を発表
Eclipse
2022-10-24 16:08