GitHub、膨大なコードに対応する検索エンジン「Blackbird」を解説

今回は「GitHub、膨大なコードに対応する検索エンジン「Blackbird」を解説」についてご紹介します。

関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 プログラミング言語「Rust」の人気は高まり続けている。そんな中、開発者プラットフォームを手掛けるGitHubは米国時間2月6日、Rustで一から記述したコード検索エンジン「Blackbird」の開発動機などについて解説した。

 GitHubは、ユーザーがさまざまなフォーラムを探し回って求めている答えを得るのではなく、現時点でベータ段階のBlackbirdを利用するようになってほしいと考えている。

 開発者向けの知識共有サイトを運営するStack Overflowによると、Rustは多くの開発者が最も愛している(ただし最も普及しているというわけではない)プログラミング言語だという。

 Rustは通常の場合、CやC++で記述されている既存プロジェクトに新機能を追加する際や、アプリの構築時よりシステムプログラミングに採用されることが多いため、新たなプロジェクトでRustが採用されるというのは興味深い。ただ、Microsoft Azureの最高技術責任者(CTO)Mark Russinovich氏は2022年に、Rustはメモリー安全性を備えているため、全ての新規プロジェクトはCやC++ではなくRustを採用すべきだと明言していた。

 しかし、GitHubは「Apache Cassandra」や「Apache Solr」「Elasticsearch」といった数々のオープンソースソリューションを利用できるにもかかわらず、なぜ検索エンジンを一から構築するのだろうか。

 GitHubのTimothy Clem氏は「何もない状態から検索エンジンを構築するというのは、一見すると疑問符の付く意思決定に感じられる。なぜそのような道に進むのだろうか?出来合いのオープンソースソリューションが既にたくさんあるのではないだろうか?なぜ新しいものを構築するのだろうか?」と記している。

 同氏の手短な答えは、コードの検索に利用できる一般的なテキスト検索製品が見つからなかったというものだ。

 同氏は「(既存製品の)ユーザーエクスペリエンスは貧弱であり、インデックス作成は遅く、ホストするにも多大なコストがかかる。より先進的でコード(の検索)に特化したオープンソースプロジェクトも存在しているが、GitHubの規模にはまったく対応できない」と記している。

 GitHubは2011年にElasticsearchをデプロイしてみたが、当時に収容していたおよそ800万件のリポジトリーのインデックスを作成するのに「数カ月」もかかったと同氏は記している。GitHubは今日、2億件を超える動的なコードのリポジトリーをサポートしている。

 Blackbirdは現在、ほぼ4500万件のリポジトリーに対する検索をサポートしている。そのカバレージは部分的だが、それでも115TB分のコードと、PythonやJava、JavaScriptで記述されたプログラムに関する155億件のドキュメントを検索できる。

 GitHubのソフトウェアエンジニアリング担当バイスプレジデントであるPavel Avgustinov氏によると、Rustで記述されたカスタム検索エンジンであるBlackbirdは、より効率的に動作し、「重複データの排除によってストレージを大幅に節約するとともに、シャード間の均質な負荷分散を保証するようになっている」という。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
運用はどこが面白いのか、IBMの冠がなくなった影響は–キンドリルジャパン社長に聞いてみた
IT関連
2023-02-10 04:39
レノボ、F1とITのテクノロジーを象徴する新型トロフィーを開発
IT関連
2023-09-24 20:49
住宅関連サービスプラットフォームのPorchが4社を買収
IT関連
2021-02-05 21:26
マイクロソフトの開発者会議「Build 2022」、米国時間5月24日からオンラインで開催
IT関連
2022-04-01 00:49
6980円のスマートリモコン「Nature Remo mini 2」実機レビュー
IoT
2021-02-09 18:24
「Google Workspace」に複数のアップデート–個人事業主向けの新サブスクも
IT関連
2021-06-15 07:45
元素の「周期律」にほころび? 金属元素「ドブニウム」が金属の性質持たず
科学・テクノロジー
2021-07-09 13:16
今こそオンプレミスの利点を見直すとき 触って分かった新型サーバ「PowerEdge R750」の“心遣い”
PR
2021-07-31 20:18
コンテナー技術の登場でAI開発現場は様変わり–AI開発基盤の変遷をたどる
IT関連
2023-11-25 19:04
マニュライフ、生成AIツールを世界で全社導入–従業員の75%以上が活用
IT関連
2025-03-08 03:19
デジタルツインの社会実装を目指すDataLabsが1.3億円のシード調達、点群データの自動3次元モデリングツールを3月末公開
IT関連
2022-02-17 08:03
GitHubで公開されたソースコードを巡回監視、指定キーワードで通知 メタエクスが3月提供スタート
セキュリティ
2021-02-04 16:27
開始まで1年4カ月–インボイス制度対応で気を付けたい3つの落とし穴:freee解説
IT関連
2022-06-02 17:16
マイクロソフト、脅威アクターの命名規則を変更–天気にちなみ分かりやすく
IT関連
2023-04-21 22:07