GitHub、膨大なコードに対応する検索エンジン「Blackbird」を解説

今回は「GitHub、膨大なコードに対応する検索エンジン「Blackbird」を解説」についてご紹介します。

関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 プログラミング言語「Rust」の人気は高まり続けている。そんな中、開発者プラットフォームを手掛けるGitHubは米国時間2月6日、Rustで一から記述したコード検索エンジン「Blackbird」の開発動機などについて解説した。

 GitHubは、ユーザーがさまざまなフォーラムを探し回って求めている答えを得るのではなく、現時点でベータ段階のBlackbirdを利用するようになってほしいと考えている。

 開発者向けの知識共有サイトを運営するStack Overflowによると、Rustは多くの開発者が最も愛している(ただし最も普及しているというわけではない)プログラミング言語だという。

 Rustは通常の場合、CやC++で記述されている既存プロジェクトに新機能を追加する際や、アプリの構築時よりシステムプログラミングに採用されることが多いため、新たなプロジェクトでRustが採用されるというのは興味深い。ただ、Microsoft Azureの最高技術責任者(CTO)Mark Russinovich氏は2022年に、Rustはメモリー安全性を備えているため、全ての新規プロジェクトはCやC++ではなくRustを採用すべきだと明言していた。

 しかし、GitHubは「Apache Cassandra」や「Apache Solr」「Elasticsearch」といった数々のオープンソースソリューションを利用できるにもかかわらず、なぜ検索エンジンを一から構築するのだろうか。

 GitHubのTimothy Clem氏は「何もない状態から検索エンジンを構築するというのは、一見すると疑問符の付く意思決定に感じられる。なぜそのような道に進むのだろうか?出来合いのオープンソースソリューションが既にたくさんあるのではないだろうか?なぜ新しいものを構築するのだろうか?」と記している。

 同氏の手短な答えは、コードの検索に利用できる一般的なテキスト検索製品が見つからなかったというものだ。

 同氏は「(既存製品の)ユーザーエクスペリエンスは貧弱であり、インデックス作成は遅く、ホストするにも多大なコストがかかる。より先進的でコード(の検索)に特化したオープンソースプロジェクトも存在しているが、GitHubの規模にはまったく対応できない」と記している。

 GitHubは2011年にElasticsearchをデプロイしてみたが、当時に収容していたおよそ800万件のリポジトリーのインデックスを作成するのに「数カ月」もかかったと同氏は記している。GitHubは今日、2億件を超える動的なコードのリポジトリーをサポートしている。

 Blackbirdは現在、ほぼ4500万件のリポジトリーに対する検索をサポートしている。そのカバレージは部分的だが、それでも115TB分のコードと、PythonやJava、JavaScriptで記述されたプログラムに関する155億件のドキュメントを検索できる。

 GitHubのソフトウェアエンジニアリング担当バイスプレジデントであるPavel Avgustinov氏によると、Rustで記述されたカスタム検索エンジンであるBlackbirdは、より効率的に動作し、「重複データの排除によってストレージを大幅に節約するとともに、シャード間の均質な負荷分散を保証するようになっている」という。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
Hosted Control PlaneをAWS上で一般提供–レッドハット
IT関連
2024-02-01 12:11
ユーザーのプライバシーを護るGoogle Play「セーフティセクション」の詳細をグーグルが発表
ソフトウェア
2021-07-30 10:50
「JPタワー大阪」に無人決済店舗が開店–オフィスワーカーの時短ニーズに応える
IT関連
2024-05-10 20:15
2日続けて日経平均急落、米中対立激化の日本株への影響も要警戒
IT関連
2021-04-22 17:58
ゲームインフラのスタートアップPragmaはGreylockやZyngaの創設者などから約13億円調達
ゲーム / eSports
2021-04-22 09:29
「Zoff」運営会社に不正アクセス 顧客情報約9万7000件が流出、従業員や取引先企業の情報も
セキュリティ
2021-05-18 21:37
Cloudflare、世界中からのデータベースアクセスを高速化する「Hyperdrive」正式サービスに。CDNを用いてDBのコネクションプーリングやキャッシュを提供
Cloudflare
2024-04-02 13:22
今年(2023年)の国内クラウド市場規模が7兆円超となり、従来型のIT市場規模を上回ることが明らかに。IDCジャパン
クラウド
2023-07-05 04:50
オーストラリア、国家データセキュリティ行動計画の策定に着手–国民データの保護を強化
IT関連
2022-04-09 22:55
LayerX、クラウド請求書受領ソフトのインボイス制度対応を強化
IT関連
2023-01-22 19:28
「TENGAロケット」今夏打ち上げ 「宇宙から、愛と自由を叫びたい」
くらテク
2021-01-27 21:09
マイクロソフト、ウクライナに対するロシアのサイバー攻撃や情報戦への対応を発表
IT関連
2022-03-03 02:54
データベース、アナリティクス、ガバナンスを統合した「Microsoft Intelligent Data Platform」
IT関連
2022-05-27 13:09
伊藤忠丸紅鉄鋼とNTT Com、サプライチェーンの温室効果ガス排出量の可視化で実証実験
IT関連
2023-02-16 10:23