「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apach Spark」をデータブリックスが発表

今回は「「英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラだ」。英語対応のためのSDK「English SDK for Apach Spark」をデータブリックスが発表」についてご紹介します。

関連ワード (発表、移動平均、言語能力等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


Apache Sparkなどの開発で知られるデータブリックス社は、同社が主催したイベント「DATA+AI Summit 2023 by Databricks」で、英語をApache Sparkの問い合わせ言語にできるSDK「English SDK for Apach Spark」を発表しました。

英語は新しいプログラミング言語である

Databricks共同創業者兼チーフアーキテクト Reynold Xin氏。

英語は新しいプログラミング言語であり、生成的AIは新しいコンパイラであり、Pythonは新しいバイトコードだ。

fig

これが何を意味するのか。多くの方々がChatGPTを使ってSparkの問い合わせコードを生成したことがあるだろう。

しかしChatGPTはさまざまな言語能力を備えているが故に、大量のアンチパターンなども生成してしまう。

これを改善するには多くのプロンプトエンジニアリングが求められる。そこで、そうした作業を不要にする「English SDK for Apache Spark」を発表する。

fig

Sparkのエキスパートによってプロンプトエンジニアリングが実行され、アンチパターンが最小化されている。

デモを見ていただこう。

英語の指示でデータの集計からグラフ化まで

Sparkでのデータ分析のために、Apache Sparkへのコミュニティからの貢献数をGitHubのプルリクエストデータから取得する。

GitHubのAPIからPythonのコードでデータを取得し、AparkのDataframeとする。

fig

このデータを基に、1日ごとのプルリクエスト数と7日間の移動平均などを求めるために、AggrigationやWindows関数などを使おう。

ただ、詳しい使い方まで覚えていないので公式ドキュメントやStack Overflowなどを検索することになる。

fig

やりたいことは言葉(英語)で言えるのに、それをコードとして記述するのは時間がかかるのだ。

言葉がそのまま実行できればいいのに。そこで「English SDK for Apach Spark」だ。

使い方は簡単。まず、Spark_aiクラスを初期化、有効化。これですべてのDataframeがAIのパワーを得られる。

fig

あとは英語での指示を書き込む。「Add a column ‘date’ derived from ‘created_ai’」(Dateカラムを追加)、「Add a column ‘num_pr_created’ that aggregates the number of created PRs by date.」(日次でプルリクエスト数を合計)、「Add column ‘7_day_avg’ that computes the 7 day moving average of the number of PRs created.」(そして7日間移動平均を追加)。

fig

これで結果が得られた。

fig

これをグラフ化。

fig
fig

このデータに、Sparkのメジャーバージョンアップの時期を重ねるため、バージョン番号が「x.0.0」で示されるメジャーリリースの日付のデータを英語で指示して取得。

fig
fig

2つのグラフを重ねるために「show the 7 day moving average and annotate the spark version with a red line」(7日移動平均と、バージョン毎の赤線を引く)という指示を出す。

fig

すると、目的のグラフが表示された。

fig

COMMENTS


Recommended

TITLE
CATEGORY
DATE
ブラジルの新進フィンテックNubankが2.6兆円の評価額で420億円調達
フィンテック
2021-02-01 02:08
「State of JavaScript 2023」公開。フロントエンドライブラリ利用率1位はReact、メタフレームワークはNext.jsなど、2万3500人のエンジニアが回答
JavaScript
2024-06-24 22:53
船井総合研究所、「ChatGPT」を用いた業種特化のAIチャットボットを構築
IT関連
2023-07-08 13:55
「Windows 11 2022 Update」、パスワード関連のセキュリティが強化
IT関連
2022-09-29 00:56
クレディセゾンがDX実績を報告–内製開発システムを続々と導入
IT関連
2023-12-22 03:49
システム過負荷でなぜATMにトラブルが? みずほ銀システム障害、運用面の課題あらわに
くわしく
2021-03-03 08:55
ヴイエムウェア、「CloudHealth」と「vRealize」をアップデート–マルチクラウド管理の支援を強化へ
IT関連
2021-03-19 14:36
HRテックのGustoが研究開発税額控除サービスのArdiusを買収
HRテック
2021-06-22 21:28
クラウドネイティブの目的は運用と自動化の改善のため、コンテナやKubernetes採用の最大の課題は社内のスキルや人材不足、ローカルではMinikubeとDocker Kubernetesが人気。Canonicalによる調査結果
Cloud Native
2021-07-08 14:39
IT部門社員を共有するユナイトアンドグロウが事業拡大する理由
IT関連
2024-08-06 20:54
小田急不動産、テレワーク環境での「Windows10更新管理」などにクラウド活用
IT関連
2022-02-12 21:37
セゾン情報、次世代クラウド型データ連携基盤「HULFT Square」を発表
IT関連
2021-06-24 20:35
IT系上場企業の平均年収を業種別にみてみた 2021年版[後編] ~ パッケージソフトウェア系、SI/システム開発系、クラウド/キャリア系企業
働き方
2021-07-12 17:25
JCBら、メタバース/ゲーム世界でのデジタルデータの安全な流通・販売に向けた共同プロジェクトを開始
IT関連
2022-08-26 00:58