GSP104 Baseline: Data, ML, AI の 1コマ「Dataproc: Qwik Start – コマンドライン」
注意:30分コマです。
https://google.qwiklabs.com/focuses/585
概要
Cloud Dataproc は、Apache Spark および Apache Hadoop クラスタをより簡単かつ低コストで実行できるようにする、高速で使いやすいフルマネージド クラウド サービスです。このサービスでは、これまで数時間から数日かかっていたオペレーションを数秒から数分で処理できます。Cloud Dataproc クラスタは迅速に作成できるうえ、いつでもサイズ変更が可能です。このため、データ パイプラインの成長にクラスタが追いつかないことを心配する必要はありません。
このラボでは、Google Cloud Platform Console を使用して Google Cloud Dataproc クラスタを作成し、このクラスタで簡単な Apache Spark ジョブを実行した後、クラスタのワーカーの数を変更する方法を学びます。
(qwiklabs から引用)
ハンズオンの内容メモ
■[asia-east1-b] リージョンで Dataproc クラスタを作成する。
ワーニングメッセージが表示されるが無視していい。
WARNING: For PD-Standard without local SSDs, we strongly recommend provisioning 1TB or larger to ensure consistently high I/O performance. See https: //cloud.google.com/compute/docs/disks/performance for information on disk I/O performance.
—
■Pi の概算値を計算するサンプルの Spark ジョブを実行する。
結果は Pi is roughly 3.141416111414161 と割と酷い近似値ですが、本ハンズオンでは無問題として扱われる。
—
■クラスタの更新。ワーカー数を 4 へ。その後 2 へ変更するだけで前述の Spark ジョブは実行しないので【折角の機会だから、ワーカー数 4 で Spark ジョブを実行】してみた。
ワーカー数 4 では Pi is roughly 3.1416125114161253 これも酷い近似値だけど、初期値よりも演算時間は早くなっており、Pi 値も若干良い。
ラボ終了
コメント: ワーカー数の増減が簡単にでき、ワーカー数によって演算時間と得られる値の違いを確認できました。
このコマ終了に要した時間は 13分ほど。
blog 記事を書きながらなので、まぁまぁサクサク進められたかな。
まだまだコマは続くよ・・・。
ご覧いただき有難うございました。
以上