GSP273 TensorFlow での機械学習
https://www.qwiklabs.com/focuses/3391
望ましい事前スキル (メンターあるいは学習支援者向け)
- Google Cloud Shell / Terminal 操作
- オブジェクトストレージ (Cloud Storageバケット) 操作
- git コマンド操作
- python コード編集
- TensorFlow モデル, MLトレーニングデータセットおよびジョブの知識
- O’Reilly Media, Inc. の書籍『Data Science on Google Cloud Platform』の第 9 章「Machine Learning Classifier Using TensorFlow」
概要(qwiklabs から引用)
このラボでは、Google Cloud Machine Learning と TensorFlow を使用して、機械学習を使用する予測モデルを作成および評価する方法について学びます。TensorFlow は、Google によって開発されたオープンソースの高度な機械学習ライブラリです。さまざまなプラットフォームに移植可能で、非常に大きなデータセットを扱うことができます。
このラボは、このシリーズのこれまでのラボの続きです。これまでのラボでは、ロジスティック回帰を使用する基本的な予測モデルを Spark と Pig で作成し、トレーニング データセットとテスト データセットを Cloud Dataflow で作成しました。これらのデータセットの作成に使用したパイプラインは予測にも使用できるため、予測モデルでトレーニング / サービング スキューのリスクを回避できます。このラボは、O’Reilly Media, Inc. の書籍『Data Science on Google Cloud Platform』の第 9 章「Machine Learning Classifier Using TensorFlow」に基づいています。
まず、Python で試験運用フレームワークを作成し、TensorFlow を使用して以前のラボの基本的な線形回帰モデルを複製します。次に、このフレームワークを拡張して、より多くの変数でモデルを評価できるようにします。これにより、このフレームワークを使用して、これらの基本的な機械学習モデルの性能をより複雑な機械学習モデルと比較できるようになります。
このラボでは、このシリーズの他のすべてのラボと同様に、データ処理とデータ モデリングの手法を実際に試してみるために、フライトが目的地に予定どおりに到着するかどうかを、出発地、出発時刻、実際の出発遅延時間、タキシング時間などの詳細情報に基づいて予測するデータモデルを作成します。
使用するデータセットは、米国運輸統計局のウェブサイトから取得したもので、米国内の国内線フライトに関する履歴情報を提供します。このデータセットは、データ サイエンスの多岐にわたるコンセプトと技術の実証に使用できます。また、Google Cloud Platform のデータ サイエンス: 機械学習クエストに含まれる、その他すべてのラボで使用します。このラボで実際に使用するのは、このクエストの前回のラボ(Apache Beam と Cloud Dataflow を使用したタイム ウィンドウ データの処理(Java))で作成した集計データセットです。
目標
- Python で基本的な TensorFlow 試験運用フレームワークを作成する
- そのフレームワークを拡張して、追加の特徴を含む線形分類モデルを作成する
- トレーニングと評価の試験運用フレームワークを Google Cloud ML にデプロイする
今回使用するデータセット
米国運輸統計局のウェブサイトから取得した元のフライトデータを処理して作成した、集計トレーニング データです。
ハンズオンの内容メモ
■最初に45秒ほどプロビジョニング プロセスが始まります。
■プロビジョニングにより、バケットにデータセットが格納される。
■Python で TensorFlow 試験運用フレームワークを作成する項目で、model.py と task.py を適切に作成してもテスト完了タスクが通過しない。
非推奨項目を無視してもいいとコーステキストに記載されているので、若干の安心感はあるのですが・・・。
時間切れになったので、再度ゼロから開始するも同じところで先へ進めないので今回は未完了です。Qwiklabs へフィードバック済みなのでコンテンツが修正されることを期待しつつ。
ご覧いただき有難うございました。
以上