コースコード:IN985

Data Engineering on Google Cloud Platform

コース概要

マシン実習

Google Cloud Platform でのデータ処理システムの設計と構築を学習します。講義、デモ、ハンズオンラボを通して、データ処理システムの設計、エンドツーエンドのデータ パイプラインの構築、データの分析、機械学習の実施方法を学習します。このコースでは、構造化、非構造化、ストリーミングの各種データを扱います。

受講料 

432,000円(8%税込)/440,000円(10%税込)/400,000円(税抜)

※終了日が10月以降の場合、消費税率が10%になります。

講習日数

4日間

到達目標

  • ・ Google Cloud Platform でデータ処理システムを設計し構築できる
  • ・ バッチおよびストリーミングのデータを処理するために自動スケーリング データ パイプラインを Cloud Dataflow で実装できる
  • ・ 巨大なデータセットからのビジネス分析情報を Google BigQuery を使用して引き出せる
  • ・ 機械学習モデルを使用したトレーニング、評価、予測を TensorFlow と Cloud ML を使用して行える
  • ・ 非構造化データを Cloud Dataproc で Spark と ML の API を使って活用する
  • ・ ストリーミング データからの迅速な分析を実現できる

対象者

SE、開発者、データエンジニア

前提知識

「Google Cloud Platform Fundamentals: Big Data & Machine Learning」コースを修了、または同等知識をお持ちの方。
SQL などの一般的なクエリ言語の基本的なスキルをお持ちの方。
データ モデリング、抽出、変換、読み込みのアクティビティの経験をお持ちの方。
一般的なプログラミング言語(Python など)を使用したアプリケーション開発の経験をお持ちの方。
機械学習と統計の一方または両方の基本知識をお持ちの方。

コース内容

1日目
AM
1.モジュール 1: Google Cloud Dataproc の概要
・クラスタの作成と管理
・カスタム マシンタイプとプリエンプティブ ワーカーノードを利用する
・クラスタのスケーリングと削除
・ラボ: Hadoop クラスタを Google Cloud Dataproc で作成する
2.モジュール 2: Dataproc ジョブの実行
・Pig と Hive のジョブを実行する
・ストレージとコンピューティングの分離
・ラボ: Hadoop と Spark のジョブを Dataproc で実行する
・ラボ: ジョブの送信と監視
3.モジュール 3: Cloud における仮想マシンとネットワーク
・初期化アクションによるクラスタのカスタマイズ
PM
3.モジュール 3: Cloud における仮想マシンとネットワーク
・BigQuery のサポート
・ラボ: Google Cloud Platform サービスの活用
4.モジュール 4: Google の機械学習 API を使った非構造化データの理解
・Google の機械学習 API
・機械学習の一般的なユースケース
・ML API の呼び出し
・ラボ: 機械学習機能をビッグデータ分析に追加する
2日目
AM
5.モジュール 5: BigQuery を使ったサーバーレス データの分析
・BigQuery とは
・クエリと関数
・ラボ: BigQuery でクエリを記述する
・BigQuery へのデータの読み込み
・BigQuery からのデータのエクスポート
・ラボ: データの読み込みとエクスポート
・ネストされたフィールドと繰り返しのフィールド
・複数のテーブルのクエリ
・ラボ: 複雑なクエリ
・パフォーマンスと料金
PM
6.モジュール 6: Dataflow によるサーバーレスの自動スケーリング データ パイプライン
・Beam プログラミング モデル
・Beam Python のデータ パイプライン
・Beam Java のデータ パイプライン
・ラボ: Dataflow パイプラインの記述
・Beam を使用したスケーラブルなビッグデータの処理
・ラボ: Dataflow での MapReduce
・追加データの組み込み
・ラボ: 副入力
・ストリーム データの処理
・GCP リファレンス アーキテクチャ
7.モジュール 7: 機械学習の概要
・機械学習(ML)とは
・効果的な ML: 概念、種類
・ML のデータセット: 一般化
・ラボ: ML のデータセットを調べて作成する
3日目
AM
8.モジュール 8: Tensorflow を使った ML モデルの構築
・TensorFlow の概要
・ラボ: tf.learn の使用
・TensorFlow のグラフとループ + ラボ
・ラボ: 下位レベルの TensorFlow の使用 + 早期停止
・ML のトレーニングのモニタリング
・ラボ: TensorFlow のトレーニングのチャートとグラフ
9.モジュール 9: CloudML を使った ML モデルのスケーリング
・Cloud ML を選ぶ理由
・TensorFlow モデルのパッケージ化
・エンドツーエンドのトレーニング
・ラボ: ML モデルをローカルとクラウドで実行する
PM
10.モジュール 10: 特徴エンジニアリング
・優れた特徴の作成
・入力の変換
・合成特徴
・Cloud ML での前処理
・ラボ: 特徴エンジニアリング
4日目
AM
11.モジュール 11: ストリーミング分析パイプラインのアーキテクチャ
・ストリーム データの処理: 課題
・可変データ ボリュームの処理
・順序不定データ / 遅延データの処理
・ラボ: ストリーミング パイプラインの設計
12.モジュール 12: 容量可変なデータの取り込み
・Cloud Pub/Sub とは
・仕組み: トピックとサブスクリプション
・ラボ: シミュレータ
13.モジュール 13: ストリーミング パイプラインの実装
・ストリーム処理における課題
・遅延データの処理: 透かし、トリガー、累積
・ラボ: ライブ トラフィック データのためのストリーム データの処理パイプライン
PM
14.モジュール 14: ストリーミング分析とダッシュボード
・ストリーミング分析: データから意思決定まで
・BigQuery でのストリーミング データのクエリ
・Google データポータルとは
・ラボ: 処理済みデータを可視化するリアルタイム ダッシュボードの構築
15.モジュール 15: Bigtable を使った高スループットと低レイテンシの実現
・Cloud Spanner とは
・Bigtable スキーマの設計
・Bigtable への取り込み
・ラボ: Bigtable へのストリーミング

留意事項・備考

※※下記の必須手続きが完了していない場合は、ご受講頂けませんのでご注意ください。
 本手続きが完了しておらず、当日ご受講頂けなかった際は有償キャンセルとなります。※※
 既にNECのQwiklabアカウントをお持ちの方は再登録の必要はございません。

■重要なお願い■
 <Qwiklabアカウント作成のお願い>
  トレーニング受講前に、下記リンクよりトレーニングシステム「Qwiklab」アカウントを作成してください。
  必ず、トレーニングお申込時のメールアドレスでアカウントを作成してください。
  1.https://nec.qwiklab.com/ にアクセス
  2.必要事項を入力し、作成ボタンをクリック
  3.確認のためのメールが届きますので、メール本文内のリンクをクリック
  4.サインインの確認
   念のため、サインインできるかをご確認ください。

 ◎登録時のアカウントとパスワードは当日利用しますので、忘れないようにしてください。

開催スケジュール詳細・お申込

開催スケジュールは、日程が決まり次第掲載致します。