コースコード:DB278

Cloudera Spark & Hadoop 開発者向けトレーニング

コース概要

マシン実習

Apache Sparkを使用して、開発者が高性能な並列アプリケーションを開発するために必要な主な概念と専門知識を学習します。Hadoopクラスターの構造化データをクエリするためにSpark SQLを使用する方法に加え、ストリーミングデータのリアルタイム処理を行うためにStructured Streaming を使用する方法を学習します。また、ETL処理と繰り返しアルゴリズムの実行にコアSparkを使用するアプリケーションの開発方法も実習します。

受講料 

360,800円(税込)/328,000円(税抜)

開始日(申込締切前)

東京 12/9、2/3、3/23

講習日数

4日間

到達目標

  • ・ Hadoopクラスターにデータを取り込み、保存する方法と仕組みを理解し、使用できる。
  • ・ Hadoopクラスターでの分散処理の仕組みを説明できる。
  • ・ Apache Sparkの基本を理解し、Spark シェルを使用できる。
  • ・ DataFrameとRDDの概念を踏まえ、データ処理や分析クエリを実行できる。
  • ・ ETLや繰り返しアルゴリズムなどを実行するためのSparkアプリケーションを作成できる。
  • ・ Spark Streamingの概要を理解し、ストリーミング処理プログラムを開発、実行できる。

前提知識

以下のすべてを満たしている方。
・Python または Scala のプログラム言語の基礎知識をお持ちの方。
・Linuxコマンドライン(ls、cdなどのコマンド、エディタの使用方法など)の基礎知識をお持ちの方。
・SQLの基礎知識をお持ちの方。

研修コースマップ

デジタルトランスフォーメーション(DX)

  • データ分析基盤

ビッグデータ/AI/IoT(2018年3月まで)

  • 分析基盤技術

コース内容

1日目
AM
1.Apache Hadoop とHadoop エコシステムの紹介
・Apache Hadoopの概要
・データ処理
・ハンズオン演習の紹介
PM
2.Apache Hadoop ファイルストレージ
・Apache Hadoop クラスターのコンポーネント
・HDFSのアーキテクチャー
・HDFS を使用する
3.Apache Hadoop クラスターでの分散処理
・YARNのアーキテクチャー
・YARNとの関わり方
4.Apache Sparkの基本
・Apache Sparkとは何か?
・Sparkシェルを開始する
・Sparkシェルを使用する
・DatasetとDataFrame入門
・DataFrameの操作
2日目
AM
5.DataFrameとスキーマの操作
・データソースからDataFrameを作成する
・DataFrameをデータソースに保存する
・DataFrameのスキーマ
・積極的、および遅延実行
6.DataFrameのクエリを使用したデータ分析
・列の数式を使用したDataFrameのクエリ
・グループ化と集計クエリ
・DataFrameの結合
PM
7.RDDの概要
・RDDの概要
・RDDのデータソース
・RDDの作成と保存
・RDDの操作
8.RDDによるデータ変換
・変換関数の記述と受け渡し
・変換の実行
・RDDとDataFrameの変換
9.ペアの RDD によるデータの集約
・キー、値ペアのRDD
・Map-Reduce
・その他のペアのRDD操作
3日目
AM
10.Spark SQL によるテーブルとビューのクエリ
・SQLを使用したSparkでのテーブルのクエリ
・ファイルとビューのクエリ
・Catalog API
11.ScalaでのDatasetの操作
・DatasetとDataFrame
・Datasetの作成
・Datasetのロードと保存
・Datasetの操作
PM
12.Spark アプリケーションの作成、設定、および実行
・Sparkアプリケーションの作成
・アプリケーションのビルドと実行
・アプリケーションのデプロイモード
・Spark Application Web UI
・アプリケーションのプロパティの設定
13.Sparkの分散処理
・レビュー:クラスター上でのApache Spark
・RDDのパーティション
・例:クエリのパーティショニング
・ステージとタスク
・ジョブの実行計画
・例:Catalystの実行計画
・例:RDDの実行計画
14.分散されたデータの永続化
・DataFrameとDatasetの永続化
・永続化のストレージレベル
・永続化されたRDDの表示
4日目
AM
15.Spark のデータ処理における一般的なパターン
・一般的なSparkのユースケース
・Apache Sparkでの繰り返しアルゴリズム
・機械学習
・例:k-means
PM
16.Structured Streamingの紹介
・Apache Spark Streamingの概要
・Streaming DataFrameの作成
・DataFrameの変換
・ストリーミングクエリの実行
17.Apache KafkaとStructured Streaming
・概要
・Kafkaメッセージの受信
・Kafkaメッセージの送信
18.Streaming DataFrameの集約と結合
・ストリーミングの集約
・Streaming DataFrameの結合
カリキュラムのタイムスケジュールは受講者の理解度などに応じて変更されることがございますのでご了承ください。

留意事項・備考

・本コースはCloudera Universityとの提携コースのため、コース実施およびメール送信に必要とするご受講者の個人情報を米国Cloudera Inc.、Cloudera株式会社およびその他の協力会社(会場提供元など)に提供します。
・本コースは、電子テキストを使用します。
・電子テキストはご受講時に教室でダウンロードし、データをお持ち帰りいただけます。
・キャンセル期限はコース開催の11営業日前までとさせていただきます。
・やむを得ず、本コースが中止となった場合、開催5営業日前までにご連絡いたします。

開催スケジュール詳細・お申込

「カートに追加」欄の追加をクリックすると、web申込が可能です。
申込期限およびキャンセル期限は、各締切日の16:30です。

◎・・・6名様以上、空いております。
○・・・1~5名様の空きがございます。
△・・・キャンセル待ちとなります。(ただし、備考欄に注記がある場合はキャンセル待ちではありませんので、注記をご参照ください)
週2回空席状況を更新します。◎○でも、既に満席の場合はご了承下さい。詳細な空席状況は研修申込センターにお問い合せください。

[スケジュール更新日付:2019年09月30日]

地区 開催番号 会場名 開始日~終了日 日数 講習時間 申込締切日 空席
状況
備考 カートに追加
キャンセル締切日
東京 DB278702A Cloudera会場(新宿オークタワー) 2019/12/09~
2019/12/12
4日間 09:30~
17:30
2019/11/18 ※注 追加
2019/11/18
DB278703A Cloudera会場(新宿オークタワー) 2020/02/03~
2020/02/06
4日間 09:30~
17:30
2020/01/10 ※注 追加
2020/01/10
DB278704A Cloudera会場(新宿オークタワー) 2020/03/23~
2020/03/26
4日間 09:30~
17:30
2020/03/02 ※注 追加
2020/03/02
おすすめ情報