コースコード:DB278

Cloudera Spark & Hadoop 開発者向けトレーニング

コース概要

マシン実習

Apache Sparkを使用して、開発者が高性能な並列アプリケーションを開発するために必要な主な概念と専門知識を学習します。Hadoopクラスターの構造化データをクエリするためにSpark SQLを使用する方法に加え、ストリーミングデータのリアルタイム処理を行うためにStructured Streaming を使用する方法を学習します。また、ETL処理と繰り返しアルゴリズムの実行にコアSparkを使用するアプリケーションの開発方法も実習します。

受講料 

360,800円(税込)/328,000円(税抜)

講習日数

4日間

到達目標

  • ・ Hadoopクラスターにデータを取り込み、保存する方法と仕組みを理解し、使用できる。
  • ・ Hadoopクラスターでの分散処理の仕組みを説明できる。
  • ・ Apache Sparkの基本を理解し、Spark シェルを使用できる。
  • ・ DataFrameとRDDの概念を踏まえ、データ処理や分析クエリを実行できる。
  • ・ ETLや繰り返しアルゴリズムなどを実行するためのSparkアプリケーションを作成できる。
  • ・ Spark Streamingの概要を理解し、ストリーミング処理プログラムを開発、実行できる。

前提知識

以下のすべてを満たしている方。
・Python または Scala のプログラム言語の基礎知識をお持ちの方。
・Linuxコマンドライン(ls、cdなどのコマンド、エディタの使用方法など)の基礎知識をお持ちの方。
・SQLの基礎知識をお持ちの方。

研修コースマップ

デジタルトランスフォーメーション(DX)

  • データ分析基盤

コース内容

1日目
AM
1.Apache Hadoop とHadoop エコシステムの紹介
・Apache Hadoopの概要
・データ処理
・ハンズオン演習の紹介
PM
2.Apache Hadoop ファイルストレージ
・Apache Hadoop クラスターのコンポーネント
・HDFSのアーキテクチャー
・HDFS を使用する
3.Apache Hadoop クラスターでの分散処理
・YARNのアーキテクチャー
・YARNとの関わり方
4.Apache Sparkの基本
・Apache Sparkとは何か?
・Sparkシェルを開始する
・Sparkシェルを使用する
・DatasetとDataFrame入門
・DataFrameの操作
2日目
AM
5.DataFrameとスキーマの操作
・データソースからDataFrameを作成する
・DataFrameをデータソースに保存する
・DataFrameのスキーマ
・積極的、および遅延実行
6.DataFrameのクエリを使用したデータ分析
・列の数式を使用したDataFrameのクエリ
・グループ化と集計クエリ
・DataFrameの結合
PM
7.RDDの概要
・RDDの概要
・RDDのデータソース
・RDDの作成と保存
・RDDの操作
8.RDDによるデータ変換
・変換関数の記述と受け渡し
・変換の実行
・RDDとDataFrameの変換
9.ペアの RDD によるデータの集約
・キー、値ペアのRDD
・Map-Reduce
・その他のペアのRDD操作
3日目
AM
10.Spark SQL によるテーブルとビューのクエリ
・SQLを使用したSparkでのテーブルのクエリ
・ファイルとビューのクエリ
・Catalog API
11.ScalaでのDatasetの操作
・DatasetとDataFrame
・Datasetの作成
・Datasetのロードと保存
・Datasetの操作
PM
12.Spark アプリケーションの作成、設定、および実行
・Sparkアプリケーションの作成
・アプリケーションのビルドと実行
・アプリケーションのデプロイモード
・Spark Application Web UI
・アプリケーションのプロパティの設定
13.Sparkの分散処理
・レビュー:クラスター上でのApache Spark
・RDDのパーティション
・例:クエリのパーティショニング
・ステージとタスク
・ジョブの実行計画
・例:Catalystの実行計画
・例:RDDの実行計画
14.分散されたデータの永続化
・DataFrameとDatasetの永続化
・永続化のストレージレベル
・永続化されたRDDの表示
4日目
AM
15.Spark のデータ処理における一般的なパターン
・一般的なSparkのユースケース
・Apache Sparkでの繰り返しアルゴリズム
・機械学習
・例:k-means
PM
16.Structured Streamingの紹介
・Apache Spark Streamingの概要
・Streaming DataFrameの作成
・DataFrameの変換
・ストリーミングクエリの実行
17.Apache KafkaとStructured Streaming
・概要
・Kafkaメッセージの受信
・Kafkaメッセージの送信
18.Streaming DataFrameの集約と結合
・ストリーミングの集約
・Streaming DataFrameの結合
カリキュラムのタイムスケジュールは受講者の理解度などに応じて変更されることがございますのでご了承ください。

留意事項・備考

・本コースはCloudera Universityとの提携コースのため、コース実施およびメール送信に必要とするご受講者の個人情報を米国Cloudera Inc.、Cloudera株式会社およびその他の協力会社(会場提供元など)に提供します。
・本コースは、電子テキストを使用します。
・電子テキストはご受講時に教室でダウンロードし、データをお持ち帰りいただけます。
・キャンセル期限はコース開催の11営業日前までとさせていただきます。
・やむを得ず、本コースが中止となった場合、開催5営業日前までにご連絡いたします。

開催スケジュール詳細・お申込

開催スケジュールは、日程が決まり次第掲載致します。

おすすめ情報