コース概要

セクション1: Hadoop入門

  • Hadoopの歴史、概念
  • エコシステム
  • ディストリビューション
  • 高レベルアーキテクチャ
  • Hadoopの誤解
  • Hadoopの課題
  • ハードウェア/ソフトウェア
  • 実習: Hadoopの概要

セクション2: HDFS

  • 設計とアーキテクチャ
  • 概念(水平スケーリング、レプリケーション、データローカリティ、ラック認識)
  • デーモン : Namenode, Secondary namenode, Data node
  • 通信/ハートビート
  • データの整合性
  • 読み書きパス
  • Namenodeの高可用性(HA)、フェデレーション
  • 実習: HDFSとの対話

セクション3: MapReduce

  • 概念とアーキテクチャ
  • デーモン(MRV1): jobtracker / tasktracker
  • フェーズ : ドライバー、マッパー、シャッフル/ソート、リデューサー
  • MapReduce Version 1とVersion 2 (YARN)
  • MapReduceの内部構造
  • Java MapReduceプログラムの紹介
  • 実習: サンプルのMapReduceプログラムを実行

セクション4: Pig

  • PigとJava MapReduceの比較
  • Pigジョブフロー
  • Pig Latin言語
  • PigでのETL処理
  • 変換と結合
  • ユーザ定義関数(UDF)
  • 実習: データ分析のためのPigスクリプトを書く

セクション5: Hive

  • アーキテクチャと設計
  • データ型
  • HiveでのSQLサポート
  • Hiveテーブルの作成とクエリ
  • パーティション
  • 結合
  • テキスト処理
  • 実習: Hiveを使用したデータ処理のさまざまな実習

セクション6: HBase

  • 概念とアーキテクチャ
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • HBase上の時系列データ
  • スキーマ設計
  • 実習: HBaseシェルを使用した対話、HBase Java APIでのプログラミング、スキーマ設計演習

要求

  • Javaプログラミング言語に精通していること(ほとんどの実習はJavaで行われます)
  • Linux環境に慣れていること(Linuxコマンドラインでの移動、vi / nanoを使用したファイル編集が可能である)

実習環境

インストール不要: 学生のマシンにHadoopソフトウェアをインストールする必要はありません!学生用に機能するHadoopクラスターが提供されます。

学生には以下のものが必要です

  • SSHクライアント(LinuxとMacには既にSSHクライアントがあります、WindowsではPuttyが推奨されます)
  • クラスターにアクセスするためのブラウザ、Firefoxが推奨されます
 28 時間

参加者の人数


参加者1人当たりの料金

お客様の声 (5)

今後のコース

関連カテゴリー