コース概要

セクション 1: Hadoop の概要

  • Hadoop の歴史、概念
  • エコシステム
  • 分布
  • 高レベルのアーキテクチャ
  • ハドゥープの神話
  • ハドゥープの課題
  • ハードウェア/ソフトウェア
  • 研究室: Hadoop を初めて見てください

セクション 2: HDFS

  • デザインと建築
  • 概念 (水平スケーリング、レプリケーション、データの局所性、ラック認識)
  • デーモン : ネームノード、セカンダリネームノード、データノード
  • 通信 / 心拍数
  • データの整合性
  • 読み取り/書き込みパス
  • Namenode 高可用性 (HA)、フェデレーション
  • ラボ: HDFS との対話

セクション 3 : マップリデュース

  • コンセプトとアーキテクチャ
  • デーモン (MRV1) : ジョブトラッカー / タスクトラッカー
  • フェーズ: ドライバー、マッパー、シャッフル/ソート、リデューサー
  • Map Reduce バージョン 1 およびバージョン 2 (YARN)
  • Map Reduce の内部
  • Java Map Reduce プログラムの紹介
  • ラボ: サンプル MapReduce プログラムの実行

セクション 4 : 豚

  • pig vs Javaのマップリデュース
  • 豚のジョブフロー
  • 豚のラテン語
  • Pig を使用した ETL
  • 変換と結合
  • ユーザー定義関数 (UDF)
  • ラボ: データを分析するための Pig スクリプトの作成

セクション 5: Hive

  • 建築とデザイン
  • データ型
  • SQL Hive のサポート
  • Hive 個のテーブルの作成とクエリ
  • パーティション
  • 結合します
  • テキスト処理
  • labs : Hive を使用したデータ処理に関するさまざまなラボ

セクション 6: HBase

  • コンセプトとアーキテクチャ
  • hbase 対 RDBMS 対 cassandra
  • HBase Java API
  • HBase上の時系列データ
  • スキーマ設計
  • labs : シェルを使用した HBase との対話。 HBase Java API でのプログラミング。スキーマ設計演習

要求

  • Javaプログラミング言語に慣れていること(ほとんどのプログラミング演習はJavaで行われます)
  • Linuxの環境に慣れている(Linuxのコマンドラインを操作でき、vi / nanoを使ってファイルを編集できる)

ラボ環境

インストール不要:学生のマシンにhadoopソフトウェアをインストールする必要はありません!Hadoopクラスタが提供されます。

生徒には以下が必要です。

  • SSHクライアント(LinuxとMacにはすでにsshクライアントがあります。
  • クラスタにアクセスするためのブラウザ。推奨ブラウザは Firefox
  • です。
 28 時間

参加者の人数



Price per participant

お客様の声 (3)

関連コース

Datameer for Data Analysts

14 時間

関連カテゴリー