コース概要

モジュール 1. Hadoop の概要

  • Hadoop 分散ファイル システム (HDFS)
  • 読み取りパスと書き込みパス
  • ファイルシステムのメタデータの管理
  • ネームノードとデータノード
  • Namenode の高可用性
  • ネームノードフェデレーション
  • コマンドラインツール
  • REST サポートを理解する

モジュール 2. MapReduce の概要

  • Hadoop によるデータの分析
  • パターンのマッピングとリデュース
  • Java マップリデュース
  • スケールアウト
  • データフロー
  • 結合関数の開発
  • 分散 MapReduce ジョブの実行

モジュール 3. Hadoop クラスターの計画

  • Hadoop のディストリビューションとバージョンの選択
  • バージョンと機能
  • ハードウェアの選択
  • マスターおよびワーカーのハードウェアの選択
  • クラスターのサイジング
  • オペレーティング システムの選択と準備
  • 導入レイアウト
  • ユーザー、グループ、権限の設定
  • ディスク構成
  • ネットワーク設計

モジュール 4. インストールと構成

  • インストールHadoop
  • 構成: 概要
  • Hadoop XML 構成ファイル
  • 環境変数とシェルスクリプト
  • ロギング構成
  • HDFSの管理
  • 最適化とチューニング
  • ネームノードのフォーマット
  • /tmp ディレクトリの作成
  • Namenode の高可用性を考える
  • フェンシングのオプション
  • 自動フェイルオーバー構成
  • Namenodes をフォーマットして Bootstrap
  • ネームノードフェデレーション

モジュール 5. Hadoop I/O を理解する

  • HDFS でのデータの整合性
  • コーデックを理解する
  • 圧縮と入力分割
  • MapReduce での圧縮の使用
  • シリアル化メカニズム
  • ファイルベースのデータ構造
  • シーケンスファイル形式
  • その他のファイル形式と列指向形式

モジュール 6. MapReduce アプリケーションの開発

  • 構成 API
  • 開発環境のセットアップ
  • 構成の管理
  • GenericOptionsParser、Tool、および ToolRunner
  • MRUnit を使用して単体テストを作成する
  • マッパーとリデューサー
  • テストデータをローカルで実行する
  • ドライバーのテスト
  • クラスター上で実行する
  • ジョブのパッケージ化と起動
  • MapReduce Web UI
  • ジョブのチューニング

モジュール 7. ID、認証、および認可

  • アイデンティティの管理
  • ケルベロスとHadoop
  • 認可について

モジュール 8. リソース Management

  • リソースManagementとは何ですか?
  • HDFS クォータ
  • MapReduce スケジューラ
  • YARN アプリケーション実行の構造
  • リソースリクエスト
  • アプリケーションの寿命
  • YARN と MapReduce 1 の比較
  • YARN でのスケジュール設定
  • スケジューラのオプション
  • キャパシティ スケジューラの構成
  • 公平なスケジューラ構成
  • 遅延スケジュール
  • 支配的なリソースの公平性

モジュール 9. MapReduce のタイプと形式

  • MapReduce のタイプ
  • デフォルトの MapReduce ジョブ
  • 入力フォーマットの定義
  • 入力分割とレコードの管理
  • テキスト入力とバイナリ入力
  • 複数の入力の管理
  • Database 入力 (および出力)
  • 出力フォーマット
  • テキスト出力とバイナリ出力
  • 複数の出力の管理
  • Database の出力

モジュール 10. MapReduce 機能の使用

  • カウンターの使用
  • 内蔵カウンタの読み取り
  • ユーザー定義の Java カウンター
  • 並べ替えについて理解する
  • 分散キャッシュの使用

モジュール 11. クラスターのメンテナンスとトラブルシューティング

  • Hadoop プロセスの管理
  • Init スクリプトを使用したプロセスの開始と停止
  • プロセスを手動で開始および停止する
  • HDFS メンテナンス タスク
  • データノードの追加
  • データノードの廃止
  • fsck を使用したファイルシステムの整合性のチェック
  • HDFS ブロック データのバランスをとる
  • 故障したディスクへの対処
  • MapReduce メンテナンス タスク
  • MapReduce ジョブの強制終了
  • MapReduce タスクの強制終了
  • リソース枯渇の管理

モジュール 12. モニタリング

  • 利用可能な Hadoop メトリクス
  • SNMPの役割
  • ヘルスモニタリング
  • ホストレベルのチェック
  • HDFS チェック
  • MapReduce チェック

モジュール 13. バックアップとリカバリ

  • データバックアップ
  • 分散コピー (distcp)
  • 並列データ取り込み
  • ネームノードのメタデータ
 21 時間

参加者の人数



Price per participant

お客様の声 (1)

関連コース

Datameer for Data Analysts

14 時間

関連カテゴリー