コース概要

1: HDFS (17%)

  • HDFS デーモンの機能の説明
  • データ ストレージとデータ処理の両方における Apache Hadoop クラスターの通常の動作について説明します。
  • Apache Hadoop のようなシステムを動かすコンピューティング システムの現在の機能を特定します。
  • HDFS 設計の主な目標を分類する
  • 与えられたシナリオに基づいて、HDFS フェデレーションの適切なユースケースを特定する
  • HDFS HA-Quorum クラスターのコンポーネントとデーモンを特定する
  • HDFS セキュリティ (Kerberos) の役割を分析する
  • 特定のシナリオに最適なデータ シリアル化の選択肢を決定する
  • ファイルの読み取りおよび書き込みパスを説明する
  • Hadoop ファイル システム シェルでファイルを操作するコマンドを特定する

2: YARN および MapReduce バージョン 2 (MRv2) (17%)

  • クラスターを Hadoop 1 から Hadoop 2 にアップグレードすることがクラスター設定にどのような影響を与えるかを理解する
  • すべての YARN デーモンを含む MapReduce v2 (MRv2 / YARN) のデプロイ方法を理解する
  • MapReduce v2 (MRv2) の基本的な設計戦略を理解する
  • YARN がリソース割り当てを処理する方法を決定する
  • YARN で実行される MapReduce ジョブのワークフローを特定する
  • YARN 上で実行されている MapReduce バージョン 1 (MRv1) から MapReduce バージョン 2 (MRv2) にクラスターを移行するには、どのファイルをどのように変更する必要があるかを決定します。

3: Hadoop クラスター計画 (16%)

  • Apache Hadoop クラスターをホストするハードウェアとオペレーティング システムを選択する際に考慮すべき主なポイント。
  • OS を選択する際の選択肢を分析する
  • カーネルのチューニングとディスクの交換について理解する
  • 与えられたシナリオとワークロード パターンを考慮して、シナリオに適したハードウェア構成を特定します。
  • 与えられたシナリオに基づいて、SLA を満たすためにクラスターが実行する必要があるエコシステム コンポーネントを決定します。
  • クラスターのサイジング: 与えられたシナリオと実行頻度に基づいて、CPU、メモリ、ストレージ、ディスク I/O などのワークロードの詳細を特定します。
  • ディスクのサイズ設定と構成 (JBOD と RAID、SAN、仮想化、クラスター内のディスク サイズの要件など)
  • ネットワーク トポロジ: Hadoop (HDFS と MapReduce の両方) でのネットワーク使用状況を理解し、特定のシナリオの主要なネットワーク設計コンポーネントを提案または特定します。

4: Hadoop クラスターのインストールと管理 (25%)

  • 与えられたシナリオに基づいて、クラスターがディスクとマシンの障害をどのように処理するかを特定します。
  • ロギング構成とロギング構成ファイル形式を分析する
  • Hadoop メトリクスとクラスターの健全性監視の基本を理解する
  • クラスター監視に使用できるツールの機能と目的を特定する
  • Impala、Flume、Oozie、Hue、Manager、Sqoop、Hive、Pig を含む (ただしこれらに限定されない) すべてのエコシステム コンポーネントを CDH 5 にインストールできること。
  • Apache Hadoop ファイル システムを管理するために利用できるツールの機能と目的を特定する

5: リソースManagement (10%)

  • Hadoop 個の各スケジューラの全体的な設計目標を理解する
  • 与えられたシナリオに基づいて、FIFO スケジューラがクラスター リソースを割り当てる方法を決定します。
  • 与えられたシナリオに基づいて、Fair Scheduler が YARN の下でクラスター リソースを割り当てる方法を決定します。
  • 与えられたシナリオに基づいて、Capacity Scheduler がクラスター リソースを割り当てる方法を決定します。

6: モニタリングとロギング (15%)

  • Hadoopのメトリクス収集能力の機能と特徴を理解する
  • NameNode および JobTracker Web UI を分析する
  • クラスターデーモンを監視する方法を理解する
  • マスターノードのCPU使用率を特定して監視する
  • すべてのノードでスワップとメモリ割り当てを監視する方法を説明する
  • Hadoop のログ ファイルを表示および管理する方法を確認する
  • ログファイルを解釈する

要求

  • 基本的なLinux管理スキル
  • 基本的なプログラミングスキル
  35 時間
 

参加者の人数


開始

完了


Dates are subject to availability and take place between 10:00 and 17:00.
Open Training Courses require 5+ participants.

お客様の声 (3)

関連コース

関連カテゴリー