コース概要

1.1Hadoop 概念

1.1.1HDFS

    HDFS コマンド ライン インターフェイスの設計 Hadoop ファイル システム

1.1.2クラスター

    クラスタの構造 マスターノード / スレーブノード ネームノード / データノード

1.2データ操作

1.2.1MapReduceの詳細

    マップフェーズ リダクションフェーズ シャッフル

1.2.2Map Reduce を使用した分析

    MapReduce を使用したグループ化 MapReduce を使用した度数分布と並べ替え 結果のプロット (GNU プロット) MapReduce を使用したヒストグラム MapReduce を使用した散布図 複雑なデータセットの解析 MapReduce と結合器を使用したカウント レポートの作成

 

1.2.3データクレンジング

    ドキュメントのクリーニング ファジー文字列検索 レコードのリンク/データの重複排除 イベント日付の変換と並べ替え ソースの信頼性の検証 外れ値のトリミング

1.2.4データの抽出と変換

    ログの変換 Apache Pig を使用したフィルタリング Apache Pig を使用したソート Apache Pig を使用したセッション化

1.2.5高度な結合

    MapReduce を使用したマッパーでのデータの結合 Apache Pig のレプリケート結合を使用したデータの結合 Apache Pig マージ結合を使用したソートされたデータの結合 Apache Pig のスキュー結合を使用した偏ったデータの結合 Apache でのマップ側結合の使用 Hive Apache での最適化された完全外部結合の使用 Hive ] 外部キー値ストアを使用したデータの結合

1.3パフォーマンスの診断と最適化の手法

    マップ 入力データのスパイクの調査 マップ側のデータ スキュー問題の特定 マップ タスクのスループット 小さなファイル 分割不可能なファイル
リデューサが少なすぎる、または多すぎる
  • リデュース側のデータスキューの問題
  • タスクのスループットを低下させる
  • ゆっくりとしたシャッフルと並べ替え
  • 競合するジョブとスケジューラのスロットル
  • スタックダンプと最適化されていないコード
  • ハードウェア障害
  • CPUの競合
  • タスク タスク実行時間を抽出・可視化
  • マップのプロファイリングとタスクの削減
  • レデューサーを避けてください
  • フィルターとプロジェクト
  • コンバイナーの使用
  • コンパレータによる高速ソート
  • 偏ったデータの収集
  • スキューの軽減を軽減する
  • 要求

    トレーニングは、Apache Hadoopの管理およびデータ操作の両方に関するエンドユーザーのスキルに重点を置いているため、受講者は特定のスキルを持っている必要はありません。

      21 時間
     

    参加者の人数


    開始

    完了


    Dates are subject to availability and take place between 10:00 and 17:00.
    Open Training Courses require 5+ participants.

    お客様の声 (3)

    関連コース

    Datameer for Data Analysts

      14 時間

    関連カテゴリー