コース概要

セクション 1: HDFS の Data Management

  • 各種データフォーマット(JSON / Avro / Parquet)
  • 圧縮スキーム
  • データマスキング
  • ラボ : さまざまなデータ形式を分析します。圧縮を有効にする

セクション 2: 高度な豚

  • ユーザー定義関数
  • Pig ライブラリの紹介 (ElephantBird / Data-Fu)
  • Pig を使用した複雑な構造化データのロード
  • 豚のチューニング
  • ラボ: 高度な pig スクリプト、複雑なデータ型の解析

セクション 3 : 上級 Hive

  • ユーザー定義関数
  • 圧縮テーブル
  • Hive パフォーマンスチューニング
  • ラボ: 圧縮テーブルの作成、テーブルの形式と構成の評価

セクション 4 : 高度な HBase

  • 高度なスキーマモデリング
  • 圧縮
  • 一括データ取り込み
  • ワイドテーブル/トールテーブルの比較
  • HBase と Pig
  • HBase と Hive
  • HBase のパフォーマンス チューニング
  • ラボ: HBase のチューニング。 Pig から HBase データにアクセスする & Hive;データモデリングにPhoenixを使用する

要求

  • Javaプログラミング言語に慣れていること(ほとんどのプログラミング演習はJavaで行われます)
  • Linux環境に慣れている(Linuxコマンドラインを操作でき、vi / nanoを使用してファイルを編集できる)
  • Hadoopの知識があること

ラボ環境

インストール不要:学生のマシンにhadoopソフトウェアをインストールする必要はありません!Hadoopクラスタが提供されます。

生徒には以下が必要です。

  • SSHクライアント(LinuxとMacにはすでにsshクライアントがあります。
  • クラスタにアクセスするためのブラウザ。推奨ブラウザは Firefox
  • です。
 21 時間

参加者の人数



Price per participant

お客様の声 (3)

関連コース

Datameer for Data Analysts

14 時間

関連カテゴリー