コース概要

セクション 1: HDFS 上でのデータ管理

  • さまざまなデータ形式 (JSON / Avro / Parquet)
  • 圧縮方式
  • データマスキング
  • 実習 : 異なるデータ形式の分析; 圧縮を有効にする

セクション 2: 高度な Pig

  • ユーザ定義関数
  • Pig ライブラリの紹介 (ElephantBird / Data-Fu)
  • 複雑な構造化データを Pig で読み込む方法
  • Pig のチューニング
  • 実習 : 高度な Pig スクリプト作成、複雑なデータ型の解析

セクション 3: 高度な Hive

  • ユーザ定義関数
  • 圧縮テーブル
  • Hive のパフォーマンスチューニング
  • 実習 : 圧縮テーブルの作成、テーブル形式と設定の評価

セクション 4: 高度な HBase

  • 高度なスキーマモデリング
  • 圧縮
  • 大量データの取り込み
  • ワイドテーブルとタールテーブルの比較
  • HBase と Pig の連携
  • HBase と Hive の連携
  • HBase のパフォーマンスチューニング
  • 実習 : HBase のチューニング;Pig および Hive からの HBase データアクセス;Phoenix を使用したデータモデリング

要求

  • Java プログラミング言語に精通していること (多くのプログラミング演習が Java で行われます)
  • Linux 環境に慣れていること (Linux コマンドラインの操作、vi や nano を使用してファイルを編集できる)
  • Hadoop の基本的な知識

実習環境

インストール不要: 学生のマシンに Hadoop ソフトウェアをインストールする必要はありません!学生用の動作する Hadoop クラスタが提供されます。

学生には以下のものがnecessaryです

 21 時間

参加者の人数


参加者1人当たりの料金

お客様の声 (5)

今後のコース

関連カテゴリー