コース概要

導入

Hadoop のアーキテクチャと主要な概念を理解する

Hadoop 分散ファイル システム (HDFS) について理解する

    HDFS とそのアーキテクチャ設計の概要 HDFS との対話 HDFS での基本的なファイル操作の実行 HDFS コマンド リファレンスの概要 Snakebite の概要 Snakebite のインストール Snakebite クライアント ライブラリの使用 CLI クライアントの使用

Python で MapReduce プログラミング モデルを学習する

    MapReduce の概要 Programming モデル MapReduce フレームワークのデータ フローを理解する Map Shuffle と Sort Reduce
Hadoop ストリーミング ユーティリティの使用 Hadoop ストリーミング ユーティリティの動作を理解する
  • デモ: Python での WordCount アプリケーションの実装
  • mrjob ライブラリの使用 mrjob の概要
  • mrjobのインストール
  • デモ: mrjob を使用した WordCount アルゴリズムの実装
  • mrjob ライブラリを使用して記述された MapReduce ジョブがどのように機能するかを理解する
  • mrjob を使用した MapReduce アプリケーションの実行
  • 実践: mrjob を使用して最高給与を計算する
  • Python で豚を学ぶ
  • Pig デモの概要: Pig での WordCount アルゴリズムの実装 Pig スクリプトと Pig ステートメントの構成と実行 Pig 実行モードの使用 Pig インタラクティブ モードの使用 Pic バッチ モードの使用
  • ステートメントを使用してピッグ ラテン語の基本概念を理解する

      データのロード
    データの変換
  • データの保存
  • Python UDF による Pig の機能の拡張 Python UDF ファイルの登録
  • デモ: 単純な Python UDF
  • デモ: Python UDF を使用した文字列操作
  • ハンズオン: Python UDF を使用して最新の映画 10 本を計算する
  • Spark と PySpark の使用
  • Spark デモの概要: PySpark での WordCount アルゴリズムの実装 インタラクティブ シェルを使用した PySpark の概要 自己完結型アプリケーションの実装
  • Resilient Distributed Datasets (RDD) の操作 Python コレクションからの RDD の作成
  • ファイルからの RDD の作成
  • RDD 変換の実装

      RDD アクションの実装
    ハンズオン: PySpark を使用した映画タイトル用のテキスト Search プログラムの実装
  • Python によるワークフローの管理
  • Apache Oozie と Luigi の概要 Luigi のインストール Luigi ワークフローの概念について タスク ターゲット パラメータ
  • デモ: Word カウント アルゴリズムを実装するワークフローの検証
  • Luigi の構成ファイルを使用して MapReduce ジョブと Pig ジョブを制御する Hadoop ワークフローの操作
  • Luigi での MapReduce の操作
  • ルイージでブタを操作する
  • 要約と結論

    要求

    • Pythonのプログラミング経験
    • Hadoopの基本的な知識
     28 時間

    参加者の人数



    Price per participant

    お客様の声 (3)

    関連コース

    Datameer for Data Analysts

    14 時間

    関連カテゴリー