お問い合わせ

コース概要

PySpark と機械学習 

モジュール 1: ビッグデータと Spark の基礎

  • ビッグデータエコシステムの概要と、現代のデータプラットフォームにおける Spark の役割
  • Spark アーキテクチャの理解:ドライバ、エグゼキュータ、クラスターマネージャ、遅延評価、DAG、および実行計画
  • RDD と DataFrame API の違い、およびそれぞれのアプローチを使用すべき場面
  • SparkSession の作成と設定、およびアプリケーション設定の基礎の理解

モジュール 2: PySpark DataFrame

  • 企業ソースおよび形式(CSV、JSON、Parquet、Delta)からのデータ読み込みと書き込み
  • PySpark DataFrame の操作:変換、アクション、カラム式、フィルタリング、結合、および集約
  • ウィンドウ関数の実装、タイムスタンプの処理、ネストされたデータの操作などの高度な操作
  • データ品質チェックの実施と、再利用可能で保守性の高い PySpark コードの記述

モジュール 3: 大規模データセットの効率的な処理

  • パフォーマンスの基礎の理解:パーティショニング戦略、シャッフル動作、キャッシング、および永続化
  • ブロードキャスト結合および実行計画分析を含む最適化手法の利用
  • 大規模データセットの効率的な処理と、スケーラブルなデータワークフローのためのベストプラクティス
  • スキーマの進化および企業環境で利用される最新のストレージ形式の理解

モジュール 4: スケーラブルな特徴量エンジニアリング

  • Spark MLlib を用いた特徴量エンジニアリングの実施:欠損値の処理、カテゴリカル変数のエンコーディング、特徴量スケーリング
  • 再利用可能な前処理ステップの設計と、機械学習パイプライン向けデータセットの準備
  • 特徴量選択および不均衡データセットの処理の紹介

モジュール 5: Spark MLlib を活用した機械学習

  • MLlib アーキテクチャおよび Estimator/Transformer パターンの理解
  • 大規模での回帰モデルと分類モデルのトレーニング(線形回帰、ロジスティック回帰、決定木、ランダムフォレスト)
  • 分散機械学習ワークフローにおけるモデルの比較と結果の解釈

モジュール 6: エンドツーエンドの ML パイプライン

  • 前処理、特徴量エンジニアリング、モデル構築を組み合わせたエンドツーエンドの機械学習パイプラインの構築
  • 学習/検証/テスト分割戦略の適用
  • グリッドサーチおよびランダムサーチを用いたクロスバリデーションとハイパーパラメータチューニング
  • 再現可能な機械学習実験の構成

モジュール 7: モデル評価と実践的な機械学習の意思決定

  • 回帰問題および分類問題に対する適切な評価指標の適用
  • 過学習と未学習の特定、および実践的なモデル選択の意思決定
  • 特徴量の重要度の解釈とモデル動作の理解

モジュール 8: 運用および企業レベルの実践

  • Spark におけるモデルの永続化と読み込み
  • 大規模データセットにおけるバッチ推論ワークフローの実装
  • 企業環境における機械学習ライフサイクルの理解
  • バージョン管理、実験追跡の概念、および基本的なテスト戦略の紹介

 

実践的な成果

  • PySpark を自律的に運用する能力
  • 大規模データセットを効率的に処理する能力
  • スケーラブルな特徴量エンジニアリングを行う能力
  • スケーラブルな機械学習パイプラインを構築する能力

要求

参加者は、以下の知識を有していることを前提とします:

関数、データ構造、ライブラリの操作方法を含む Python プログラミングの基礎知識
データセット、変換、集約などのデータ分析概念に関する基本的な理解
SQL およびリレーショナルデータ概念に関する基礎知識
トレーニングデータセット、特徴量、評価指標などの機械学習概念に関する入門的な理解
コマンドライン環境および基本的なソフトウェア開発プラクティスへの親和性が推奨されます

Pandas、NumPy、または同様のデータ処理ライブラリに関する経験があれば有益ですが、必須ではありません。

 21 時間

参加者の人数


参加者1人あたりの価格

お客様の声 (1)

今後のコース

関連カテゴリー