コース概要

導入

  • 分析と機械学習におけるデータ準備の重要性の理解
  • データライフサイクルにおけるデータ準備パイプラインの役割
  • 原始データの一般的な課題とその分析への影響の探索

データ収集と取得

  • データのソース:データベース、API、スプレッドシート、テキストファイルなど
  • データ収集の技術と収集中のデータ品質の確保
  • さまざまなソースからのデータ収集

データクリーニング技術

  • 欠損値、外れ値、および一貫性のない点の識別と処理
  • データセット内の重複やエラーへの対処
  • 実際のデータセットのクリーニング

データ変換と標準化

  • データ正規化と標準化技術
  • カテゴリカルデータの処理:エンコーディング、ビニング、および特徴量エンジニアリング
  • 原始データを使用可能な形式に変換

データ統合と集約

  • 異なるソースからのデータセットのマージと結合
  • データの競合解消とデータ型の整合性確保
  • データ集約と統合の技術

データ品質保証

  • プロセス全体でのデータ品質と整合性を確保する方法
  • 品質チェックと検証手順の実装
  • データ品質保証のケーススタディと実践的な応用例

次元削減と特徴量選択

  • 次元削減の必要性の理解
  • PCA、特徴量選択、および削減戦略などの技術
  • 次元削減技術の実装

まとめと次のステップ

要求

  • データ概念に関する基本的な理解

対象者

  • データアナリスト
  • データベース管理者
  • ITプロフェッショナル
 14 時間

参加者の人数


参加者1人当たりの料金

お客様の声 (2)

今後のコース

関連カテゴリー