コース概要

機械学習入門

  • 教師あり学習と教師なし学習の種類
  • 統計的学習から機械学習へ
  • データマイニングワークフロー:ビジネス理解、データ準備、モデリング、展開
  • タスクに適したアルゴリズムを選択する方法
  • 過学習とバイアス・バリアンストレードオフ

Pythonと機械学習ライブラリ概要

  • なぜプログラミング言語を使用するのか
  • RとPythonの選択
  • Pythonの速習とJupyterノートブック
  • Pythonライブラリ:pandas, NumPy, scikit-learn, matplotlib, seaborn

機械学習アルゴリズムのテストと評価

  • 汎化、過学習、モデル検証
  • 評価戦略:ホールアウト、クロスバリデーション、ブートストラップ
  • 回帰の指標:ME, MSE, RMSE, MAPE
  • 分類の指標:精度、混同行列、不均衡クラス
  • モデル性能可視化:利益曲線、ROC曲線、リフト曲線
  • モデル選択とグリッドサーチによるチューニング

データ準備

  • Pythonでのデータのインポートと保存
  • 探査的分析と要約統計
  • 欠損値や外れ値の処理
  • 標準化、正規化、変換
  • 質的なデータの再コーディングとpandasを使用したデータ整形

分類アルゴリズム

  • 二値分類と多クラス分類
  • ロジスティック回帰と判別関数
  • ナイーブベイズ、k-最近傍法
  • 決定木:CART, Random Forests, Bagging, Boosting, XGBoost
  • サポートベクターマシンとカーネル
  • アンサンブル学習技術

回帰と数値予測

  • 最小二乗法と変数選択
  • 正則化方法:L1, L2
  • 多項式回帰と非線形モデル
  • 回帰木とスプライン

教師なし学習

  • クラスタリング手法:k-means, k-medoids, 層別クラスタリング, SOMs
  • 次元削減:PCA, 因子分析, SVD
  • 多次元スケーリング

テキストマイニング

  • テキストの前処理とトークン化
  • 袋_of_単語、ステミング、レマタイゼーション
  • 感情分析と単語頻度
  • ワードクラウドを使用したテキストデータの可視化

推薦システム

  • ユーザーベースとアイテムベースの協調フィルタリング
  • 推薦エンジンの設計と評価

関連パターンマイニング

  • 頻出項目集合とAprioriアルゴリズム
  • 市場バスケット分析とリフト比

外れ値検出

  • 極端値分析
  • 距離ベースと密度ベースの手法
  • 高次元データでの外れ値検出

機械学習ケーススタディ

  • ビジネス問題の理解
  • データ前処理と特徴エンジニアリング
  • モデル選択とパラメータチューニング
  • 評価と結果の提示
  • 展開

まとめと次回へのステップ

要求

  • 統計学と線形代数の基本的な理解。
  • データ分析やビジネスインテリジェンスの概念に精通していること。
  • プログラミング(PythonまたはRが望ましい)への露出があることが推奨されます。
  • データ駆動型プロジェクト向けの応用機械学習を学ぶことに興味があること。

対象者

  • データアナリストと科学者。
  • 統計家と研究専門家。
  • 機械学習ツールを探求している開発者やITプロフェッショナル。
  • データサイエンスや予測分析プロジェクトに関与しているすべての人々。
 21 時間

参加者の人数


参加者1人あたりの価格

お客様の声 (3)

今後のコース

関連カテゴリー