お問い合わせを送信いただきありがとうございます!当社のスタッフがすぐにご連絡いたします。
予約を送信いただきありがとうございます!当社のスタッフがすぐにご連絡いたします。
コース概要
ビッグデータ分析のためのデータサイエンス入門
- データサイエンスの概要
- ビッグデータの概要
- データ構造
- ビッグデータの動機と複雑さ
- ビッグデータエコシステムと新しい分析アプローチ
- ビッグデータの主要技術
- データマイニングのプロセスと課題
- 関連パターンマイニング
- データクラスタリング
- 外れ値検出
- データ分類
データ分析ライフサイクルの入門
- 発見
- データ準備
- モデル計画
- モデル構築
- 結果の提示・コミュニケーション
- 実装
- 演習: ケーススタディ
このポイントから、訓練時間の80%がRおよび関連するビッグデータテクノロジーの例と演習に費やされます。
Rの入門
- RとRstudioのインストール
- R言語の特徴
- Rのオブジェクト
- Rにおけるデータ
- データ操作
- ビッグデータの問題点
- 演習
Hadoopの入門
- Hadoopのインストール
- Hadoopモードの理解
- HDFS
- MapReduceアーキテクチャ
- Hadoop関連プロジェクトの概要
- Hadoop MapReduceでのプログラム作成
- 演習
RとHadoopをRHadoopで統合する
- RHadoopのコンポーネント
- RHadoopのインストールとHadoopとの接続
- RHadoopのアーキテクチャ
- RによるHadoopストリーミング
- RHadoopを用いたデータ分析問題解決
- 演習
前処理とデータ準備
- データ準備の手順
- 特徴量抽出
- データクリーニング
- データ統合と変換
- データ削減 - サンプリング、特徴量部分集合選択
- 次元削減
- 離散化とビニング
- 演習とケーススタディ
Rにおける探査的データ分析手法
- 記述統計
- 探査的データ分析
- 可視化 - 初期段階
- 単変量の可視化
- 複数変量の検討
- 評価のための統計手法
- 仮説検定
- 演習とケーススタディ
データ可視化
- Rにおける基本的な可視化
- データ可視化のパッケージ ggplot2, lattice, plotly, lattice
- Rにおけるプロットのフォーマット
- 高度なグラフ
- 演習
回帰 (将来値の予測)
- 線形回帰
- ユースケース
- モデルの説明
- 診断
- 線形回帰の問題点
- 縮小法、リッジ回帰、ラソ
- 一般化と非線形性
- 回帰スプライン
- 局所多項式回帰
- 一般加法モデル
- RHadoopによる回帰
- 演習とケーススタディ
分類
- 分類に関連する問題
- ベイジアンのリフレッシュ
- ナイーブベイズ
- ロジスティック回帰
- k-最近傍法
- 決定木アルゴリズム
- ニューラルネットワーク
- サポートベクトルマシン
- 分類器の診断
- 分類手法の比較
- スケーラブルな分類アルゴリズム
- 演習とケーススタディ
モデルの性能評価と選択
- バイアス、分散、モデルの複雑さ
- 精度 vs 解釈可能性
- 分類器の評価
- モデル/アルゴリズムの性能測定
- ホールドアウト検証法
- クロスバリデーション
- caretパッケージによる機械学習アルゴリズムの調整
- Profit ROCとLift曲線を用いたモデル性能の可視化
アンサンブル手法
- バギング
- ランダムフォレスト
- ブースティング
- 勾配ブースティング
- 演習とケーススタディ
分類と回帰のためのサポートベクトルマシン
- 最大限の余裕を持つ分類器
- サポートベクトル分類器
- サポートベクトルマシン
- 分類問題へのSVMの適用
- 回帰問題へのSVMの適用
- 演習とケーススタディ
データセット内の未知のグループを特定する
- クラスタリングのための特徴量選択
- 代表点ベースアルゴリズム: k-means, k-medoids
- 階層的アルゴリズム: 集約法と分割法
- 確率的基底アルゴリズム: EM
- 密度ベースアルゴリズム: DBSCAN, DENCLUE
- クラスタ検証
- 高度なクラスタリング概念
- RHadoopによるクラスタリング
- 演習とケーススタディ
リンク分析を用いたつながりの発見
- リンク分析の概念
- ネットワーク解析のためのメトリクス
- Pagerankアルゴリズム
- Hyperlink-Induced Topic Search (HITS)
- リンク予測
- 演習とケーススタディ
関連パターンマイニング
- 頻繁パターンマイニングモデル
- 頻繁パターンマイニングのスケーラビリティ問題
- 全探索アルゴリズム
- Aprioriアルゴリズム
- FP成長アプローチ
- 候補ルールの評価
- 関連規則の応用
- 検証とテスト
- 診断
- RとHadoopによる関連規則
- 演習とケーススタディ
推薦エンジンの構築
- 推奨システムの理解
- 推奨システムで使用されるデータマイニング技術
- recommenderlabパッケージによる推奨システム
- 推奨システムの評価
- RHadoopによる推奨
- 演習: 推薦エンジンの構築
テキスト分析
- テキスト分析の手順
- 生データの収集
- 単語袋モデル
- TF-IDF (Term Frequency - Inverse Document Frequency)
- センチメントの決定
- 演習とケーススタディ
35 時間
お客様の声 (2)
強度、トレーニング資料と専門知識、明瞭性、アレッサンドラとの優れたコミュニケーション
Marija Hornis Dmitrovic - Marija Hornis
コース - Data Science for Big Data Analytics
機械翻訳
The example and training material were sufficient and made it easy to understand what you are doing.
Teboho Makenete
コース - Data Science for Big Data Analytics
機械翻訳