コース概要

Data Science for Big Data Analytics の紹介

    Data Science 概要 ビッグデータの概要 データ構造 ビッグデータの推進要因と複雑さ ビッグデータのエコシステムと分析への新しいアプローチ ビッグデータの主要テクノロジー データマイニングのプロセスと問題 関連パターン マイニング データ クラスタリング 外れ値検出 データ分類

データ分析ライフサイクルの概要

    発見 データ準備 モデル計画 モデル構築 結果のプレゼンテーション/Communication 運用化 演習: ケーススタディ

この時点から、トレーニング時間のほとんど (80%) が R および関連するビッグ データ テクノロジの例と演習に費やされます。

R を始める

    R と Rstudio のインストール R 言語の機能 R のオブジェクト R のデータ データ操作 ビッグ データの問題 演習

Hadoop を始める

    Hadoop のインストール Hadoop モードの理解 HDFS MapReduce アーキテクチャ Hadoop 関連プロジェクトの概要 Hadoop MapReduce でのプログラムの作成 演習

R と Hadoop を RHadoop と統合する

    RHadoop のコンポーネント RHadoop のインストールと Hadoop への接続 RHadoop のアーキテクチャ R を使用したストリーミング Hadoop RHadoop を使用したデータ分析の問題解決 演習

データの前処理と準備

    データの準備手順 特徴抽出 データ クリーニング データの統合と変換 データ削減 – サンプリング、特徴サブセットの選択、次元削減 離散化とビニング 演習とケーススタディ

R の探索的データ分析手法

    記述統計 探索的データ分析 視覚化 – 準備段階 単一変数の視覚化 複数変数の調査 評価のための統計的手法 仮説検定 演習とケーススタディ

Data Visualization

    R の基本的な視覚化 データ視覚化用のパッケージ ggplot2、lattice、plotly、lattice R でのプロットの書式設定 高度なグラフの演習

回帰(将来の値の推定)

    線形回帰 ユースケース モデルの説明 診断 線形回帰の問題 収縮法、リッジ回帰、なげなわ 一般化と非線形性 回帰スプライン 局所多項式回帰 一般化加算モデル RHadoop による回帰 演習とケーススタディ

分類

    分類関連の問題 ベイジアンの復習 単純ベイズ ロジスティック回帰 K 最近傍決定木アルゴリズム ニューラル ネットワーク サポート ベクター マシン 分類器の診断 分類法の比較 Scala ble 分類アルゴリズム 演習とケーススタディ

モデルのパフォーマンスと選択の評価

    バイアス、分散、モデルの複雑さ 精度と解釈可能性 分類器の評価 モデル/アルゴリズムのパフォーマンスの測定 ホールドアウト検証方法 相互検証 キャレット パッケージを使用した機械学習アルゴリズムのチューニング 利益 ROC とリフト カーブによるモデル パフォーマンスの視覚化

アンサンブルメソッド

    バギング Random Forest のブースティング勾配ブースティングの演習とケーススタディ

分類と回帰のためのサポートベクターマシン

    最大マージン分類器 サポート ベクター分類器 サポート ベクター マシン 分類問題用の SVM 回帰問題用の SVM
演習とケーススタディ
  • データセット内の未知のグループの識別
  • クラスタリングのための特徴選択 代表的なベースのアルゴリズム: k-means、k-medoids 階層アルゴリズム: 凝集法および分割法 確率ベースのアルゴリズム: EM 密度ベースのアルゴリズム: DBSCAN、DENCLUE クラスターの検証 高度なクラスタリングの概念 RHadoop によるクラスタリング 演習とケーススタディ

      リンク分析による接続の検出

    リンク分析の概念 ネットワーク分析のメトリクス ページランク アルゴリズム ハイパーリンクに起因するトピック Search リンク予測の演習とケース スタディ

      アソシエーションパターンマイニング

    頻繁なパターン マイニング モデル Scala 頻繁なパターン マイニングにおける能力の問題 ブルート フォース アルゴリズム アプリオリ アルゴリズム FP 成長アプローチ 候補ルールの評価 アソシエーション ルールの適用 検証とテスト 診断 アソシエーション ルールと R および Hadoop の演習とケース スタディ

      レコメンドエンジンの構築

    レコメンダー システムについて理解する レコメンダー システムで使用されるデータ マイニング手法 recommenderlab パッケージを使用したレコメンダー システム レコメンダー システムの評価 RHadoop を使用したレコメンデーション 演習: レコメンデーション エンジンの構築

      テキスト分析

    テキスト分析の手順 生のテキストの収集 単語の集まり 用語の頻度 – 逆文書頻度 感情の決定 演習とケーススタディ

     35 時間

    参加者の人数



    Price per participant

    お客様の声 (2)

    関連コース

    Unified Batch and Stream Processing with Apache Beam

    14 時間

    Apache Apex: Processing Big Data-in-Motion

    21 時間