コース概要

導入

  • データサイエンスのプロセス
  • データサイエンティストの役割と責任

開発環境の準備

  • ライブラリ、フレームワーク、言語、およびツール
  • ローカル開発
  • 協調的なウェブベースの開発

データ収集

  • 異なる種類のデータ
    • 構造化されたデータ
      • ローカルデータベース
      • データベースコネクタ
      • 一般的なフォーマット: xlxs, XML, Json, csv, ...
    • 非構造化データ
      • クリックス、センサ、スマートフォン
      • API
      • IoT(Internet of Things)
      • ドキュメント、画像、ビデオ、音声
  • ケーススタディ: 大量の非構造化データを継続的に収集する

データストレージ

  • リレーショナルデータベース
  • ノンリレーショナルデータベース
  • Hadoop: 分散ファイルシステム (HDFS)
  • Spark: 忍耐強い分散データセット (RDD)
  • クラウドストレージ

データ準備

  • 取り込み、選択、クリーニング、および変換
  • データの品質を確保 - 正確性、意味の明瞭性、セキュリティ
  • 例外レポート

準備、処理、分析に使用される言語

  • R 言語
    • Rの概要
    • データ操作、計算、およびグラフィカル表示
  • Python
    • Pythonの概要
    • データ操作、処理、クリーニング、および解析

データ分析

  • 探索的分析
    • 基本統計
    • 素晴らしい視覚化
    • データの理解
  • 因果関係
  • 特徴量と変換
  • 機械学習
    • 監督あり vs 監督なし
    • どのモデルを使用するか
  • 自然言語処理 (NLP)

データビジュアライゼーション

  • ベストプラクティス
  • 適切なチャートの選択
  • カラーパレット
  • 次の段階への進化
    • ダッシュボード
    • インタラクティブビジュアライゼーション
  • データを使ったストーリーテリング

まとめと結論

要求

  • データベース概念の一般的な理解
  • 統計学の基本的な理解
 35 時間

参加者の人数


参加者1人あたりの価格

お客様の声 (1)

今後のコース

関連カテゴリー