コース概要

各セッションは2時間です

Day-1: セッション -1: 政府におけるビッグデータビジネスインテリジェンスの概要

  • NHI、DoEからの事例研究
  • 政府機関でのビッグデータ適応率と未来の運用におけるビッグデータ予測分析への対応
  • DoD、NSA、IRS、USDAなどでの幅広いアプリケーションエリア
  • レガシーデータとのインターフェース
  • 予測分析を可能にする技術の基本的な理解
  • データ統合とダッシュボード可視化
  • 不正行為管理
  • ビジネスルール/不正検知生成
  • 脅威検知とプロファイリング
  • ビッグデータ実装の費用対効果分析

Day-1: セッション-2 : ビッグデータ入門-1

  • ビッグデータの主な特性:容量、種類、速度、信頼性。MPPアーキテクチャによる大容量処理。
  • データウェアハウス - 静的なスキーマ、徐々に進化するデータセット
  • MPPデータベース(Greenplum, Exadata, Teradata, Netezza, Verticaなど)
  • Hadoopベースのソリューション - データセットの構造に対する制約なし。
  • 一般的なパターン:HDFS、MapReduce (crunch)、HDFSからの取得
  • バッチ処理 - 分析/非対話型に適している
  • 大容量データ:CEPストリーミングデータ
  • 一般的な選択肢 - CEP製品(例:Infostreams, Apama, MarkLogicなど)
  • まだ本番環境向けではない - Storm/S4
  • NoSQLデータベース - (列指向およびキー値):データウェアハウス/データベースの分析補助として最適

Day-1 : セッション -3 : ビッグデータ入門-2

NoSQLソリューション

  • KVストア - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KVストア - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • 階層型KVストア - GT.m, Cache
  • 順序型KVストア - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KVキャッシュ - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • タプルストア - Gigaspaces, Coord, Apache River
  • オブジェクトデータベース - ZopeDB, DB40, Shoal
  • ドキュメントストア - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • 幅広い列ストア - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

データの種類:ビッグデータでのデータクリーニングの課題について

  • RDBMS - 静的な構造/スキーマ、アジャイルで探求的な環境を促進しない。
  • NoSQL - 半構造化され、データを保存する前に正確なスキーマが不要。
  • データクリーニングの課題

Day-1 : セッション-4 : ビッグデータ入門-3:Hadoop

  • Hadoopを選択すべき時
  • 構造化されたデータ - 企業データウェアハウス/データベースは大量のデータを保存できます(コストがかかりますが)、アクティブな探求には不向きです。
  • 半構造化データ - 従来のソリューション(DW/DB)では扱いにくい
  • データウェアハウス = 構築後も固定的で大規模な労力が必要
  • 多様性と容量を持つデータを廉価なハードウェア上で処理する - HADOOP
  • Hadoopクラスターを作成するために必要な廉価なH/W

MapReduce/HDFSの概要

  • MapReduce - 複数サーバーでの分散計算
  • HDFS - コンピューティングプロセスのためにローカルにデータを提供(冗長性あり)
  • データ - 構造化されていない/スキーマなし(RDBMSとは異なる)
  • 開発者の責任でデータの意味を解釈する
  • MapReduceプログラミング = Javaでの作業(長所/短所)、HDFSへの手動データロード

Day-2: セッション-1: ビッグデータエコシステム - Big Data ETLの構築:Big Dataツールの世界 - いつどのツールを使用するか?

  • Hadoop vs. 他のNoSQLソリューション
  • データへのインタラクティブなランダムアクセス
  • Hadoop上のHbase(列指向データベース)
  • データへのランダムアクセス、ただし制限あり(最大1PB)
  • 非対話型分析には不向き、ログ、カウント、時系列解析に適している
  • Sqoop - データベースからHiveまたはHDFSへのインポート(JDBC/ODBCアクセス)
  • Flume - ストリーミングデータ(例:ログデータ)をHDFSへ

Day-2: セッション-2: 大規模データ管理システム

  • 移動部品、コンピュートノードの起動/故障:ZooKeeper - 設定/調整/ネーミングサービス用
  • 複雑なパイプライン/ワークフロー:Oozie - ワークフロー管理、依存関係、連鎖処理
  • デプロイ、設定、クラスタ管理、アップグレードなど(システム管理者):Ambari
  • クラウド上:Whirr

Day-2: セッション-3: 予測分析入門 -1: 基本的なテクニックと機械学習ベースのBI:

  • 機械学習の概要
  • 分類手法の学習
  • ベイジアン予測 - 訓練ファイルの準備
  • サポートベクトルマシン
  • KNN p-Tree Algebra および垂直マイニング
  • ニューラルネットワーク
  • ビッグデータの大変数問題 - ランダムフォレスト (RF)
  • ビッグデータの自動化問題 - 複数モデルアンサンブル RF
  • Soft10-Mによる自動化
  • テキスト解析ツール - Treeminer
  • アジャイル学習
  • エージェントベースの学習
  • 分散学習
  • 予測分析用オープンソースツールの概要:R, Rapidminer, Mahut

Day-2: セッション-4 予測分析エコシステム-2: 政府での一般的な予測分析問題

  • 洞察分析
  • 可視化分析
  • 構造化された予測分析
  • 非構造化された予測分析
  • 脅威/不正行為者/ベンダーのプロファイリング
  • レコメンデーションエンジン
  • パターン検知
  • ルール/シナリオ発見 - 故障、不正行為、最適化
  • 根本原因発見
  • 感情分析
  • CRM分析
  • ネットワーク分析
  • テキスト解析
  • 技術支援レビュー
  • 不正行為分析
  • リアルタイム分析

Day-3 : セッション-1 : Hadoopにおけるリアルタイムかつスケーラブルな分析

  • Hadoop/HDFSで一般的な分析アルゴリズムが失敗する理由
  • Apache Hama - バルク同期分散計算用
  • Apache SPARK - リアルタイム分析のためのクラスタコンピューティング
  • CMU Graphics Lab2 - グラフベースの非同期アプローチによる分散計算
  • TreeminerからのKNN p-Algebraベースのハードウェアコスト削減アプローチ

Day-3: セッション-2: eDiscoveryとフォレンジックスのためのツール

  • ビッグデータでのeDiscovery vs. レガシーデータ - コストとパフォーマンスの比較
  • 予測コーディングと技術支援レビュー (TAR)
  • Tar製品(vMiner)のライブデモ - TARが高速発見にどのように働くかを理解する
  • HDFSによる高速インデックス化 - データの速度
  • NLPまたは自然言語処理 - 多様な手法とオープンソース製品
  • 外国語でのeDiscovery - 外国語処理技術

Day-3 : セッション 3: ビッグデータBIによるサイバーセキュリティの理解 - 高速なデータ収集から脅威識別までの全体的な360度ビュー

  • セキュリティ分析の基本的理解 - 攻撃面、セキュリティ設定の不備、ホスト防御
  • ネットワークインフラ/大規模データパイプライン/リアルタイム分析用ETL
  • 規定ベース vs. 自動発見 - メタデータから脅威ルールを自動生成する

Day-3: セッション 4: USDAにおけるビッグデータの応用 - 農業への適用

  • 農業向けIoT(Internet of Things)の概要 - センサーベースのビッグデータと制御
  • 衛星イメージングとその農業への応用
  • センサーや画像データを統合して土壌の肥沃度、栽培推奨、予測を行う
  • 農業保険とビッグデータ
  • 作物損失予測

Day-4 : セッション-1: 政府におけるビッグデータを活用した不正防止BI - 不正分析:

  • 不正分析の基本的な分類 - 規則ベース vs. 予測分析
  • 監督あり vs. 監督なし機械学習による不正パターン検知
  • ベンダーの不正/プロジェクト過大請求
  • メディケアとメディケイドの不正 - 請求処理における不正検知技術
  • 旅費立替不正
  • IRS還付金不正
  • データが利用可能であれば、事例研究とライブデモを提供します。

Day-4 : セッション-2: 社会メディア分析 - 情報収集と分析:

  • ビッグデータETL APIを使用したソーシャルメディアデータの抽出
  • テキスト、画像、メタデータ、動画
  • ソーシャルメディアフィードからの感情分析
  • コンテクスチュアルとノンコンテクスチュアルなフィルタリング
  • 多様なソーシャルメディアを統合するダッシュボード
  • ソーシャルメディアプロファイルの自動生成
  • Treeminerツールを通じて各分析のライブデモが提供されます。

Day-4 : セッション-3: ビッグデータでの画像処理と動画フィードの解析:

  • ビッグデータにおける画像保存技術 - ペタバイトを超えるデータの保存ソリューション
  • LTFSとLTO
  • GPFS-LTFS(大規模画像データ用層状ストレージソリューション)
  • 画像解析の基本
  • オブジェクト認識
  • 画像セグメンテーション
  • 動き追跡
  • 3D画像再構成

Day-4: セッション-4: NIHでのビッグデータの応用:

  • 新興バイオインフォマティクス分野
  • メタゲノミクスとビッグデータ分析の課題
  • 薬物遺伝学、代謝組み換え、プロテオミクスにおけるビッグデータ予測分析
  • 下流ゲノミクスプロセスでのビッグデータ
  • パブリックヘルスへのビッグデータ予測分析の応用

多様なデータの迅速なアクセスと表示用のビッグデータダッシュボード:

  • 既存アプリケーションプラットフォームとのビッグデータダッシュボードの統合
  • ビッグデータ管理
  • ビッグデータダッシュボードに関するケーススタディ:TableauとPentaho
  • 政府での位置ベースサービスの提供にビッグデータアプリを使用する
  • 追跡システムと管理

Day-5 : セッション-1: 組織内でのビッグデータBI実装の正当化方法:

  • ビッグデータ実装のROI定義
  • データ収集と準備時間の短縮による生産性向上 - ケーススタディ
  • ライセンスデータベースコスト削減からの収益増加 - ケーススタディ
  • 位置ベースサービスからの収益増加
  • 不正防止からの節約
  • ビッグデータ実装の費用対効果/節約を概算するための統合スプレッドシートアプローチ。

Day-5 : セッション-2: レガシーデータシステムからビッグデータシステムへのステップバイステップ移行手順:

  • 実践的なビッグデータマイグレーションロードマップの理解
  • ビッグデータ実装をアーキテクチャする前に必要な重要な情報
  • データ量、速度、多様性、信頼性の計算方法
  • データ成長の予測方法
  • ケーススタディ

Day-5: セッション 4: ビッグデータベンダーと製品のレビュー。Q&Aセッション:

  • アクセンチュア
  • APTEAN(旧CDCソフトウェア)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB(旧10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware(EMCの一部)

要求

  • 領域における政府のビジネス運営とデータシステムに関する基本的な知識
  • SQL/Oracleまたはリレーショナルデータベースに関する基本的な理解
  • スプレッドシートレベルの統計学の基本的な理解
 35 時間

参加者の人数


参加者1人当たりの料金

お客様の声 (1)

今後のコース

関連カテゴリー