コース概要

各セッションは2時間です

1 日目: セッション -1: Business 理由の概要 Big Data Business Govt のインテリジェンス。

  • NIH、DoE のケーススタディ
  • Big Data Govt の適応率。代理店と、今後の運営をどのように調整しているか Big Data Predictive Analytics
  • DoD、NSA、IRS、USDA などの広範な応用分野
  • Big Data とレガシーデータのインターフェース
  • 予測分析におけるテクノロジーを実現するための基本的な理解
  • Data Integration & ダッシュボードの視覚化
  • 不正行為の管理
  • Business ルール/不正検出生成
  • 脅威の検出とプロファイリング
  • Big Data実装の費用便益分析

Day-1: Session-2 : Big Data-1の紹介

  • Big Data の主な特徴は、量、多様性、速度、真実さです。ボリューム用の MPP アーキテクチャ。
  • Data Warehouses – 静的スキーマ、ゆっくりと進化するデータセット
  • MPP Database は、Greenplum、Exadata、Teradata、Netezza、Vertica などです。
  • Hadoop ベースド ソリューション – データセットの構造に条件はありません。
  • 典型的なパターン: HDFS、MapReduce (クランチ)、HDFS からの取得
  • バッチ - 分析/非対話型に適しています
  • 容量:CEPストリーミングデータ
  • 一般的な選択肢 – CEP 製品 (例: Infostreams、Apama、MarkLogic など)
  • 本番環境の準備が整っていない – Storm/S4
  • NoSQL Databases – (列およびキー値): データ ウェアハウス/データベースの分析補助として最適

Day-1 : セッション -3 : Big Data-2 の紹介

NoSQL ソリューション

  • KV ストア - キースペース、フレア、スキーマフリー、RAMCloud、Oracle NoSQL Database (OnDB)
  • KV ストア - Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
  • KV ストア (階層) - GT.m、キャッシュ
  • KV ストア (注文済み) - TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Acted
  • KV キャッシュ - Memcached、再キャッシュ、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
  • Tuple Store - Gigaspaces、Coord、Apache River
  • オブジェクト Database - ZopeDB、DB40、ショール
  • ドキュメント ストア - CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
  • ワイドカラム型ストア - BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI

データの種類: Big Data の Data Cleaning 問題の紹介

  • RDBMS – 静的な構造/スキーマ。アジャイルで探索的な環境を促進しません。
  • NoSQL – 半構造化されており、データを保存する前に正確なスキーマがなくてもデータを保存できる十分な構造
  • データクリーニングの問題

Day-1 : セッション-4 : Big Data イントロダクション-3 : Hadoop

  • Hadoopを選択するのはどのような場合ですか?
  • 構造化 - エンタープライズ データ ウェアハウス/データベースは大量のデータを (コストをかけて) 保存できますが、構造化が必要です (アクティブな探索には適していません)。
  • 半構造化データ – 従来のソリューション (DW/DB) では困難
  • データの保管 = 多大な労力がかかり、実装後も静的なデータ
  • 汎用ハードウェアで処理されるさまざまなデータと量のデータ – HADOOP
  • Hadoop クラスターの作成に必要な汎用ハードウェア

Map Reduce /HDFS の概要

  • MapReduce – 複数のサーバーにコンピューティングを分散します
  • HDFS – コンピューティング プロセスでデータをローカルで利用できるようにします (冗長性あり)
  • データ – 非構造化/スキーマレスの可能性があります (RDBMS とは異なります)
  • データを理解する開発者の責任
  • Programming MapReduce = Java (長所/短所) と連携し、手動でデータを HDFS にロードします

2 日目: セッション 1: Big Data エコシステム構築 Big Data ETL: Big Data ツールの世界 - いつ、どれを使用するか?

  • Hadoop 対他の NoSQL ソリューション
  • データへのインタラクティブなランダムアクセス用
  • Hadoop の上にある Hbase (列指向データベース)
  • データへのランダム アクセスだが制限が課される (最大 1 PB)
  • アドホック分析には適していませんが、ロギング、カウント、時系列には適しています
  • Sqoop - データベースから Hive または HDFS にインポート (JDBC/ODBC アクセス)
  • Flume – データ (ログ データなど) を HDFS にストリーミングします

2日目: セッション2: Big Data Management システム

  • 可動部分、計算ノードの起動/失敗 :ZooKeeper - 構成/調整/ネーミング サービス用
  • 複雑なパイプライン/ワークフロー: Oozie – ワークフロー、依存関係、デイジー チェーンを管理
  • デプロイ、構成、クラスター管理、アップグレードなど (システム管理者) :Ambari
  • クラウド内: うなり声

2 日目: セッション 3: Business インテリジェンスにおける予測分析 -1: 基本的なテクニックと機械学習ベースの BI :

  • 機械学習の概要
  • 分類手法の学習
  • ベイジアン予測作成トレーニング ファイル
  • サポートベクターマシン
  • KNN p-ツリー代数と垂直マイニング
  • ニューラルネットワーク
  • Big Data 大変数問題 - ランダムフォレスト(RF)
  • Big Data 自動化の問題 – マルチモデルアンサンブル RF
  • Soft10-Mによる自動化
  • テキスト分析ツール - Treminer
  • Agile 学習
  • エージェントベースの学習
  • 分散学習
  • 予測分析用のオープンソース ツールの紹介: R、Rapidminer、Mahut

2 日目: セッション 4 予測分析エコシステム 2: Go vt の一般的な予測分析の問題。

  • 洞察分析
  • 視覚化分析
  • 構造化された予測分析
  • 非構造化予測分析
  • 脅威/詐欺スター/ベンダーのプロファイリング
  • レコメンデーションエンジン
  • パターン検出
  • ルール/シナリオの発見 - 失敗、不正、最適化
  • 根本原因の発見
  • 感情分析
  • CRM分析
  • ネットワーク分析
  • テキスト分析
  • テクノロジー支援によるレビュー
  • 不正行為分析
  • リアルタイム分析

3 日目 : セッション 1 :リアルタイムおよび Scala ブル分析オーバー Hadoop

  • 一般的な分析アルゴリズムが Hadoop/HDFS で失敗する理由
  • Apache Hama- 一括同期分散コンピューティング用
  • Apache SPARK - リアルタイム分析のためのクラスター コンピューティング用
  • CMU Graphics Lab2 - 分散コンピューティングへのグラフベースの非同期アプローチ
  • ハードウェアの運用コストを削減するための Treeminer の KNN p-代数ベースのアプローチ

3 日目: セッション 2 :電子情報開示とフォレンジックのためのツール

  • 電子情報開示 Big Data とレガシー データの比較 – コストとパフォーマンスの比較
  • 予測コーディングとテクノロジー支援レビュー (TAR)
  • Tar 製品 (vMiner) のライブ デモ。TAR がどのように機能して迅速な検出を実現するかを理解します。
  • HDFS による高速インデックス作成 - データの速度
  • NLP または自然言語処理 - さまざまな技術とオープンソース製品
  • 外国語における電子情報開示 - 外国語処理技術

3 日目: セッション 3: Big Data Cyber Security の BI –迅速なデータ収集から脅威の特定までの 360 度全体像を理解する

  • セキュリティ分析の基本を理解する - 攻撃対象領域、セキュリティの誤った構成、ホストの防御
  • ネットワーク インフラストラクチャ/大規模データパイプ/リアルタイム分析のための応答 ETL
  • 規範的 vs 予測 – 固定ルールベース vs メタデータからの脅威ルールの自動検出

3 日目: セッション 4: USDA の Big Data : 農業への応用

  • 農業センサーベース Big Data と制御のための IoT (モノのインターネット) の紹介
  • 衛星画像処理と農業への応用の紹介
  • センサーと画像データを統合して土壌の肥沃度、栽培の推奨と予測を実現
  • 農業保険とBig Data
  • 作物の損失の予測

4 日目: セッション 1: Govt-Fraud 分析の Big Data による不正防止 BI:

  • 不正分析の基本分類 - ルールベース分析と予測分析
  • 不正パターン検出のための教師あり機械学習と教師なし機械学習
  • ベンダー詐欺/プロジェクトの過剰請求
  • メディケアおよびメディケイドの不正 - 請求処理のための不正検出技術
  • 旅行代金詐欺
  • IRSの還付詐欺
  • データが入手可能な場合は、ケーススタディとライブデモが提供されます。

4 日目 : セッション 2: Social Media 分析 - 情報の収集と分析

  • Big Data ソーシャルメディアデータを抽出するためのETL API
  • テキスト、画像、メタデータ、ビデオ
  • ソーシャルメディアフィードからの感情分析
  • ソーシャルメディアフィードのコンテキストおよび非コンテキストフィルタリング
  • Social Media 多様なソーシャルメディアを統合するダッシュボード
  • ソーシャルメディアプロフィールの自動プロファイリング
  • 各分析のライブ デモは、Treeminer ツールを通じて提供されます。

Day-4 : Session-3: Big Data 画像処理とビデオフィードの分析

  • Big Data の画像ストレージ技術 - ペタバイトを超えるデータのストレージ ソリューション
  • LTFS と LTO
  • GPFS-LTFS (ビッグ画像データ向けの階層化ストレージ ソリューション)
  • 画像解析の基礎
  • 物体認識
  • 画像のセグメンテーション
  • モーショントラッキング
  • 3D画像再構成

4 日目: セッション 4: NIH での Big Data 件のアプリケーション:

  • Bio-情報学の新興分野
  • メタゲノミクスと Big Data マイニングの問題
  • Big Data 薬理ゲノミクス、メタボロミクス、プロテオミクスの予測分析
  • Big Data 下流のゲノミクスプロセス
  • 公衆衛生におけるビッグデータ予測分析の応用

Big Data 多様なデータと表示に素早くアクセスできるダッシュボード:

  • 既存のアプリケーション プラットフォームと Big Data ダッシュボードの統合
  • Big Data管理
  • Big Data ダッシュボードのケーススタディ: Tableau および Pentaho
  • Big Data アプリを使用して、Govt で位置情報ベースのサービスをプッシュします。
  • 追跡システムと管理

Day-5 : セッション-1: Big Data 組織内での BI 導入を正当化する方法:

  • Big Data 実装の ROI の定義
  • アナリストのデータ収集と準備にかかる時間を節約するためのケーススタディ – 生産性の向上
  • ライセンスされたデータベースのコスト削減による収益増加のケーススタディ
  • 位置情報ベースのサービスによる収益の増加
  • 詐欺防止による節約
  • 統合されたスプレッドシート アプローチにより、およその値を計算します。 Big Data の実装による経費と収益の増加/節約。

5 日目: セッション 2: レガシー データ システムを Big Data システムに置き換えるステップバイステップ手順:

  • 実践的な Big Data 移行ロードマップを理解する
  • Big Data 実装を設計する前に必要な重要な情報は何ですか?
  • データの量、速度、多様性、真実性を計算するさまざまな方法は何ですか
  • データの増加を見積もる方法
  • ケーススタディ

5 日目: セッション 4: Big Data ベンダーのレビューとその製品のレビュー。 Q/Aセッション:

  • アクセンチュア
  • APTEAN (旧 CDC ソフトウェア)
  • Cisco システム
  • クラウドデラ
  • デル
  • EMC
  • Go株式会社オッドデータ
  • グアバス
  • 日立データシステムズ
  • ホートンワークス
  • HP
  • IBM
  • インフォマティカ
  • インテル
  • ジャスパーソフト
  • Microsoft
  • MongoDB (旧 10Gen)
  • ミューシグマ
  • ネットアップ
  • オペラソリューション
  • Oracle
  • Pentaho
  • プラットフォーラ
  • Qliktech
  • 量子
  • ラックスペース
  • 革命分析
  • Salesforce
  • SAP
  • SAS研究所
  • シセンス
  • ソフトウェアAG/テラコッタ
  • Soft10 オートメーション
  • Splunk
  • スクラル
  • スーパーマイクロ
  • Tableau ソフトウェア
  • Teradata
  • 大きな分析を考える
  • タイマークシステム
  • ツリーマイナー
  • VMware (EMC の一部)

要求

  • 政府における業務運営やデータシステムに関する基本的な知識をお持ちの方
  • 政府における業務運営やデータシステムに関する基本的な知識をお持ちの方
  • SQL/Oracleまたはリレーショナルデータベースの基本的な理解
  • Statistics(スプレッドシートレベル)の基本的な理解
  35 時間
 

参加者の人数


開始

完了


Dates are subject to availability and take place between 10:00 and 17:00.
Open Training Courses require 5+ participants.

お客様の声 (4)

関連コース

関連カテゴリー