コース概要

=====
01日目
=====
Big Data Business 犯罪情報分析のためのインテリジェンスの概要

  • 法執行機関のケーススタディ - 予測ポリシング
  • Big Data 法執行機関における採用率と、法執行機関が今後の運営をどのように調整しているか Big Data Predictive Analytics
  • 銃声センサー、監視ビデオ、ソーシャルメディアなどの新興テクノロジーソリューション
  • Big Data テクノロジーを使用して情報過負荷を軽減する
  • Big Data とレガシーデータのインターフェース
  • 予測分析におけるテクノロジーを実現するための基本的な理解
  • Data Integration & ダッシュボードの視覚化
  • 不正行為の管理
  • Business ルールと不正検出
  • 脅威の検出とプロファイリング
  • Big Data 導入の費用便益分析

Big Data の紹介

  • Big Data の主な特徴 -- 量、多様性、速度、真実性。
  • MPP (超並列処理) アーキテクチャ
  • Data Warehouses – 静的スキーマ、ゆっくりと進化するデータセット
  • MPP Database: Greenplum、Exadata、Teradata、Netezza、Vertica など。
  • Hadoop ベースド ソリューション – データセットの構造に条件はありません。
  • 典型的なパターン: HDFS、MapReduce (クランチ)、HDFS からの取得
  • Apache Spark ストリーム処理の場合
  • バッチ - 分析/非対話型に適しています
  • 容量:CEPストリーミングデータ
  • 一般的な選択肢 – CEP 製品 (例: Infostreams、Apama、MarkLogic など)
  • 本番環境の準備が整っていない – Storm/S4
  • NoSQL Databases – (列およびキー値): データ ウェアハウス/データベースの分析補助として最適

NoSQL ソリューション

  • KV ストア - キースペース、フレア、スキーマフリー、RAMCloud、Oracle NoSQL Database (OnDB)
  • KV ストア - Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
  • KV ストア (階層) - GT.m、キャッシュ
  • KV ストア (注文済み) - TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Acted
  • KV キャッシュ - Memcached、再キャッシュ、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
  • Tuple Store - Gigaspaces、Coord、Apache River
  • オブジェクト Database - ZopeDB、DB40、ショール
  • ドキュメント ストア - CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
  • ワイドカラム型ストア - BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI

データの種類: Big Data の Data Cleaning の問題の紹介

  • RDBMS – 静的な構造/スキーマ。アジャイルで探索的な環境を促進しません。
  • NoSQL – 半構造化されており、データを保存する前に正確なスキーマがなくてもデータを保存できる十分な構造
  • データクリーニングの問題

Hadoop

  • Hadoopを選択するのはどのような場合ですか?
  • 構造化 - エンタープライズ データ ウェアハウス/データベースは大量のデータを (コストをかけて) 保存できますが、構造化が必要です (アクティブな探索には適していません)。
  • 半構造化データ – 従来のソリューション (DW/DB) を使用して実行するのは困難
  • データの保管 = 多大な労力がかかり、実装後も静的なデータ
  • 汎用ハードウェアで処理されるさまざまなデータと量のデータ – HADOOP
  • Hadoop クラスターの作成に必要な汎用ハードウェア

Map Reduce /HDFS の概要

  • MapReduce – 複数のサーバーにコンピューティングを分散します
  • HDFS – コンピューティング プロセスでデータをローカルで利用できるようにします (冗長性あり)
  • データ – 非構造化/スキーマレスの可能性があります (RDBMS とは異なります)
  • データを理解する開発者の責任
  • Programming MapReduce = Java (長所/短所) と連携し、手動でデータを HDFS にロードします

=====
02日目
=====
Big Data エコシステム -- 構築 Big Data ETL (抽出、変換、ロード) -- どの Big Data ツールをいつ使用するか?

  • Hadoop 対他の NoSQL ソリューション
  • データへのインタラクティブなランダムアクセス用
  • Hadoop 上の Hbase (列指向データベース)
  • データへのランダム アクセスだが制限が課される (最大 1 PB)
  • アドホック分析には適していませんが、ロギング、カウント、時系列には適しています
  • Sqoop - データベースから Hive または HDFS にインポート (JDBC/ODBC アクセス)
  • Flume – データ (ログ データなど) を HDFS にストリーミングします

Big Data Management システム

  • 可動部分、計算ノードの起動/失敗 :ZooKeeper - 構成/調整/ネーミング サービス用
  • 複雑なパイプライン/ワークフロー: Oozie – ワークフロー、依存関係、デイジー チェーンを管理
  • デプロイ、構成、クラスター管理、アップグレードなど (システム管理者) :Ambari
  • クラウド内: うなり声

Predictive Analytics -- 基本的なテクニックと Machine Learning に基づく Business インテリジェンス

  • Machine Learning の紹介
  • 分類手法の学習
  • ベイズ予測 -- トレーニング ファイルの準備
  • サポートベクターマシン
  • KNN p-ツリー代数と垂直マイニング
  • Neural Networks
  • Big Data 大きな変数の問題 -- ランダム フォレスト (RF)
  • Big Data 自動化の問題 – マルチモデルアンサンブル RF
  • Soft10-Mによる自動化
  • テキスト分析ツール - Treminer
  • Agile 学習
  • エージェントベースの学習
  • 分散学習
  • 予測分析用のオープンソース ツールの紹介: R、Python、Rapidminer、Mahut

Predictive Analytics エコシステムと犯罪情報分析におけるその応用

  • テクノロジーと捜査プロセス
  • 洞察分析
  • 視覚化分析
  • 構造化された予測分析
  • 非構造化予測分析
  • 脅威/詐欺スター/ベンダーのプロファイリング
  • レコメンデーションエンジン
  • パターン検出
  • ルール/シナリオの発見 - 失敗、不正、最適化
  • 根本原因の発見
  • 感情分析
  • CRM分析
  • ネットワーク分析
  • トランスクリプト、目撃者の陳述、インターネット上の会話などから洞察を得るテキスト分析。
  • テクノロジー支援によるレビュー
  • 不正行為分析
  • リアルタイム分析

=====
03日目
=====
Hadoop を超えるリアルタイムおよび Scala ブル分析

  • 一般的な分析アルゴリズムが Hadoop/HDFS で失敗する理由
  • Apache Hama- 一括同期分散コンピューティング用
  • Apache SPARK - クラスター コンピューティングとリアルタイム分析用
  • CMU Graphics Lab2 - 分散コンピューティングへのグラフベースの非同期アプローチ
  • KNN p -- ハードウェアの運用コストを削減するための Treeminer の代数ベースのアプローチ

電子情報開示とフォレンジックのためのツール

  • Big Data とレガシー データの電子情報開示 – コストとパフォーマンスの比較
  • 予測コーディングとテクノロジー支援レビュー (TAR)
  • TAR がどのようにして迅速な検出を可能にするかを理解するための vMiner のライブ デモ
  • HDFS によるインデックス作成の高速化 – データの速度
  • NLP (自然言語処理) – オープンソースの製品と技術
  • 外国語での電子情報開示 -- 外国語処理技術

Big Data Cyber Security の BI – 360 度のビューの取得、迅速なデータ収集、脅威の特定

  • セキュリティ分析の基本を理解する - 攻撃対象領域、セキュリティの構成ミス、ホストの防御
  • ネットワーク インフラストラクチャ / 大規模なデータパイプ / リアルタイム分析のための応答 ETL
  • 規範的 vs 予測 – 固定ルールベース vs メタデータからの脅威ルールの自動検出

犯罪情報分析のための異種データの収集

  • データを取得するセンサーとしてIoT(モノのインターネット)を使用する
  • 国内監視のための衛星画像の使用
  • 犯罪者特定のための監視データと画像データの使用
  • その他のデータ収集テクノロジー - ドローン、ボディカメラ、GPS タグ付けシステム、赤外線画像テクノロジー
  • 自動化されたデータ検索と、情報提供者、尋問、調査から得たデータを組み合わせる
  • Forecasting 犯罪行為

=====
04日目
=====
Fraud Analytics の Big Data による不正防止 BI

  • 不正分析の基本分類 -- ルールベースの分析と予測分析
  • 不正パターン検出のための教師あり機械学習と教師なし機械学習
  • Business ビジネス詐欺、医療請求詐欺、保険詐欺、脱税、マネーロンダリング

Social Media 分析 -- 情報の収集と分析

  • Social Media が犯罪者によって組織、採用、計画にどのように使用されるか
  • Big Data ソーシャルメディアデータを抽出するためのETL API
  • テキスト、画像、メタデータ、ビデオ
  • ソーシャルメディアフィードからの感情分析
  • ソーシャルメディアフィードのコンテキストおよび非コンテキストフィルタリング
  • Social Media 多様なソーシャルメディアを統合するダッシュボード
  • ソーシャルメディアプロフィールの自動プロファイリング
  • 各分析のライブデモは Treeminer ツールを通じて提供されます

Big Data 画像処理およびビデオフィードの分析

  • Big Data の画像ストレージ技術 -- ペタバイトを超えるデータのストレージ ソリューション
  • LTFS (リニア テープ ファイル システム) および LTO (リニア テープ オープン)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) -- 大きな画像データ用の階層型ストレージ ソリューション
  • 画像解析の基礎
  • 物体認識
  • 画像のセグメンテーション
  • モーショントラッキング
  • 3D画像再構成

Bio メトリクス、DNA、次世代識別プログラム

  • 指紋認証と顔認識を超えて
  • 音声認識、キーストローク (ユーザーの入力パターンの分析)、CODIS (結合 DNA インデックス システム)
  • DNA 照合を超えて: 法医学的な DNA 表現型検査を使用して DNA サンプルから顔を構築する

Big Data 多様なデータと表示に素早くアクセスできるダッシュボード:

  • 既存のアプリケーション プラットフォームと Big Data ダッシュボードの統合
  • 【4】管理
  • Big Data ダッシュボードのケーススタディ: Tableau および Pentaho
  • Big Data アプリを使用して、Govt で位置情報ベースのサービスをプッシュします。
  • 追跡システムと管理

=====
05日目
=====
Big Data 組織内での BI 導入を正当化する方法:

  • Big Data を実装するための ROI (Return on Investment) の定義
  • データの収集と準備にかかるアナリストの時間を節約し、生産性を向上させるケーススタディ
  • データベースのライセンスコストの削減による収益の増加
  • 位置情報ベースのサービスによる収益の増加
  • 不正防止によるコスト削減
  • Big Data の実装によるおおよその経費と収益の増加/節約を計算するための統合スプレッドシート アプローチ。

レガシー データ システムを Big Data システムに置き換えるステップごとの手順

  • Big Data 移行ロードマップ
  • Big Data システムを構築する前にどのような重要な情報が必要ですか?
  • データの量、速度、多様性、正確性を計算するさまざまな方法は何ですか
  • データの増加を見積もる方法
  • ケーススタディ

Big Data ベンダーのレビューとその製品のレビュー。

  • アクセンチュア
  • APTEAN (旧 CDC ソフトウェア)
  • Cisco システム
  • クラウドデラ
  • デル
  • EMC
  • Go株式会社オッドデータ
  • グアバス
  • 日立データシステムズ
  • ホートンワークス
  • HP
  • IBM
  • インフォマティカ
  • インテル
  • ジャスパーソフト
  • Microsoft
  • MongoDB (旧 10Gen)
  • ミューシグマ
  • ネットアップ
  • オペラソリューション
  • Oracle
  • Pentaho
  • プラットフォーラ
  • Qliktech
  • 量子
  • ラックスペース
  • 革命分析
  • Salesforce
  • SAP
  • SAS研究所
  • シセンス
  • ソフトウェアAG/テラコッタ
  • Soft10 オートメーション
  • Splunk
  • スクラル
  • スーパーマイクロ
  • Tableau ソフトウェア
  • Teradata
  • 大きな分析を考える
  • タイマークシステム
  • ツリーマイナー
  • VMware (EMC の一部)

Q/Aセッション

要求

  • 法執行プロセスおよびデータシステムに関する知識
  • SQL/Oracleまたはリレーショナルデータベースの基本的な理解
  • 統計(表計算レベル)の基本的理解
  35 時間
 

参加者の人数


開始

完了


Dates are subject to availability and take place between 10:00 and 17:00.
Open Training Courses require 5+ participants.

お客様の声 (4)

関連コース

関連カテゴリー