コース概要

Day 01

犯罪情報分析のための大規模データビジネスインテリジェンス 概要

  • 法執行機関での事例研究 - 予測的警察活動
  • 法執行機関におけるビッグデータ導入率と、将来的な運用をビッグデータ予測分析を中心にどのように調整しているか
  • 銃声センサーや監視カメラ、ソーシャルメディアなどの新興技術ソリューション
  • 情報を過多になることを防ぐためにビッグデータ技術を使用する方法
  • ビッグデータと既存のデータとの連携
  • 予測分析を可能にするテクノロジーの基本的な理解
  • データ統合とダッシュボード可視化
  • 詐欺管理
  • ビジネスルールと詐欺検出
  • 脅威検出とプロファイリング
  • ビッグデータ実装の費用対効果分析

ビッグデータ入門

  • ビッグデータの主な特性 -- 容量、多様性、速度、真実性。
  • MPP(マスパラ並列処理)アーキテクチャ
  • データウェアハウス – 静的なスキーマ、徐々に進化するデータセット
  • MPP データベース: Greenplum, Exadata, Teradata, Netezza, Vertica など。
  • Hadoop ベースのソリューション - データセットの構造に制限なし。
  • 一般的なパターン : HDFS, MapReduce (crunch), HDFS から取得
  • Apache Spark for stream processing
  • バッチ処理 - 分析/非対話向け
  • Volume : CEP ストリーミングデータ
  • 一般的な選択肢 – CEP 製品 (例: Infostreams, Apama, MarkLogic など)
  • まだ生産性が十分でない – Storm/S4
  • NoSQL データベース - (列指向とキー値): データウェアハウス/データベースの分析補助に最適

NoSQL ソリューション

  • KV ストア - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV ストア - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV ストア (階層型) - GT.m, Cache
  • KV ストア (順序型) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV キャッシュ - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple ストア - Gigaspaces, Coord, Apache River
  • オブジェクトデータベース - ZopeDB, DB40, Shoal
  • ドキュメントストア - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • 広範なカラム型ストア - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

データの多様性: ビッグデータでのデータクリーニング問題の紹介

  • RDBMS – 静的な構造/スキーマ、アジャイルや探求的環境の促進には不適。
  • NoSQL – 半構造化、正確なスキーマなしでデータを保存できる十分な構造。
  • データクリーニング問題

Hadoop

  • いつ Hadoop を選択するか?
  • STRUCTURED - エンタープライズデータウェアハウス/データベースは大量のデータを保存できる(コストがかかる)が、構造を課す(積極的な探求に適していない)。
  • SEMI STRUCTURED データ – 伝統的なソリューション(DW/DB)で処理するのが難しい。
  • データウェアハウスの作成 = 構築後も巨大な労力と静的。
  • 多様性とボリュームのあるデータ、安価なハードウェアでの処理 – HADOOP
  • Hadoop クラスターを作成するために必要な廉価な H/W

Map Reduce /HDFS の紹介

  • MapReduce – 複数のサーバー上で分散コンピューティングを行う。
  • HDFS – データをローカルで利用可能にし、計算プロセスのために冗長性を持つ。
  • データ – 構造化されていない/スキーマレス(RDBMS と異なり)。
  • 開発者の責任はデータの意味を理解すること。
  • MapReduce プログラミング = Java を使用したプログラミング(長所/短所)、手動で HDFS にデータをロードする。

Day 02

ビッグデータエコシステム -- 大規模データETL (抽出、変換、読み込み) の構築 -- 使用すべきビッグデータツールとそのタイミングは?

  • Hadoop と他の NoSQL ソリューションの比較
  • 対話型のランダムアクセスに適したもの
  • Hbase (列指向データベース) on top of Hadoop
  • データへのランダムアクセスが可能だが制限がある(最大 1 PB)
  • アドホック分析には不向き、ログ記録、カウント、時間系列に適している。
  • Sqoop - データベースから Hive または HDFS へインポート (JDBC/ODBC アクセス)
  • Flume – ストリーミングデータ(例: ログデータ)を HDFS に転送

ビッグデータ管理システム

  • 部分的な構成要素、コンピュートノードの開始/失敗 : ZooKeeper - 設定/調整/ネーミングサービス
  • 複雑なパイプライン/ワークフロー: Oozie – ワークフロー管理、依存関係、連続処理
  • 展開、設定、クラスタ管理、アップグレードなど(システム管理者): Ambari
  • クラウド : Whirr

予測分析 -- 基本的な手法と機械学習ベースのビジネスインテリジェンス

  • 機械学習入門
  • 分類技術の学習
  • ベイジアン予測 – トレーニングファイルの準備
  • サポートベクターマシン
  • KNN p-Tree Algebra & 垂直マイニング
  • ニューラルネットワーク
  • ビッグデータの大量変数問題 – ランダムフォレスト (RF)
  • ビッグデータ自動化問題 – 多重モデル集合 RF
  • Soft10-M による自動化
  • テキスト解析ツール - Treeminer
  • アジャイル学習
  • エージェントベースの学習
  • 分散学習
  • 予測分析用オープンソースツールの紹介 : R, Python, Rapidminer, Mahut

予測分析エコシステムと犯罪情報分析への応用

  • テクノロジーと捜査プロセス
  • 洞察解析
  • 可視化アナリティクス
  • 構造化予測アナリティクス
  • 非構造化予測アナリティクス
  • 脅威/詐欺者/ベンダーのプロファイリング
  • レコメンデーションエンジン
  • パターン検出
  • ルール/シナリオ発見 – 失敗、詐欺、最適化
  • 根本原因発見
  • 感情分析
  • CRM アナリティクス
  • ネットワークアナリティクス
  • テキストアナリティクス – 記録、証言、インターネット上の議論などから洞察を得る
  • テクノロジー支援レビュー
  • 詐欺分析
  • リアルタイム解析

Day 03

Hadoop 上のリアルタイムおよびスケーラブルアナリティクス

  • Hadoop/HDFS での一般的な解析アルゴリズムが失敗する理由
  • Apache Hama – バルク同期分散計算用
  • Apache SPARK – クラスタコンピューティングとリアルタイムアナリティクス用
  • CMU Graphics Lab2 – 分散計算のためのグラフベース非同期アプローチ
  • KNN p – Treeminer による代数的アプローチで操作コストを削減する方法

eDiscovery とフォレンジックス用ツール

  • ビッグデータでの eDiscovery と既存データの比較 – コストとパフォーマンスの比較
  • 予測コーディングとテクノロジー支援レビュー (TAR)
  • vMiner のライブデモ – TAR が高速な発見を可能にする方法の理解
  • HDFS を通じた高速インデキシング – データ速度
  • NLP(自然言語処理) – オープンソース製品とテクニック
  • 外国語での eDiscovery – 外国語処理のためのテクノロジー

サイバーセキュリティのビッグデータBI – 360度ビュー、高速なデータ収集、脅威特定

  • セキュリティアナリティクスの基本的理解 – 攻撃面積、セキュリティ設定ミス、ホスト防御
  • ネットワークインフラ/大規模データパイプ/リアルタイム解析用レスポンス ETL
  • 処方的 vs 予測的 – 固定ルールベース vs メタデータからの自動脅威ルール発見

犯罪情報分析のための多様なデータ収集

  • IOT(インターネット・オブ・シングス)をセンサーとして使用してデータを収集する。
  • 衛星画像を使用した国内監視
  • 監視や画像データを使用して犯罪者を特定する。
  • ドローン、ボディカメラ、GPS タギングシステム、サーマルイメージング技術など他のデータ収集テクノロジー。
  • インフォーマント、取調、研究から得た情報と自動化されたデータ取得の組み合わせ。
  • 犯罪活動の予測。

Day 04

詐欺解析におけるビッグデータからの詐欺防止BI

  • 詐欺解析の基本的な分類 – ルールベース vs 予測分析
  • 監督学習 vs 非監督学習による詐欺パターン検出
  • B2B 詐欺、医療請求詐欺、保険詐欺、税逃れ、マネーロンダリング

ソーシャルメディアアナリティクス – 情報収集と分析

  • 犯罪者がどのようにソーシャルメディアを使用して組織化し、募集し、計画を行うか。
  • ビッグデータETL API を使用したソーシャルメディアデータの抽出。
  • テキスト、画像、メタデータ、ビデオ。
  • ソーシャルメディアフィードからの感情分析。
  • コンテクスチュアルとノンコンテクスチュアルのフィルタリング。
  • 多様なソーシャルメディアを統合するダッシュボード。
  • ソーシャルメディアプロファイルの自動プロファイリング。
  • Treeminer ツールを使用した各分析のライブデモ。

ビッグデータでの画像処理とビデオフィードのアナリティクス

  • ビッグデータでの画像保存手法 – ペタバイトを超えるデータの保存ソリューション。
  • LTFS(Linear Tape File System)と LTO(Linear Tape Open)。
  • GPFS-LTFS(General Parallel File System - Linear Tape File System)– 大量の画像データ用の層状ストレージソリューション。
  • 画像アナリティクスの基礎。
  • オブジェクト認識。
  • 画像セグメンテーション。
  • 動作追跡。
  • 3-D 画像再構成。

バイオメトリックス、DNA、次世代識別プログラム

  • 指紋認証と顔認識を超えて。
  • 音声認識、キーストローク(ユーザのタイピングパターンを分析)、CODIS(統合DNAインデックスシステム)。
  • DNAマッチングを超えて: DNAサンプルから顔を作成するための法医学的DNAフェノタイプを使用。

多様なデータへの素早いアクセスと表示のためのビッグデータダッシュボード:

  • 既存アプリケーションプラットフォームとビッグデータダッシュボードの統合。
  • ビッグデータ管理。
  • Tableau と Pentaho のビッグデータダッシュボード事例研究。
  • 政府向けロケーションベースサービスを提供するためのビッグデータアプリの使用。
  • 追跡システムと管理。

Day 05

組織内でビッグデータBI実装を正当化する方法:

  • ビッグデータ実装の ROI(投資収益率)の定義。
  • データ収集と準備にかかる時間の短縮 – 生産性向上のための事例研究。
  • データベースライセンスコスト削減による収益増加。
  • ロケーションベースサービスからの収益増加。
  • 詐欺防止によるコスト削減。
  • ビッグデータ実装にかかる費用と収益/節約の概算を計算するための一括表形式アプローチ。

既存のデータシステムをビッグデータシステムで置き換える手順:

  • ビッグデータ移行ロードマップ
  • ビッグデータシステムの設計前に必要な重要な情報は何か?
  • ボリューム、速度、多様性、真実性を計算するための異なる方法。
  • データ成長を見積もる方法。
  • 事例研究

ビッグデータベンダーと製品のレビュー。

  • Accenture
  • APTEAN (Formerly CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Formerly 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Part of EMC)

Q&A セッション

要求

  • 法執行プロセスとデータシステムに関する知識
  • SQL/Oracle やリレーショナルデータベースに関する基本的な理解
  • 統計学(スプレッドシートレベル)の基本的な理解

対象者

  • 技術的背景を持つ法執行専門家
 35 時間

参加者の人数


参加者1人あたりの価格

お客様の声 (3)

今後のコース

関連カテゴリー