コース概要
Day 01
犯罪情報分析のための大規模データビジネスインテリジェンス 概要
- 法執行機関での事例研究 - 予測的警察活動
- 法執行機関におけるビッグデータ導入率と、将来的な運用をビッグデータ予測分析を中心にどのように調整しているか
- 銃声センサーや監視カメラ、ソーシャルメディアなどの新興技術ソリューション
- 情報を過多になることを防ぐためにビッグデータ技術を使用する方法
- ビッグデータと既存のデータとの連携
- 予測分析を可能にするテクノロジーの基本的な理解
- データ統合とダッシュボード可視化
- 詐欺管理
- ビジネスルールと詐欺検出
- 脅威検出とプロファイリング
- ビッグデータ実装の費用対効果分析
ビッグデータ入門
- ビッグデータの主な特性 -- 容量、多様性、速度、真実性。
- MPP(マスパラ並列処理)アーキテクチャ
- データウェアハウス – 静的なスキーマ、徐々に進化するデータセット
- MPP データベース: Greenplum, Exadata, Teradata, Netezza, Vertica など。
- Hadoop ベースのソリューション - データセットの構造に制限なし。
- 一般的なパターン : HDFS, MapReduce (crunch), HDFS から取得
- Apache Spark for stream processing
- バッチ処理 - 分析/非対話向け
- Volume : CEP ストリーミングデータ
- 一般的な選択肢 – CEP 製品 (例: Infostreams, Apama, MarkLogic など)
- まだ生産性が十分でない – Storm/S4
- NoSQL データベース - (列指向とキー値): データウェアハウス/データベースの分析補助に最適
NoSQL ソリューション
- KV ストア - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV ストア - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV ストア (階層型) - GT.m, Cache
- KV ストア (順序型) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV キャッシュ - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple ストア - Gigaspaces, Coord, Apache River
- オブジェクトデータベース - ZopeDB, DB40, Shoal
- ドキュメントストア - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- 広範なカラム型ストア - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
データの多様性: ビッグデータでのデータクリーニング問題の紹介
- RDBMS – 静的な構造/スキーマ、アジャイルや探求的環境の促進には不適。
- NoSQL – 半構造化、正確なスキーマなしでデータを保存できる十分な構造。
- データクリーニング問題
Hadoop
- いつ Hadoop を選択するか?
- STRUCTURED - エンタープライズデータウェアハウス/データベースは大量のデータを保存できる(コストがかかる)が、構造を課す(積極的な探求に適していない)。
- SEMI STRUCTURED データ – 伝統的なソリューション(DW/DB)で処理するのが難しい。
- データウェアハウスの作成 = 構築後も巨大な労力と静的。
- 多様性とボリュームのあるデータ、安価なハードウェアでの処理 – HADOOP
- Hadoop クラスターを作成するために必要な廉価な H/W
Map Reduce /HDFS の紹介
- MapReduce – 複数のサーバー上で分散コンピューティングを行う。
- HDFS – データをローカルで利用可能にし、計算プロセスのために冗長性を持つ。
- データ – 構造化されていない/スキーマレス(RDBMS と異なり)。
- 開発者の責任はデータの意味を理解すること。
- MapReduce プログラミング = Java を使用したプログラミング(長所/短所)、手動で HDFS にデータをロードする。
Day 02
ビッグデータエコシステム -- 大規模データETL (抽出、変換、読み込み) の構築 -- 使用すべきビッグデータツールとそのタイミングは?
- Hadoop と他の NoSQL ソリューションの比較
- 対話型のランダムアクセスに適したもの
- Hbase (列指向データベース) on top of Hadoop
- データへのランダムアクセスが可能だが制限がある(最大 1 PB)
- アドホック分析には不向き、ログ記録、カウント、時間系列に適している。
- Sqoop - データベースから Hive または HDFS へインポート (JDBC/ODBC アクセス)
- Flume – ストリーミングデータ(例: ログデータ)を HDFS に転送
ビッグデータ管理システム
- 部分的な構成要素、コンピュートノードの開始/失敗 : ZooKeeper - 設定/調整/ネーミングサービス
- 複雑なパイプライン/ワークフロー: Oozie – ワークフロー管理、依存関係、連続処理
- 展開、設定、クラスタ管理、アップグレードなど(システム管理者): Ambari
- クラウド : Whirr
予測分析 -- 基本的な手法と機械学習ベースのビジネスインテリジェンス
- 機械学習入門
- 分類技術の学習
- ベイジアン予測 – トレーニングファイルの準備
- サポートベクターマシン
- KNN p-Tree Algebra & 垂直マイニング
- ニューラルネットワーク
- ビッグデータの大量変数問題 – ランダムフォレスト (RF)
- ビッグデータ自動化問題 – 多重モデル集合 RF
- Soft10-M による自動化
- テキスト解析ツール - Treeminer
- アジャイル学習
- エージェントベースの学習
- 分散学習
- 予測分析用オープンソースツールの紹介 : R, Python, Rapidminer, Mahut
予測分析エコシステムと犯罪情報分析への応用
- テクノロジーと捜査プロセス
- 洞察解析
- 可視化アナリティクス
- 構造化予測アナリティクス
- 非構造化予測アナリティクス
- 脅威/詐欺者/ベンダーのプロファイリング
- レコメンデーションエンジン
- パターン検出
- ルール/シナリオ発見 – 失敗、詐欺、最適化
- 根本原因発見
- 感情分析
- CRM アナリティクス
- ネットワークアナリティクス
- テキストアナリティクス – 記録、証言、インターネット上の議論などから洞察を得る
- テクノロジー支援レビュー
- 詐欺分析
- リアルタイム解析
Day 03
Hadoop 上のリアルタイムおよびスケーラブルアナリティクス
- Hadoop/HDFS での一般的な解析アルゴリズムが失敗する理由
- Apache Hama – バルク同期分散計算用
- Apache SPARK – クラスタコンピューティングとリアルタイムアナリティクス用
- CMU Graphics Lab2 – 分散計算のためのグラフベース非同期アプローチ
- KNN p – Treeminer による代数的アプローチで操作コストを削減する方法
eDiscovery とフォレンジックス用ツール
- ビッグデータでの eDiscovery と既存データの比較 – コストとパフォーマンスの比較
- 予測コーディングとテクノロジー支援レビュー (TAR)
- vMiner のライブデモ – TAR が高速な発見を可能にする方法の理解
- HDFS を通じた高速インデキシング – データ速度
- NLP(自然言語処理) – オープンソース製品とテクニック
- 外国語での eDiscovery – 外国語処理のためのテクノロジー
サイバーセキュリティのビッグデータBI – 360度ビュー、高速なデータ収集、脅威特定
- セキュリティアナリティクスの基本的理解 – 攻撃面積、セキュリティ設定ミス、ホスト防御
- ネットワークインフラ/大規模データパイプ/リアルタイム解析用レスポンス ETL
- 処方的 vs 予測的 – 固定ルールベース vs メタデータからの自動脅威ルール発見
犯罪情報分析のための多様なデータ収集
- IOT(インターネット・オブ・シングス)をセンサーとして使用してデータを収集する。
- 衛星画像を使用した国内監視
- 監視や画像データを使用して犯罪者を特定する。
- ドローン、ボディカメラ、GPS タギングシステム、サーマルイメージング技術など他のデータ収集テクノロジー。
- インフォーマント、取調、研究から得た情報と自動化されたデータ取得の組み合わせ。
- 犯罪活動の予測。
Day 04
詐欺解析におけるビッグデータからの詐欺防止BI
- 詐欺解析の基本的な分類 – ルールベース vs 予測分析
- 監督学習 vs 非監督学習による詐欺パターン検出
- B2B 詐欺、医療請求詐欺、保険詐欺、税逃れ、マネーロンダリング
ソーシャルメディアアナリティクス – 情報収集と分析
- 犯罪者がどのようにソーシャルメディアを使用して組織化し、募集し、計画を行うか。
- ビッグデータETL API を使用したソーシャルメディアデータの抽出。
- テキスト、画像、メタデータ、ビデオ。
- ソーシャルメディアフィードからの感情分析。
- コンテクスチュアルとノンコンテクスチュアルのフィルタリング。
- 多様なソーシャルメディアを統合するダッシュボード。
- ソーシャルメディアプロファイルの自動プロファイリング。
- Treeminer ツールを使用した各分析のライブデモ。
ビッグデータでの画像処理とビデオフィードのアナリティクス
- ビッグデータでの画像保存手法 – ペタバイトを超えるデータの保存ソリューション。
- LTFS(Linear Tape File System)と LTO(Linear Tape Open)。
- GPFS-LTFS(General Parallel File System - Linear Tape File System)– 大量の画像データ用の層状ストレージソリューション。
- 画像アナリティクスの基礎。
- オブジェクト認識。
- 画像セグメンテーション。
- 動作追跡。
- 3-D 画像再構成。
バイオメトリックス、DNA、次世代識別プログラム
- 指紋認証と顔認識を超えて。
- 音声認識、キーストローク(ユーザのタイピングパターンを分析)、CODIS(統合DNAインデックスシステム)。
- DNAマッチングを超えて: DNAサンプルから顔を作成するための法医学的DNAフェノタイプを使用。
多様なデータへの素早いアクセスと表示のためのビッグデータダッシュボード:
- 既存アプリケーションプラットフォームとビッグデータダッシュボードの統合。
- ビッグデータ管理。
- Tableau と Pentaho のビッグデータダッシュボード事例研究。
- 政府向けロケーションベースサービスを提供するためのビッグデータアプリの使用。
- 追跡システムと管理。
Day 05
組織内でビッグデータBI実装を正当化する方法:
- ビッグデータ実装の ROI(投資収益率)の定義。
- データ収集と準備にかかる時間の短縮 – 生産性向上のための事例研究。
- データベースライセンスコスト削減による収益増加。
- ロケーションベースサービスからの収益増加。
- 詐欺防止によるコスト削減。
- ビッグデータ実装にかかる費用と収益/節約の概算を計算するための一括表形式アプローチ。
既存のデータシステムをビッグデータシステムで置き換える手順:
- ビッグデータ移行ロードマップ
- ビッグデータシステムの設計前に必要な重要な情報は何か?
- ボリューム、速度、多様性、真実性を計算するための異なる方法。
- データ成長を見積もる方法。
- 事例研究
ビッグデータベンダーと製品のレビュー。
- Accenture
- APTEAN (Formerly CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Formerly 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Part of EMC)
Q&A セッション
要求
- 法執行プロセスとデータシステムに関する知識
- SQL/Oracle やリレーショナルデータベースに関する基本的な理解
- 統計学(スプレッドシートレベル)の基本的な理解
対象者
- 技術的背景を持つ法執行専門家
お客様の声 (3)
難易度の高いトピックをシンプルでユーザーに優しい方法で提示
Marcin - GE Medical Systems Polska Sp. z o.o.
コース - Introduction to Predictive AI
機械翻訳
ディープシーは私のニーズに非常に敏感で、複雑さを追加するタイミングと、より構造化されたアプローチを取るタイミングを見極めることができました。 ディープシーは本当に私のペースに合わせて働き、新しい機能やツールの使い方をまず見せてから自分で再現させてくれたことで、訓練が確実に身につきました。この訓練の結果とディープシーの専門知識には非常に満足しています!
Deepthi - Invest Northern Ireland
コース - IBM Cognos Analytics
機械翻訳
非常に明確に表現され、説明されています
Harshit Arora - PwC South East Asia Consulting
コース - Alteryx for Developers
機械翻訳