コース概要
=====
01日目
=====
Big Data Business 犯罪情報分析のためのインテリジェンスの概要
- 法執行機関のケーススタディ - 予測ポリシング
- Big Data 法執行機関における採用率と、法執行機関が今後の運営をどのように調整しているか Big Data Predictive Analytics
- 銃声センサー、監視ビデオ、ソーシャルメディアなどの新興テクノロジーソリューション
- Big Data テクノロジーを使用して情報過負荷を軽減する
- Big Data とレガシーデータのインターフェース
- 予測分析におけるテクノロジーを実現するための基本的な理解
- Data Integration & ダッシュボードの視覚化
- 不正行為の管理
- Business ルールと不正検出
- 脅威の検出とプロファイリング
- Big Data 導入の費用便益分析
Big Data の紹介
- Big Data の主な特徴 -- 量、多様性、速度、真実性。
- MPP (超並列処理) アーキテクチャ
- Data Warehouses – 静的スキーマ、ゆっくりと進化するデータセット
- MPP Database: Greenplum、Exadata、Teradata、Netezza、Vertica など。
- Hadoop ベースド ソリューション – データセットの構造に条件はありません。
- 典型的なパターン: HDFS、MapReduce (クランチ)、HDFS からの取得
- Apache Spark ストリーム処理の場合
- バッチ - 分析/非対話型に適しています
- 容量:CEPストリーミングデータ
- 一般的な選択肢 – CEP 製品 (例: Infostreams、Apama、MarkLogic など)
- 本番環境の準備が整っていない – Storm/S4
- NoSQL Databases – (列およびキー値): データ ウェアハウス/データベースの分析補助として最適
NoSQL ソリューション
- KV ストア - キースペース、フレア、スキーマフリー、RAMCloud、Oracle NoSQL Database (OnDB)
- KV ストア - Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
- KV ストア (階層) - GT.m、キャッシュ
- KV ストア (注文済み) - TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Acted
- KV キャッシュ - Memcached、再キャッシュ、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
- Tuple Store - Gigaspaces、Coord、Apache River
- オブジェクト Database - ZopeDB、DB40、ショール
- ドキュメント ストア - CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
- ワイドカラム型ストア - BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI
データの種類: Big Data の Data Cleaning の問題の紹介
- RDBMS – 静的な構造/スキーマ。アジャイルで探索的な環境を促進しません。
- NoSQL – 半構造化されており、データを保存する前に正確なスキーマがなくてもデータを保存できる十分な構造
- データクリーニングの問題
Hadoop
- Hadoopを選択するのはどのような場合ですか?
- 構造化 - エンタープライズ データ ウェアハウス/データベースは大量のデータを (コストをかけて) 保存できますが、構造化が必要です (アクティブな探索には適していません)。
- 半構造化データ – 従来のソリューション (DW/DB) を使用して実行するのは困難
- データの保管 = 多大な労力がかかり、実装後も静的なデータ
- 汎用ハードウェアで処理されるさまざまなデータと量のデータ – HADOOP
- Hadoop クラスターの作成に必要な汎用ハードウェア
Map Reduce /HDFS の概要
- MapReduce – 複数のサーバーにコンピューティングを分散します
- HDFS – コンピューティング プロセスでデータをローカルで利用できるようにします (冗長性あり)
- データ – 非構造化/スキーマレスの可能性があります (RDBMS とは異なります)
- データを理解する開発者の責任
- Programming MapReduce = Java (長所/短所) と連携し、手動でデータを HDFS にロードします
=====
02日目
=====
Big Data エコシステム -- 構築 Big Data ETL (抽出、変換、ロード) -- どの Big Data ツールをいつ使用するか?
- Hadoop 対他の NoSQL ソリューション
- データへのインタラクティブなランダムアクセス用
- Hadoop 上の Hbase (列指向データベース)
- データへのランダム アクセスだが制限が課される (最大 1 PB)
- アドホック分析には適していませんが、ロギング、カウント、時系列には適しています
- Sqoop - データベースから Hive または HDFS にインポート (JDBC/ODBC アクセス)
- Flume – データ (ログ データなど) を HDFS にストリーミングします
Big Data Management システム
- 可動部分、計算ノードの起動/失敗 :ZooKeeper - 構成/調整/ネーミング サービス用
- 複雑なパイプライン/ワークフロー: Oozie – ワークフロー、依存関係、デイジー チェーンを管理
- デプロイ、構成、クラスター管理、アップグレードなど (システム管理者) :Ambari
- クラウド内: うなり声
Predictive Analytics -- 基本的なテクニックと Machine Learning に基づく Business インテリジェンス
- Machine Learning の紹介
- 分類手法の学習
- ベイズ予測 -- トレーニング ファイルの準備
- サポートベクターマシン
- KNN p-ツリー代数と垂直マイニング
- Neural Networks
- Big Data 大きな変数の問題 -- ランダム フォレスト (RF)
- Big Data 自動化の問題 – マルチモデルアンサンブル RF
- Soft10-Mによる自動化
- テキスト分析ツール - Treminer
- Agile 学習
- エージェントベースの学習
- 分散学習
- 予測分析用のオープンソース ツールの紹介: R、Python、Rapidminer、Mahut
Predictive Analytics エコシステムと犯罪情報分析におけるその応用
- テクノロジーと捜査プロセス
- 洞察分析
- 視覚化分析
- 構造化された予測分析
- 非構造化予測分析
- 脅威/詐欺スター/ベンダーのプロファイリング
- レコメンデーションエンジン
- パターン検出
- ルール/シナリオの発見 - 失敗、不正、最適化
- 根本原因の発見
- 感情分析
- CRM分析
- ネットワーク分析
- トランスクリプト、目撃者の陳述、インターネット上の会話などから洞察を得るテキスト分析。
- テクノロジー支援によるレビュー
- 不正行為分析
- リアルタイム分析
=====
03日目
=====
Hadoop を超えるリアルタイムおよび Scala ブル分析
- 一般的な分析アルゴリズムが Hadoop/HDFS で失敗する理由
- Apache Hama- 一括同期分散コンピューティング用
- Apache SPARK - クラスター コンピューティングとリアルタイム分析用
- CMU Graphics Lab2 - 分散コンピューティングへのグラフベースの非同期アプローチ
- KNN p -- ハードウェアの運用コストを削減するための Treeminer の代数ベースのアプローチ
電子情報開示とフォレンジックのためのツール
- Big Data とレガシー データの電子情報開示 – コストとパフォーマンスの比較
- 予測コーディングとテクノロジー支援レビュー (TAR)
- TAR がどのようにして迅速な検出を可能にするかを理解するための vMiner のライブ デモ
- HDFS によるインデックス作成の高速化 – データの速度
- NLP (自然言語処理) – オープンソースの製品と技術
- 外国語での電子情報開示 -- 外国語処理技術
Big Data Cyber Security の BI – 360 度のビューの取得、迅速なデータ収集、脅威の特定
- セキュリティ分析の基本を理解する - 攻撃対象領域、セキュリティの構成ミス、ホストの防御
- ネットワーク インフラストラクチャ / 大規模なデータパイプ / リアルタイム分析のための応答 ETL
- 規範的 vs 予測 – 固定ルールベース vs メタデータからの脅威ルールの自動検出
犯罪情報分析のための異種データの収集
- データを取得するセンサーとしてIoT(モノのインターネット)を使用する
- 国内監視のための衛星画像の使用
- 犯罪者特定のための監視データと画像データの使用
- その他のデータ収集テクノロジー - ドローン、ボディカメラ、GPS タグ付けシステム、赤外線画像テクノロジー
- 自動化されたデータ検索と、情報提供者、尋問、調査から得たデータを組み合わせる
- Forecasting 犯罪行為
=====
04日目
=====
Fraud Analytics の Big Data による不正防止 BI
- 不正分析の基本分類 -- ルールベースの分析と予測分析
- 不正パターン検出のための教師あり機械学習と教師なし機械学習
- Business ビジネス詐欺、医療請求詐欺、保険詐欺、脱税、マネーロンダリング
Social Media 分析 -- 情報の収集と分析
- Social Media が犯罪者によって組織、採用、計画にどのように使用されるか
- Big Data ソーシャルメディアデータを抽出するためのETL API
- テキスト、画像、メタデータ、ビデオ
- ソーシャルメディアフィードからの感情分析
- ソーシャルメディアフィードのコンテキストおよび非コンテキストフィルタリング
- Social Media 多様なソーシャルメディアを統合するダッシュボード
- ソーシャルメディアプロフィールの自動プロファイリング
- 各分析のライブデモは Treeminer ツールを通じて提供されます
Big Data 画像処理およびビデオフィードの分析
- Big Data の画像ストレージ技術 -- ペタバイトを超えるデータのストレージ ソリューション
- LTFS (リニア テープ ファイル システム) および LTO (リニア テープ オープン)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) -- 大きな画像データ用の階層型ストレージ ソリューション
- 画像解析の基礎
- 物体認識
- 画像のセグメンテーション
- モーショントラッキング
- 3D画像再構成
Bio メトリクス、DNA、次世代識別プログラム
- 指紋認証と顔認識を超えて
- 音声認識、キーストローク (ユーザーの入力パターンの分析)、CODIS (結合 DNA インデックス システム)
- DNA 照合を超えて: 法医学的な DNA 表現型検査を使用して DNA サンプルから顔を構築する
Big Data 多様なデータと表示に素早くアクセスできるダッシュボード:
- 既存のアプリケーション プラットフォームと Big Data ダッシュボードの統合
- 【4】管理
- Big Data ダッシュボードのケーススタディ: Tableau および Pentaho
- Big Data アプリを使用して、Govt で位置情報ベースのサービスをプッシュします。
- 追跡システムと管理
=====
05日目
=====
Big Data 組織内での BI 導入を正当化する方法:
- Big Data を実装するための ROI (Return on Investment) の定義
- データの収集と準備にかかるアナリストの時間を節約し、生産性を向上させるケーススタディ
- データベースのライセンスコストの削減による収益の増加
- 位置情報ベースのサービスによる収益の増加
- 不正防止によるコスト削減
- Big Data の実装によるおおよその経費と収益の増加/節約を計算するための統合スプレッドシート アプローチ。
レガシー データ システムを Big Data システムに置き換えるステップごとの手順
- Big Data 移行ロードマップ
- Big Data システムを構築する前にどのような重要な情報が必要ですか?
- データの量、速度、多様性、正確性を計算するさまざまな方法は何ですか
- データの増加を見積もる方法
- ケーススタディ
Big Data ベンダーのレビューとその製品のレビュー。
- アクセンチュア
- APTEAN (旧 CDC ソフトウェア)
- Cisco システム
- クラウドデラ
- デル
- EMC
- Go株式会社オッドデータ
- グアバス
- 日立データシステムズ
- ホートンワークス
- HP
- IBM
- インフォマティカ
- インテル
- ジャスパーソフト
- Microsoft
- MongoDB (旧 10Gen)
- ミューシグマ
- ネットアップ
- オペラソリューション
- Oracle
- Pentaho
- プラットフォーラ
- Qliktech
- 量子
- ラックスペース
- 革命分析
- Salesforce
- SAP
- SAS研究所
- シセンス
- ソフトウェアAG/テラコッタ
- Soft10 オートメーション
- Splunk
- スクラル
- スーパーマイクロ
- Tableau ソフトウェア
- Teradata
- 大きな分析を考える
- タイマークシステム
- ツリーマイナー
- VMware (EMC の一部)
Q/Aセッション
要求
- 法執行プロセスおよびデータシステムに関する知識 SQL/Oracleまたはリレーショナルデータベースの基本的な理解
- 統計(表計算レベル)の基本的理解
お客様の声 (4)
良い例を使った明確な説明なので、自分の仕事に関連付けることができました。
Elaine Vermeulen - Sandoz BV
コース - Alteryx for Developers
Machine Translated
I enjoyed the exercises session the most as I get to understand how to apply. Would definitely enjoyed it more if there are more combination exercises :)
Joan Ng
コース - Data Preparation with Alteryx
Use cases were awesome! and Ray involved each and every one of us in each use case.
Zara - Trench Ltd
コース - Alteryx for Data Analysis
team work