Thank you for sending your enquiry! One of our team member will contact you shortly.
Thank you for sending your booking! One of our team member will contact you shortly.
コース概要
各セッションは2時間です
1 日目: セッション -1: Business 理由の概要 Big Data Business Govt のインテリジェンス。
- NIH、DoE のケーススタディ
- Big Data Govt の適応率。代理店と、今後の運営をどのように調整しているか Big Data Predictive Analytics
- DoD、NSA、IRS、USDA などの広範な応用分野
- Big Data とレガシーデータのインターフェース
- 予測分析におけるテクノロジーを実現するための基本的な理解
- Data Integration & ダッシュボードの視覚化
- 不正行為の管理
- Business ルール/不正検出生成
- 脅威の検出とプロファイリング
- Big Data実装の費用便益分析
Day-1: Session-2 : Big Data-1の紹介
- Big Data の主な特徴は、量、多様性、速度、真実さです。ボリューム用の MPP アーキテクチャ。
- Data Warehouses – 静的スキーマ、ゆっくりと進化するデータセット
- MPP Database は、Greenplum、Exadata、Teradata、Netezza、Vertica などです。
- Hadoop ベースド ソリューション – データセットの構造に条件はありません。
- 典型的なパターン: HDFS、MapReduce (クランチ)、HDFS からの取得
- バッチ - 分析/非対話型に適しています
- 容量:CEPストリーミングデータ
- 一般的な選択肢 – CEP 製品 (例: Infostreams、Apama、MarkLogic など)
- 本番環境の準備が整っていない – Storm/S4
- NoSQL Databases – (列およびキー値): データ ウェアハウス/データベースの分析補助として最適
Day-1 : セッション -3 : Big Data-2 の紹介
NoSQL ソリューション
- KV ストア - キースペース、フレア、スキーマフリー、RAMCloud、Oracle NoSQL Database (OnDB)
- KV ストア - Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
- KV ストア (階層) - GT.m、キャッシュ
- KV ストア (注文済み) - TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Acted
- KV キャッシュ - Memcached、再キャッシュ、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
- Tuple Store - Gigaspaces、Coord、Apache River
- オブジェクト Database - ZopeDB、DB40、ショール
- ドキュメント ストア - CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
- ワイドカラム型ストア - BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI
データの種類: Big Data の Data Cleaning 問題の紹介
- RDBMS – 静的な構造/スキーマ。アジャイルで探索的な環境を促進しません。
- NoSQL – 半構造化されており、データを保存する前に正確なスキーマがなくてもデータを保存できる十分な構造
- データクリーニングの問題
Day-1 : セッション-4 : Big Data イントロダクション-3 : Hadoop
- Hadoopを選択するのはどのような場合ですか?
- 構造化 - エンタープライズ データ ウェアハウス/データベースは大量のデータを (コストをかけて) 保存できますが、構造化が必要です (アクティブな探索には適していません)。
- 半構造化データ – 従来のソリューション (DW/DB) では困難
- データの保管 = 多大な労力がかかり、実装後も静的なデータ
- 汎用ハードウェアで処理されるさまざまなデータと量のデータ – HADOOP
- Hadoop クラスターの作成に必要な汎用ハードウェア
Map Reduce /HDFS の概要
- MapReduce – 複数のサーバーにコンピューティングを分散します
- HDFS – コンピューティング プロセスでデータをローカルで利用できるようにします (冗長性あり)
- データ – 非構造化/スキーマレスの可能性があります (RDBMS とは異なります)
- データを理解する開発者の責任
- Programming MapReduce = Java (長所/短所) と連携し、手動でデータを HDFS にロードします
2 日目: セッション 1: Big Data エコシステム構築 Big Data ETL: Big Data ツールの世界 - いつ、どれを使用するか?
- Hadoop 対他の NoSQL ソリューション
- データへのインタラクティブなランダムアクセス用
- Hadoop の上にある Hbase (列指向データベース)
- データへのランダム アクセスだが制限が課される (最大 1 PB)
- アドホック分析には適していませんが、ロギング、カウント、時系列には適しています
- Sqoop - データベースから Hive または HDFS にインポート (JDBC/ODBC アクセス)
- Flume – データ (ログ データなど) を HDFS にストリーミングします
2日目: セッション2: Big Data Management システム
- 可動部分、計算ノードの起動/失敗 :ZooKeeper - 構成/調整/ネーミング サービス用
- 複雑なパイプライン/ワークフロー: Oozie – ワークフロー、依存関係、デイジー チェーンを管理
- デプロイ、構成、クラスター管理、アップグレードなど (システム管理者) :Ambari
- クラウド内: うなり声
2 日目: セッション 3: Business インテリジェンスにおける予測分析 -1: 基本的なテクニックと機械学習ベースの BI :
- 機械学習の概要
- 分類手法の学習
- ベイジアン予測作成トレーニング ファイル
- サポートベクターマシン
- KNN p-ツリー代数と垂直マイニング
- ニューラルネットワーク
- Big Data 大変数問題 - ランダムフォレスト(RF)
- Big Data 自動化の問題 – マルチモデルアンサンブル RF
- Soft10-Mによる自動化
- テキスト分析ツール - Treminer
- Agile 学習
- エージェントベースの学習
- 分散学習
- 予測分析用のオープンソース ツールの紹介: R、Rapidminer、Mahut
2 日目: セッション 4 予測分析エコシステム 2: Go vt の一般的な予測分析の問題。
- 洞察分析
- 視覚化分析
- 構造化された予測分析
- 非構造化予測分析
- 脅威/詐欺スター/ベンダーのプロファイリング
- レコメンデーションエンジン
- パターン検出
- ルール/シナリオの発見 - 失敗、不正、最適化
- 根本原因の発見
- 感情分析
- CRM分析
- ネットワーク分析
- テキスト分析
- テクノロジー支援によるレビュー
- 不正行為分析
- リアルタイム分析
3 日目 : セッション 1 :リアルタイムおよび Scala ブル分析オーバー Hadoop
- 一般的な分析アルゴリズムが Hadoop/HDFS で失敗する理由
- Apache Hama- 一括同期分散コンピューティング用
- Apache SPARK - リアルタイム分析のためのクラスター コンピューティング用
- CMU Graphics Lab2 - 分散コンピューティングへのグラフベースの非同期アプローチ
- ハードウェアの運用コストを削減するための Treeminer の KNN p-代数ベースのアプローチ
3 日目: セッション 2 :電子情報開示とフォレンジックのためのツール
- 電子情報開示 Big Data とレガシー データの比較 – コストとパフォーマンスの比較
- 予測コーディングとテクノロジー支援レビュー (TAR)
- Tar 製品 (vMiner) のライブ デモ。TAR がどのように機能して迅速な検出を実現するかを理解します。
- HDFS による高速インデックス作成 - データの速度
- NLP または自然言語処理 - さまざまな技術とオープンソース製品
- 外国語における電子情報開示 - 外国語処理技術
3 日目: セッション 3: Big Data Cyber Security の BI –迅速なデータ収集から脅威の特定までの 360 度全体像を理解する
- セキュリティ分析の基本を理解する - 攻撃対象領域、セキュリティの誤った構成、ホストの防御
- ネットワーク インフラストラクチャ/大規模データパイプ/リアルタイム分析のための応答 ETL
- 規範的 vs 予測 – 固定ルールベース vs メタデータからの脅威ルールの自動検出
3 日目: セッション 4: USDA の Big Data : 農業への応用
- 農業センサーベース Big Data と制御のための IoT (モノのインターネット) の紹介
- 衛星画像処理と農業への応用の紹介
- センサーと画像データを統合して土壌の肥沃度、栽培の推奨と予測を実現
- 農業保険とBig Data
- 作物の損失の予測
4 日目: セッション 1: Govt-Fraud 分析の Big Data による不正防止 BI:
- 不正分析の基本分類 - ルールベース分析と予測分析
- 不正パターン検出のための教師あり機械学習と教師なし機械学習
- ベンダー詐欺/プロジェクトの過剰請求
- メディケアおよびメディケイドの不正 - 請求処理のための不正検出技術
- 旅行代金詐欺
- IRSの還付詐欺
- データが入手可能な場合は、ケーススタディとライブデモが提供されます。
4 日目 : セッション 2: Social Media 分析 - 情報の収集と分析
- Big Data ソーシャルメディアデータを抽出するためのETL API
- テキスト、画像、メタデータ、ビデオ
- ソーシャルメディアフィードからの感情分析
- ソーシャルメディアフィードのコンテキストおよび非コンテキストフィルタリング
- Social Media 多様なソーシャルメディアを統合するダッシュボード
- ソーシャルメディアプロフィールの自動プロファイリング
- 各分析のライブ デモは、Treeminer ツールを通じて提供されます。
Day-4 : Session-3: Big Data 画像処理とビデオフィードの分析
- Big Data の画像ストレージ技術 - ペタバイトを超えるデータのストレージ ソリューション
- LTFS と LTO
- GPFS-LTFS (ビッグ画像データ向けの階層化ストレージ ソリューション)
- 画像解析の基礎
- 物体認識
- 画像のセグメンテーション
- モーショントラッキング
- 3D画像再構成
4 日目: セッション 4: NIH での Big Data 件のアプリケーション:
- Bio-情報学の新興分野
- メタゲノミクスと Big Data マイニングの問題
- Big Data 薬理ゲノミクス、メタボロミクス、プロテオミクスの予測分析
- Big Data 下流のゲノミクスプロセス
- 公衆衛生におけるビッグデータ予測分析の応用
Big Data 多様なデータと表示に素早くアクセスできるダッシュボード:
- 既存のアプリケーション プラットフォームと Big Data ダッシュボードの統合
- Big Data管理
- Big Data ダッシュボードのケーススタディ: Tableau および Pentaho
- Big Data アプリを使用して、Govt で位置情報ベースのサービスをプッシュします。
- 追跡システムと管理
Day-5 : セッション-1: Big Data 組織内での BI 導入を正当化する方法:
- Big Data 実装の ROI の定義
- アナリストのデータ収集と準備にかかる時間を節約するためのケーススタディ – 生産性の向上
- ライセンスされたデータベースのコスト削減による収益増加のケーススタディ
- 位置情報ベースのサービスによる収益の増加
- 詐欺防止による節約
- 統合されたスプレッドシート アプローチにより、およその値を計算します。 Big Data の実装による経費と収益の増加/節約。
5 日目: セッション 2: レガシー データ システムを Big Data システムに置き換えるステップバイステップ手順:
- 実践的な Big Data 移行ロードマップを理解する
- Big Data 実装を設計する前に必要な重要な情報は何ですか?
- データの量、速度、多様性、真実性を計算するさまざまな方法は何ですか
- データの増加を見積もる方法
- ケーススタディ
5 日目: セッション 4: Big Data ベンダーのレビューとその製品のレビュー。 Q/Aセッション:
- アクセンチュア
- APTEAN (旧 CDC ソフトウェア)
- Cisco システム
- クラウドデラ
- デル
- EMC
- Go株式会社オッドデータ
- グアバス
- 日立データシステムズ
- ホートンワークス
- HP
- IBM
- インフォマティカ
- インテル
- ジャスパーソフト
- Microsoft
- MongoDB (旧 10Gen)
- ミューシグマ
- ネットアップ
- オペラソリューション
- Oracle
- Pentaho
- プラットフォーラ
- Qliktech
- 量子
- ラックスペース
- 革命分析
- Salesforce
- SAP
- SAS研究所
- シセンス
- ソフトウェアAG/テラコッタ
- Soft10 オートメーション
- Splunk
- スクラル
- スーパーマイクロ
- Tableau ソフトウェア
- Teradata
- 大きな分析を考える
- タイマークシステム
- ツリーマイナー
- VMware (EMC の一部)
要求
- 政府における業務運営やデータシステムに関する基本的な知識をお持ちの方
- 政府における業務運営やデータシステムに関する基本的な知識をお持ちの方 。
- SQL/Oracleまたはリレーショナルデータベースの基本的な理解
- Statistics(スプレッドシートレベル)の基本的な理解
35 時間
お客様の声 (4)
トレーナー(オーグスティン)のオーラルスキルと人間的な側面。
Jeremy Chicon - TE Connectivity
コース - NB-IoT for Developers
Machine Translated
良い例を使った明確な説明なので、自分の仕事に関連付けることができました。
Elaine Vermeulen - Sandoz BV
コース - Alteryx for Developers
Machine Translated
I enjoyed the exercises session the most as I get to understand how to apply. Would definitely enjoyed it more if there are more combination exercises :)
Joan Ng
コース - Data Preparation with Alteryx
Use cases were awesome! and Ray involved each and every one of us in each use case.