データストリーミングとリアルタイムデータ処理のトレーニングコース
コース概要
このコースは、リアルタイムデータストリーミングシステムの構築のための実践的で構造化された入門講座です。大規模な連続データの処理に使用されるコアコンセプト、アーキテクチャパターン、および業界標準のツールを取り上げます。参加者は、現代的なフレームワークを使用してストリーミングパイプラインの設計、実装、および最適化方法を学びます。コースは基礎的な概念から実践的な応用まで段階的に展開され、受講者が実運用に耐えうるリアルタイムソリューションを自信を持って構築できるよう支援します。
トレーニングの形式
・インストラクターによる指導付きセッション
・実世界例を用いたコンセプト解説
・ハンズオンデモンストレーションとコーディング演習
・日次トピックに連動した段階的なラボ演習
・インタラクティブなディスカッションとQ&A
コースの目的
・リアルタイムデータストリーミングのコンセプトとシステムアーキテクチャを理解する
・バッチ処理とストリーミングデータ処理のモデルの違いを明確にする
・スケーラブルで障害に強いストリーミングパイプラインを設計する
・分散型ストリーミングツールおよびフレームワークを活用する
・イベント時間処理、ウィンドウ処理、ステートフル操作を適用する
・ビジネスユースケースに対応するリアルタイムデータソリューションを構築・最適化する
コース概要
コースアウトライン:1日目
・データストリーミングコンセプトの紹介
・バッチ処理とリアルタイム処理の基礎
・イベント駆動型アーキテクチャの基本
・業界における一般的なユースケース
・ストリーミングエコシステムの概要
2日目
・ストリーミングアーキテクチャの設計パターン
・分散型メッセージングシステムの基礎
・プロデューサーとコンシューマー
・トピック、パーティション、データフロー
・データ取り込み戦略
3日目
・ストリーム処理のコンセプトとフレームワーク
・イベント時間と処理時間の違い
・ウィンドウ処理の技法とユースケース
・ステートフルストリーム処理
・フォールトトレランスとチェックポイントの基本
4日目
・ストリーミングパイプラインにおけるデータ変換
・リアルタイムシステムにおけるETLとELT
・スキーマ管理と進化
・ストリーム結合とデータ拡張
・クラウドベースのストリーミングサービス入門
5日目
・ストリーミングシステムにおける監視と観測性
・セキュリティとアクセス制御の基本
・パフォーマンスチューニングと最適化
・エンドツーエンドのパイプライン設計レビュー
・不正検出やIoT処理などの実世界ユースケース
オープントレーニングコースには5人以上が必要です。
データストリーミングとリアルタイムデータ処理のトレーニングコース - 予約
データストリーミングとリアルタイムデータ処理のトレーニングコース - お問い合わせ
データストリーミングとリアルタイムデータ処理 - コンサルティングお問い合わせ
お客様の声 (1)
実践的な演習。クラスは本来5日間の予定でしたが、3日間でも多くの疑問を解消できました。
James - BHG Financial
コース - Apache NiFi for Administrators
機械翻訳
今後のコース
関連コース
Apache Hadoop 管理者トレーニング
35 時間対象者:
このコースは、分散システム環境で大量のデータを保存および処理するソリューションを探している IT 専門家向けです。
目標:
Hadoop クラスター管理に関する深い知識を得ること。
Google ColabとApache Sparkを使用したビッグデータ分析
14 時間このインストラクター主導のライブトレーニング(オンラインまたはオンサイト)は、中級レベルのデータサイエンティストやエンジニアを対象としており、Google ColabとApache Sparkを使用してビッグデータの処理と分析を行いたい方々向けです。
このトレーニング終了時には、参加者は以下ができることを目指します:
- Google ColabとSparkを使用してビッグデータ環境をセットアップする。
- Apache Sparkを使用して大量のデータセットを効率的に処理および分析する。
- 協調的な環境でビッグデータを可視化する。
- Apache Sparkとクラウドベースのツールを統合する。
ヘルスケアにおけるビッグデータ分析
21 時間ビッグデータ分析は、大量の多様なデータセットを検証し、相関関係、隠れたパターン、その他の有用な洞察を見出すプロセスです。
医療業界には、非常に複雑で異種の医療および臨床データが膨大に存在します。ヘルスケアデータに対するビッグデータ分析の適用は、医療提供の改善につながる洞察を得る上で大きなポテンシャルを持っています。しかし、これらのデータセットの巨大さは、解析や臨床環境への実用的な応用において大きな課題をもたらしています。
このインストラクター主導のライブトレーニング(リモート)では、参加者は一連の手動実習を通じてヘルスケアにおけるビッグデータ分析を学びます。
このトレーニング終了時には、参加者は以下のことができます:
- Hadoop MapReduce や Spark などのビッグデータ分析ツールのインストールと設定
- 医療データの特性を理解する
- 医療データに対処するためのビッグデータ技術の適用
- ヘルスケア応用におけるビッグデータシステムとアルゴリズムの研究
対象者
- 開発者
- データサイエンティスト
コース形式
- 講義、ディスカッション、演習、そして多くの手動実践が含まれています。
注意事項
- このコースのカスタマイズされたトレーニングを希望される場合は、お問い合わせください。
管理者向け Hadoop
21 時間Apache Hadoopは、サーバークラスター上でビッグデータを処理する最も人気のあるフレームワークです。この3日間(またはオプションで4日間)のコースでは、参加者はHadoopとそのエコシステムのビジネス上の利点やユースケースについて学びます。また、クラスタの展開計画と拡大方法、インストール、メンテナンス、監視、トラブルシューティング、最適化方法を学びます。さらに、大量データのロード、さまざまなHadoopディストリビューションへの慣れ、Hadoopエコシステムツールのインストールと管理について実践します。コースはクラスタのKerberosによるセキュリティ設定に関する議論で締めくくります。
「...教材が非常によく準備され、徹底的にカバーされていました。ラボは非常に役立ち、整理が整っていました」
— Andrew Nguyen, Principal Integration DW Engineer, Microsoft Online Advertising
対象者
Hadoop管理者
形式
講義と実践的なラボ、大体60%が講義、40%がラボです。
Hadoop for Developers (4 days)
28 時間Apache Hadoopは、サーバークラスター上でビッグデータを処理する最も人気のあるフレームワークです。このコースでは、開発者がHadoopエコシステムのさまざまなコンポーネント(HDFS、MapReduce、Pig、Hive、HBase)に触れる機会を提供します。
Advanced Hadoop for Developers
21 時間Apache Hadoop は、サーバーのクラスタ上でビッグデータを処理する最も人気のあるフレームワークの一つです。このコースでは、HDFS 上でのデータ管理、高度な Pig、Hive、および HBase の使用方法に焦点を当てます。これらの高度なプログラミング技術は、経験豊富な Hadoop 開発者にとって有益です。
対象者: 開発者
期間: 3日間
形式: 講義 (50%) と実習 (50%)。
HadoopとSparkの管理者向けトレーニング
35 時間この講師主導型のライブトレーニング(オンラインまたはオンサイト)は、組織内でHadoopクラスターを設定、展開、管理したいシステム管理者を対象としています。
このトレーニング終了後、参加者は以下のことができるようになります:
- Apache Hadoopのインストールと構成を行う。
- Hadoopエコシステムの4つの主要なコンポーネント(HDFS、MapReduce、YARN、およびHadoop Common)を理解する。
- Hadoop Distributed File System (HDFS)を使用して、クラスターを数百または数千のノードにスケーリングする。
- HDFSをオンプレミスのSpark展開のストレージエンジンとして設定する。
- Amazon S3やRedis、Elasticsearch、Couchbase、AerospikeなどのNoSQLデータベースシステムへのアクセスを設定する。
- Apache Hadoopクラスターのプロビジョニング、管理、監視、セキュリティ対策など、管理者としてのタスクを行う。
開発者向けのHBase
21 時間このコースでは、Hadoop 上に構築された NoSQL ストアである HBase を紹介します。本コースは、HBase を使用してアプリケーションを開発する開発者と、HBase クラスターを管理する管理者向けです。
私たちは開発者が HBase のアーキテクチャやデータモデリング、HBase 上でのアプリケーション開発を理解できるようにガイドします。また、MapReduce との連携やパフォーマンス最適化に関連する管理トピックについても説明します。本コースは非常に実践的で、多くのラボ演習が含まれています。
期間: 3 日間
対象者: 開発者 & 管理者
Apache NiFi for Administrators
21 時間Apache NiFiは、オープンソースのフローベースのデータ統合とイベント処理プラットフォームです。異なるシステム間での自動化されたリアルタイムのデータルーティング、変換、およびシステム間の中継を可能にします。WebベースのUIと細かい制御が特徴です。
このインストラクター主導のライブトレーニング(オンサイトまたはリモート)は、中級レベルの管理者やエンジニア向けで、NiFiデータフローを実稼働環境で展開、管理、保護、最適化する方法を学びます。
このトレーニング終了時には、参加者は以下のことができるようになります:
- Apache NiFiクラスタのインストール、設定、および維持管理を行う。
- 様々なソースとシンクからのデータフローを設計し管理する。
- フローオートメーション、ルーティング、および変換ロジックを実装する。
- 性能を最適化し、運用状況を監視し、問題をトラブルシューティングする。
コースの形式
- 実践的な講義と実際のアーキテクチャについての議論。
- フローの構築、展開、管理に関するハンズオンラボ。
- 実践的なシナリオに基づく演習。
コースのカスタマイゼーションオプション
- このコースのカスタマイズされたトレーニングを依頼する場合は、お問い合わせください。
開発者向け Apache NiFi
7 時間この講師主導のライブトレーニングでは、参加者はフローに基づくプログラミングの基礎を学びながら、Apache NiFi を使用してデモ用の拡張機能、コンポーネント、プロセッサを開発します。
このトレーニング終了時には、参加者は以下のことができます:
- NiFi のアーキテクチャとデータフローの概念を理解する。
- NiFi とサードパーティ API を使用して拡張機能を開発する。
- 独自の Apache NiFi プロセッサをカスタム開発する。
- 異なるフォーマットやデータソースからリアルタイムでデータを取り込み、処理する。
PySpark と機械学習
21 時間このトレーニングは、PySpark を使用したスケーラブルなデータ処理および機械学習ワークフローの構築に関する実践的な入門を提供します。参加者は、Apache Spark が現代のビッグデータエコシステム内でどのように動作するか、分散コンピューティングの原則を用いて大規模データセットを効率的に処理する方法を学びます。
PythonとSparkを使用したビッグデータ分析 (PySpark)
21 時間このインストラクター主導のライブトレーニングでは、参加者は手順演習を通じてPythonとSparkを組み合わせてビッグデータを分析する方法を学びます。
このトレーニング終了時には、参加者は以下のことをできるようになります:
- Pythonを使用してSparkでビッグデータを分析する方法を学ぶ。
- 現実の事例を模した演習を行う。
- PySparkを使用したビッグデータ分析のさまざまなツールと技術を利用する。
Python、Spark、およびHadoopによるビッグデータ処理
21 時間この講師主導の実践トレーニング(オンラインまたはオンサイト)は、Spark、Hadoop、およびPythonを使用して大規模で複雑なデータセットを処理、分析、変換することを目指す開発者向けです。
このトレーニングの終了時には、参加者は以下のことができるようになります:
- Spark、Hadoop、およびPythonを使用してビッグデータの処理を開始するために必要な環境をセットアップする。
- SparkとHadoopの特徴、主要なコンポーネント、アーキテクチャを理解する。
- Spark、Hadoop、およびPythonを統合してビッグデータの処理を行う方法を学ぶ。
- Sparkエコシステム内のツール(Spark MlLib、Spark Streaming、Kafka、Sqoop、Flume)を探索する。
- Netflix、YouTube、Amazon、Spotify、Googleなどに類似した協調フィルタリング推薦システムを構築する。
- Apache Mahoutを使用して機械学習アルゴリズムをスケーリングする。
Stratio: PySparkを使用したRocketとIntelligenceモジュール
14 時間Stratioは、ビッグデータ、AI、ガバナンスを統合したデータ中心のプラットフォームです。そのRocketとIntelligenceモジュールにより、エンタープライズ環境での迅速なデータ探索、変換、高度な分析が可能になります。
このインストラクター主導のライブトレーニング(オンラインまたはオンサイト)は、中級レベルのデータ専門家を対象とし、PySparkを使用してStratioのRocketとIntelligenceモジュールを効果的に活用することに焦点を当てます。ループ構造、ユーザー定義関数、および高度なデータロジックが重点となります。
このトレーニングの終了時には、参加者は以下が Able to できます:
- RocketとIntelligenceモジュールを使用してStratioプラットフォームをナビゲートし、操作する。
- データの取り込み、変換、分析の文脈でPySparkを適用する。
- ループと条件ロジックを使用してデータワークフローと特徴エンジニアリングタスクを制御する。
- 再利用可能なデータ操作のため、PySparkでユーザー定義関数(UDFs)を作成および管理する。
コース形式
- インタラクティブな講義とディスカッション。
- 多数の演習と実践。
- ライブラボ環境での手動実装。
コースカスタマイズオプション
- このコースのカスタマイズトレーニングを依頼するには、お問い合わせください。