データストリーミングとリアルタイムデータ処理のトレーニングコース
コース概要
このコースは、リアルタイムデータストリーミングシステムの構築のための実践的で構造化された入門講座です。大規模な連続データの処理に使用されるコアコンセプト、アーキテクチャパターン、および業界標準のツールを取り上げます。参加者は、現代的なフレームワークを使用してストリーミングパイプラインの設計、実装、および最適化方法を学びます。コースは基礎的な概念から実践的な応用まで段階的に展開され、受講者が実運用に耐えうるリアルタイムソリューションを自信を持って構築できるよう支援します。
トレーニングの形式
・インストラクターによる指導付きセッション
・実世界例を用いたコンセプト解説
・ハンズオンデモンストレーションとコーディング演習
・日次トピックに連動した段階的なラボ演習
・インタラクティブなディスカッションとQ&A
コースの目的
・リアルタイムデータストリーミングのコンセプトとシステムアーキテクチャを理解する
・バッチ処理とストリーミングデータ処理のモデルの違いを明確にする
・スケーラブルで障害に強いストリーミングパイプラインを設計する
・分散型ストリーミングツールおよびフレームワークを活用する
・イベント時間処理、ウィンドウ処理、ステートフル操作を適用する
・ビジネスユースケースに対応するリアルタイムデータソリューションを構築・最適化する
コース概要
コースアウトライン:1日目
・データストリーミングコンセプトの紹介
・バッチ処理とリアルタイム処理の基礎
・イベント駆動型アーキテクチャの基本
・業界における一般的なユースケース
・ストリーミングエコシステムの概要
2日目
・ストリーミングアーキテクチャの設計パターン
・分散型メッセージングシステムの基礎
・プロデューサーとコンシューマー
・トピック、パーティション、データフロー
・データ取り込み戦略
3日目
・ストリーム処理のコンセプトとフレームワーク
・イベント時間と処理時間の違い
・ウィンドウ処理の技法とユースケース
・ステートフルストリーム処理
・フォールトトレランスとチェックポイントの基本
4日目
・ストリーミングパイプラインにおけるデータ変換
・リアルタイムシステムにおけるETLとELT
・スキーマ管理と進化
・ストリーム結合とデータ拡張
・クラウドベースのストリーミングサービス入門
5日目
・ストリーミングシステムにおける監視と観測性
・セキュリティとアクセス制御の基本
・パフォーマンスチューニングと最適化
・エンドツーエンドのパイプライン設計レビュー
・不正検出やIoT処理などの実世界ユースケース
オープントレーニングコースには5人以上が必要です。
データストリーミングとリアルタイムデータ処理のトレーニングコース - 予約
データストリーミングとリアルタイムデータ処理のトレーニングコース - お問い合わせ
データストリーミングとリアルタイムデータ処理 - コンサルティングお問い合わせ
お客様の声 (1)
実践的な演習。クラスは本来5日間の予定でしたが、3日間でも多くの疑問を解消できました。
James - BHG Financial
コース - Apache NiFi for Administrators
機械翻訳
今後のコース
関連コース
高度な Apache Iceberg
21 時間このインストラクター主導のライブトレーニング(オンラインまたはオンサイト)は、高度なレベルのデータ専門家向けで、データ処理ワークフローの最適化、データの一貫性の確保、現代的なビッグデータアプリケーションに耐えられる堅牢なデータレイクハウスソリューションの実装を目指しています。
このトレーニングを終了した参加者は、以下のことができます:
- Iceberg のアーキテクチャ(メタデータ管理とファイルレイアウトなど)について詳細な理解を得る。
- さまざまな環境での最適パフォーマンスのための Iceberg 設定を学び、複数のデータ処理エンジンとの統合を行う。
- 大規模な Iceberg テーブルの管理、複雑なスキーマ変更、パーティション進化の取り扱いを学ぶ。
- 大容量データセットのクエリパフォーマンスとデータスキャン効率を最適化する技術を習得する。
- データの一貫性を確保し、トランザクショナル保証を管理し、分散環境での障害を処理するメカニズムの実装を学ぶ。
Apache Iceberg ファンダメンタル
14 時間この講師主導のライブトレーニング(オンラインまたはオンサイト)は、初心者レベルのデータプロフェッショナル向けで、Apache Iceberg を使用して大規模データセットを効果的に管理し、データ整合性を確保し、データ処理ワークフローを最適化するための知識とスキルを習得することを目指しています。
本トレーニング終了時には、参加者は次のことが able to:
- Apache Iceberg のアーキテクチャ、特徴、および利点を十分に理解します。
- テーブル形式、パーティショニング、スキーマ進化、時間移行機能について学びます。
- 異なる環境で Apache Iceberg をインストールおよび設定します。
- Iceberg テーブルの作成、管理、操作を行います。
- 他のテーブル形式から Iceberg へのデータ移行プロセスを理解します。
Google ColabとApache Sparkを使用したビッグデータ分析
14 時間このインストラクター主導のライブトレーニング(オンラインまたはオンサイト)は、中級レベルのデータサイエンティストやエンジニアを対象としており、Google ColabとApache Sparkを使用してビッグデータの処理と分析を行いたい方々向けです。
このトレーニング終了時には、参加者は以下ができることを目指します:
- Google ColabとSparkを使用してビッグデータ環境をセットアップする。
- Apache Sparkを使用して大量のデータセットを効率的に処理および分析する。
- 協調的な環境でビッグデータを可視化する。
- Apache Sparkとクラウドベースのツールを統合する。
政府機関向けの大規模データビジネスインテリジェンス
35 時間技術の進歩と情報量の増加により、多くの業界、特に政府において、ビジネスの遂行方法が変革されています。スマートフォンやアプリケーション、センサーやデバイス、クラウドコンピューティングソリューション、市民向けポータルの急速な普及に伴い、政府データの生成とデジタルアーカイブのレートは上昇しています。デジタル情報が拡大し複雑化するにつれ、その管理、処理、保存、セキュリティ、および廃棄もより複雑になります。新たな収集、検索、発見、分析ツールにより、組織は非構造化データから洞察を得ることが可能になっています。政府市場は転換点に達しており、情報が戦略的な資産であることを認識し、政府は構造化されたおよび非構造化された情報を保護し、活用し、分析することでより良いサービスを提供し、ミッション要件を満たすことができるようになっています。政府の指導者がデータ駆動型組織への進化を目指して成功するためには、イベント、人々、プロセス、情報間の依存関係を相関させる基盤を整える必要があります。
価値ある政府ソリューションは、最も破壊的な技術を組み合わせて作成されます:
- モバイルデバイスとアプリケーション
- クラウドサービス
- ソーシャルビジネステクノロジーとネットワーキング
- ビッグデータと分析
大規模データは、知能化された業界ソリューションの1つであり、大量のデータを分析することで得られるパターンに基づいて政府がより良い決定を下すことを可能にします。
しかし、これらの成果を達成するには単に大量のデータを蓄積するだけでなく、さらに多くのことがあります。ホワイトハウス科学技術政策局(OSTP)のトム・カリルとフェン・ジャオは、OSTPブログの投稿で次のように述べています。「ビッグデータの大規模な量から意味を導き出すには、多様な情報ストリームから有用な知識を抽出し分析できる最先端のツールやテクノロジーが必要です。」
ホワイトハウスは2012年に、ビッグデータ研究開発イニシアチブを設立することで、機関がこれらの技術を見つける手助けをしました。このイニシアチブには2億ドル以上が投じられ、ビッグデータの爆発とその分析に必要なツールの活用を促進するためのものです。
ビッグデータがもたらす課題は、その約束が希望的であるように、困難です。効率的にデータを保存することがこれらの課題の1つです。予算は常に限られているため、機関は1メガバイトあたりの保存コストを最小限に抑え、ユーザーが必要とするときに必要な方法で簡単にアクセスできるようデータを保持する必要があります。大量のデータをバックアップすることはこの課題を高めます。
データを効果的に分析することも大きな課題です。多くの機関は、商業的なツールを使用して大量のデータを解析し、より効率的に運用できるようになるためのトレンドを見つけることができます。(MeriTalkによる最近の調査では、連邦IT幹部がビッグデータによって5000億ドル以上の節約が可能になると考えていることが示されています。)
カスタム開発された大規模データツールも、機関がデータを分析する必要性に対処するために使用されています。例えば、オークリッジ国立研究所の計算データ解析グループは、Piranhaデータ解析システムを他の機関に提供しています。このシステムは医療研究者に大動脈瘤の予兆を早期発見できるリンクを見つけ出すのに役立ちました。また、履歴書から求職者と採用担当者を結びつけるようなより一般的なタスクにも使用されています。
データ分析とビッグデータの実践的入門 - 3日間
21 時間日本でこのインストラクター主導のライブトレーニングを修了した参加者は、ビッグデータおよび関連技術、手法、ツールについて実践的な理解を得ることができます。
参加者は手動演習を通じてこの知識を実践する機会があります。グループでの相互作用とインストラクターからのフィードバックがクラスの重要な構成要素となっています。
コースはビッグデータの基本概念の紹介から始まり、次にデータ分析を行うためのプログラミング言語と手法について進みます。最後に、ビッグデータのストレージ、分散処理、スケーラビリティを可能にするツールやインフラストラクチャについて議論します。
Big Dataと高度な分析
42 時間Big Dataと高度な分析は、大量で複雑なデータセットから具体的な洞察や戦略的な意思決定を得るために洗練された手法やツールを適用することです。
このインストラクター主導のライブトレーニング(オンラインまたはオンサイト)は、予測分析、処方分析、リアルタイム分析のために最先端の分析方法とビッグデータ技術を活用したい高度なレベルのデータ専門家向けです。
このトレーニングが完了すると、参加者は以下のことができます:
- 構造化されたデータと非構造化されたデータのための大規模データ処理パイプラインを設計および実装します。
- 大量のデータセットに対して高度な機械学習や深層学習技術を適用します。
- リアルタイム分析とデータストリーミングのために分散コンピューティングフレームワークを活用します。
- ビッグデータ分析をビジネスインテリジェンスや意思決定システムに統合します。
コースの形式
- 対話型講義とディスカッション。
- 多くの演習と実践。
- ライブラボ環境での手動実装。
コースのカスタマイズオプション
- このコースのカスタマイズトレーニングを希望する場合は、お問い合わせください。
Apache NiFi for Administrators
21 時間Apache NiFiは、オープンソースのフローベースのデータ統合とイベント処理プラットフォームです。異なるシステム間での自動化されたリアルタイムのデータルーティング、変換、およびシステム間の中継を可能にします。WebベースのUIと細かい制御が特徴です。
このインストラクター主導のライブトレーニング(オンサイトまたはリモート)は、中級レベルの管理者やエンジニア向けで、NiFiデータフローを実稼働環境で展開、管理、保護、最適化する方法を学びます。
このトレーニング終了時には、参加者は以下のことができるようになります:
- Apache NiFiクラスタのインストール、設定、および維持管理を行う。
- 様々なソースとシンクからのデータフローを設計し管理する。
- フローオートメーション、ルーティング、および変換ロジックを実装する。
- 性能を最適化し、運用状況を監視し、問題をトラブルシューティングする。
コースの形式
- 実践的な講義と実際のアーキテクチャについての議論。
- フローの構築、展開、管理に関するハンズオンラボ。
- 実践的なシナリオに基づく演習。
コースのカスタマイゼーションオプション
- このコースのカスタマイズされたトレーニングを依頼する場合は、お問い合わせください。
PySpark と機械学習
21 時間このトレーニングは、PySpark を使用したスケーラブルなデータ処理および機械学習ワークフローの構築に関する実践的な入門を提供します。参加者は、Apache Spark が現代のビッグデータエコシステム内でどのように動作するか、分散コンピューティングの原則を用いて大規模データセットを効率的に処理する方法を学びます。
Apache Spark の基本
21 時間この講師主導のライブトレーニング(オンラインまたはオンサイト)は、大量のデータを処理するために Apache Spark システムを設定し展開したいエンジニア向けです。
本トレーニング終了後、参加者は以下のことが行えるようになります:
- Apache Spark をインストールおよび設定する。
- 大量のデータセットを迅速に処理し分析する。
- Apache Spark と Hadoop MapReduce の違いを理解し、どちらを使用すべきか判断できる。
- 他の機械学習ツールと Apache Spark を統合する。
Apache Spark の管理
35 時間この講師主導のライブトレーニング(オンラインまたは対面)は、初級から中級レベルのシステム管理者を対象としており、Spark クラスタの展開、維持、最適化を目指しています。
このトレーニングの終了時には、参加者は以下のことができるようになります:
- 様々な環境での Apache Spark のインストールと設定を行うことができます。
- クラスタ リソースを管理し、Spark アプリケーションを監視することができます。
- Spark クラスタのパフォーマンスを最適化することができます。
- セキュリティ対策を実施し、高可用性を確保することができます。
- 一般的な Spark の問題のデバッグとトラブルシューティングを行うことができます。
クラウドでの Apache Spark
21 時間Apache Spark の学習曲線は最初緩やかに上昇しますが、初めて成果を得るためには多くの努力が必要です。このコースは、最初の難しい部分を飛ばすことを目指しています。このコースを修了した参加者は、Apache Spark の基本を理解し、RDD と DataFrame を明確に区別し、Python と Scala API を学び、実行者とタスクを理解するなど、多くのスキルを身につけることができます。また、ベストプラクティスに基づいて、このコースはクラウド展開、Databricks および AWS に強い焦点を当てています。学生たちは、AWS EMR と AWS Glue の違いも理解し、AWS の最新の Spark サービスの一つである AWS Glue についても学びます。
対象者:
Data Engineer, DevOps, Data Scientist
PythonとSparkを使用したビッグデータ分析 (PySpark)
21 時間このインストラクター主導のライブトレーニングでは、参加者は手順演習を通じてPythonとSparkを組み合わせてビッグデータを分析する方法を学びます。
このトレーニング終了時には、参加者は以下のことをできるようになります:
- Pythonを使用してSparkでビッグデータを分析する方法を学ぶ。
- 現実の事例を模した演習を行う。
- PySparkを使用したビッグデータ分析のさまざまなツールと技術を利用する。
Python、Spark、およびHadoopによるビッグデータ処理
21 時間この講師主導の実践トレーニング(オンラインまたはオンサイト)は、Spark、Hadoop、およびPythonを使用して大規模で複雑なデータセットを処理、分析、変換することを目指す開発者向けです。
このトレーニングの終了時には、参加者は以下のことができるようになります:
- Spark、Hadoop、およびPythonを使用してビッグデータの処理を開始するために必要な環境をセットアップする。
- SparkとHadoopの特徴、主要なコンポーネント、アーキテクチャを理解する。
- Spark、Hadoop、およびPythonを統合してビッグデータの処理を行う方法を学ぶ。
- Sparkエコシステム内のツール(Spark MlLib、Spark Streaming、Kafka、Sqoop、Flume)を探索する。
- Netflix、YouTube、Amazon、Spotify、Googleなどに類似した協調フィルタリング推薦システムを構築する。
- Apache Mahoutを使用して機械学習アルゴリズムをスケーリングする。
Stratio: PySparkを使用したRocketとIntelligenceモジュール
14 時間Stratioは、ビッグデータ、AI、ガバナンスを統合したデータ中心のプラットフォームです。そのRocketとIntelligenceモジュールにより、エンタープライズ環境での迅速なデータ探索、変換、高度な分析が可能になります。
このインストラクター主導のライブトレーニング(オンラインまたはオンサイト)は、中級レベルのデータ専門家を対象とし、PySparkを使用してStratioのRocketとIntelligenceモジュールを効果的に活用することに焦点を当てます。ループ構造、ユーザー定義関数、および高度なデータロジックが重点となります。
このトレーニングの終了時には、参加者は以下が Able to できます:
- RocketとIntelligenceモジュールを使用してStratioプラットフォームをナビゲートし、操作する。
- データの取り込み、変換、分析の文脈でPySparkを適用する。
- ループと条件ロジックを使用してデータワークフローと特徴エンジニアリングタスクを制御する。
- 再利用可能なデータ操作のため、PySparkでユーザー定義関数(UDFs)を作成および管理する。
コース形式
- インタラクティブな講義とディスカッション。
- 多数の演習と実践。
- ライブラボ環境での手動実装。
コースカスタマイズオプション
- このコースのカスタマイズトレーニングを依頼するには、お問い合わせください。