データから意思決定へ:ビッグデータと予測分析のトレーニングコース
対象者
あなたがアクセス可能なデータを理解しようとしたり、ネット上(Twitter, LinkedIn など)で利用可能な非構造化データを分析したい場合、このコースはあなたに適しています。
主に意思決定者やどのデータの収集と分析が価値があるかを選択する必要のある人々向けです。
ソリューションの設定を行う人たちは対象ではありませんが、全体像を理解することで利益を得ることができます。
提供方法
コース中、主にオープンソース技術を使用した実際の例が参加者に提示されます。
短い講義の後は、プレゼンテーションと参加者による簡単な演習が続きます。
内容と使用ソフトウェア
コースを実施するたびに使用されるすべてのソフトウェアは更新され、最新バージョンを使用します。
データの取得、フォーマット化、処理、分析から、機械学習を使用した意思決定プロセスの自動化まで、一連の流れが説明されます。
コース概要
簡単な概要
- データソース
- データ管理
- レコメンデーションシステム
- ターゲットマーケティング
データタイプ
- 構造化と非構造化
- 静的とストリーミング
- 態度、行動、人口統計データ
- データ駆動型とユーザー駆動型分析
- データの有効性
- データのボリューム、速度、多様性
モデル
- モデル構築
- 統計的モデル
- 機械学習
データ分類
- クラスタリング
- kグループ、k平均法、最近傍法
- アリのコロニー、鳥の群れ飛行
予測モデル
- 決定木
- サポートベクターマシン
- ナイーブベイズ分類
- ニューラルネットワーク
- マルコフモデル
- 回帰分析
- アンサンブル方法
ROI(投資対効果)
- 利益/コスト比率
- ソフトウェアのコスト
- 開発のコスト
- 潜在的な利点
モデル構築
- データ準備(MapReduce)
- データクリーニング
- 方法選択
- モデル開発
- モデルテスト
- モデル評価
- モデル展開と統合
オープンソースおよび商用ソフトウェアの概要
- Rプロジェクトパッケージの選択
- Pythonライブラリ
- HadoopとMahout
- ビッグデータと分析に関連する選択されたApacheプロジェクト
- 選択された商用ソリューション
- 既存のソフトウェアやデータソースとの統合
要求
従来のデータ管理と分析方法(SQL、データウェアハウス、ビジネスインテリジェンス、OLAPなど)の理解。基本的な統計と確率(平均、分散、確率、条件付き確率など)の理解。
オープントレーニングコースには5人以上が必要です。
データから意思決定へ:ビッグデータと予測分析のトレーニングコース - 予約
データから意思決定へ:ビッグデータと予測分析のトレーニングコース - お問い合わせ
データから意思決定へ:ビッグデータと予測分析 - コンサルティングお問い合わせ
コンサルティングお問い合わせ
お客様の声 (2)
The content, as I found it very interesting and think it would help me in my final year at University.
Krishan - NBrown Group
コース - From Data to Decision with Big Data and Predictive Analytics
Richard's training style kept it interesting, the real world examples used helped to drive the concepts home.
Jamie Martin-Royle - NBrown Group
コース - From Data to Decision with Big Data and Predictive Analytics
今後のコース
関連コース
Big Data Analytics in Health
21 時間Big data analytics involves the process of examining large amounts of varied data sets in order to uncover correlations, hidden patterns, and other useful insights.
The health industry has massive amounts of complex heterogeneous medical and clinical data. Applying big data analytics on health data presents huge potential in deriving insights for improving delivery of healthcare. However, the enormity of these datasets poses great challenges in analyses and practical applications to a clinical environment.
In this instructor-led, live training (remote), participants will learn how to perform big data analytics in health as they step through a series of hands-on live-lab exercises.
By the end of this training, participants will be able to:
- Install and configure big data analytics tools such as Hadoop MapReduce and Spark
- Understand the characteristics of medical data
- Apply big data techniques to deal with medical data
- Study big data systems and algorithms in the context of health applications
Audience
- Developers
- Data Scientists
Format of the Course
- Part lecture, part discussion, exercises and heavy hands-on practice.
Note
- To request a customized training for this course, please contact us to arrange.
ジェネレーティブと予測AIの開発者向けコース
21 時間このインストラクター主導のライブトレーニング(オンラインまたはオンサイト)は、予測分析とジェネレーティブモデルを使用してAI搭載アプリケーションを開発したい中級開発者向けです。
このトレーニング終了時には、参加者は以下のことが Able to できるようになります:
- 予測AIとジェネレーティブモデルの基本を理解する。
- 予測コーディング、予測、および自動化にAI搭載ツールを使用する。
- テキストとコード生成のためのLLM(大規模言語モデル)とトランスフォーマーを実装する。
- 時系列予測とAIベースの推奨事項を適用する。
- 実際のアプリケーション向けにAIモデルを開発し、微調整する。
- AI展開における倫理的な考慮事項とベストプラクティスを評価する。
Hadoop and Spark for Administrators
35 時間This instructor-led, live training in 日本 (online or onsite) is aimed at system administrators who wish to learn how to set up, deploy and manage Hadoop clusters within their organization.
By the end of this training, participants will be able to:
- Install and configure Apache Hadoop.
- Understand the four major components in the Hadoop ecoystem: HDFS, MapReduce, YARN, and Hadoop Common.
- Use Hadoop Distributed File System (HDFS) to scale a cluster to hundreds or thousands of nodes.
- Set up HDFS to operate as storage engine for on-premise Spark deployments.
- Set up Spark to access alternative storage solutions such as Amazon S3 and NoSQL database systems such as Redis, Elasticsearch, Couchbase, Aerospike, etc.
- Carry out administrative tasks such as provisioning, management, monitoring and securing an Apache Hadoop cluster.
Introduction to Predictive AI
21 時間This instructor-led, live training in 日本 (online or onsite) is aimed at beginner-level IT professionals who wish to grasp the fundamentals of Predictive AI.
By the end of this training, participants will be able to:
- Understand the core concepts of Predictive AI and its applications.
- Collect, clean, and preprocess data for predictive analysis.
- Explore and visualize data to uncover insights.
- Build basic statistical models to make predictions.
- Evaluate the performance of predictive models.
- Apply Predictive AI concepts to real-world scenarios.
A Practical Introduction to Stream Processing
21 時間In this instructor-led, live training in 日本 (onsite or remote), participants will learn how to set up and integrate different Stream Processing frameworks with existing big data storage systems and related software applications and microservices.
By the end of this training, participants will be able to:
- Install and configure different Stream Processing frameworks, such as Spark Streaming and Kafka Streaming.
- Understand and select the most appropriate framework for the job.
- Process of data continuously, concurrently, and in a record-by-record fashion.
- Integrate Stream Processing solutions with existing databases, data warehouses, data lakes, etc.
- Integrate the most appropriate stream processing library with enterprise applications and microservices.
Predictive AI in DevOps: Enhancing Software Delivery
14 時間This instructor-led, live training in 日本 (online or onsite) is aimed at intermediate-level DevOps professionals who wish to integrate predictive AI into their DevOps practices.
By the end of this training, participants will be able to:
- Implement predictive analytics models to forecast and solve challenges in the DevOps pipeline.
- Utilize AI-driven tools for enhanced monitoring and operations.
- Apply machine learning techniques to improve software delivery workflows.
- Design AI strategies for proactive issue resolution and optimization.
- Navigate the ethical considerations of using AI in DevOps.
SMACK Stack for Data Science
14 時間This instructor-led, live training in 日本 (online or onsite) is aimed at data scientists who wish to use the SMACK stack to build data processing platforms for big data solutions.
By the end of this training, participants will be able to:
- Implement a data pipeline architecture for processing big data.
- Develop a cluster infrastructure with Apache Mesos and Docker.
- Analyze data with Spark and Scala.
- Manage unstructured data with Apache Cassandra.
Apache Spark の基本
21 時間この講師主導のライブトレーニング(オンラインまたはオンサイト)は、大量のデータを処理するために Apache Spark システムを設定し展開したいエンジニア向けです。
本トレーニング終了後、参加者は以下のことが行えるようになります:
- Apache Spark をインストールおよび設定する。
- 大量のデータセットを迅速に処理し分析する。
- Apache Spark と Hadoop MapReduce の違いを理解し、どちらを使用すべきか判断できる。
- 他の機械学習ツールと Apache Spark を統合する。
Apache Spark in the Cloud
21 時間Apache Spark's learning curve is slowly increasing at the begining, it needs a lot of effort to get the first return. This course aims to jump through the first tough part. After taking this course the participants will understand the basics of Apache Spark , they will clearly differentiate RDD from DataFrame, they will learn Python and Scala API, they will understand executors and tasks, etc. Also following the best practices, this course strongly focuses on cloud deployment, Databricks and AWS. The students will also understand the differences between AWS EMR and AWS Glue, one of the lastest Spark service of AWS.
AUDIENCE:
Data Engineer, DevOps, Data Scientist
開発者向け Spark
21 時間目的:
このコースでは、Apache Spark の概要を紹介します。受講者は Big Data エコシステムにおける Spark の位置づけと、データ分析に Spark を使用する方法を学びます。Spark shell での対話型データ分析、Spark の内部構造、API、SQL、ストリーミング、機械学習、GraphX について説明します。
対象者:
開発者 / データアナリスト
Spark NLP を使用したデータパイプラインのスケーリング
14 時間このインストラクター主導のライブトレーニング(オンラインまたはオンサイト)は、Apache Spark 上で構築された Spark NLP を使用して自然言語テキスト処理モデルとパイプラインを開発、実装、スケーリングしたいデータサイエンティストや開発者を対象としています。
このトレーニングの終了時には、参加者は以下のことをできるようになります:
- Spark NLP で NLP パイプラインの構築に必要な開発環境をセットアップします。
- Spark NLP の機能、アーキテクチャ、および使用上の利点を理解します。
- Spark NLP で利用可能な事前学習済みモデルを使用してテキスト処理を実装します。
- Spark NLP モデルの構築、訓練、スケーリング方法を学びます。
- 分類、推論、感情分析を実際のユースケース(臨床データ、顧客行動の洞察など)に適用します。
Python and Spark for Big Data (PySpark)
21 時間In this instructor-led, live training in 日本, participants will learn how to use Python and Spark together to analyze big data as they work on hands-on exercises.
By the end of this training, participants will be able to:
- Learn how to use Spark with Python to analyze Big Data.
- Work on exercises that mimic real world cases.
- Use different tools and techniques for big data analysis using PySpark.
Python、Spark、およびHadoopによるビッグデータ処理
21 時間この講師主導の実践トレーニング(オンラインまたはオンサイト)は、Spark、Hadoop、およびPythonを使用して大規模で複雑なデータセットを処理、分析、変換することを目指す開発者向けです。
このトレーニングの終了時には、参加者は以下のことができるようになります:
- Spark、Hadoop、およびPythonを使用してビッグデータの処理を開始するために必要な環境をセットアップする。
- SparkとHadoopの特徴、主要なコンポーネント、アーキテクチャを理解する。
- Spark、Hadoop、およびPythonを統合してビッグデータの処理を行う方法を学ぶ。
- Sparkエコシステム内のツール(Spark MlLib、Spark Streaming、Kafka、Sqoop、Flume)を探索する。
- Netflix、YouTube、Amazon、Spotify、Googleなどに類似した協調フィルタリング推薦システムを構築する。
- Apache Mahoutを使用して機械学習アルゴリズムをスケーリングする。
Apache Spark SQL
7 時間Spark SQL is Apache Spark's module for working with structured and unstructured data. Spark SQL provides information about the structure of the data as well as the computation being performed. This information can be used to perform optimizations. Two common uses for Spark SQL are:
- to execute SQL queries.
- to read data from an existing Hive installation.
In this instructor-led, live training (onsite or remote), participants will learn how to analyze various types of data sets using Spark SQL.
By the end of this training, participants will be able to:
- Install and configure Spark SQL.
- Perform data analysis using Spark SQL.
- Query data sets in different formats.
- Visualize data and query results.
Format of the Course
- Interactive lecture and discussion.
- Lots of exercises and practice.
- Hands-on implementation in a live-lab environment.
Course Customization Options
- To request a customized training for this course, please contact us to arrange.
Stratio: Rocket and Intelligence Modules with PySpark
14 時間Stratio is a data-centric platform that integrates big data, AI, and governance into a single solution. Its Rocket and Intelligence modules enable rapid data exploration, transformation, and advanced analytics in enterprise environments.
This instructor-led, live training (online or onsite) is aimed at intermediate-level data professionals who wish to use the Rocket and Intelligence modules in Stratio effectively with PySpark, focusing on looping structures, user-defined functions, and advanced data logic.
By the end of this training, participants will be able to:
- Navigate and work within the Stratio platform using Rocket and Intelligence modules.
- Apply PySpark in the context of data ingestion, transformation, and analysis.
- Use loops and conditional logic to control data workflows and feature engineering tasks.
- Create and manage user-defined functions (UDFs) for reusable data operations in PySpark.
Format of the Course
- Interactive lecture and discussion.
- Lots of exercises and practice.
- Hands-on implementation in a live-lab environment.
Course Customization Options
- To request a customized training for this course, please contact us to arrange.