ホーム
ビッグデータフリアイング
ビッグデータ分析のためのデータサイエンスのトレーニングコース

ビッグデータ分析のためのデータサイエンスのトレーニングコース

ビッグデータとは、その量と複雑さが伝統的なデータ処理アプリケーションソフトウェアでは十分に扱えないデータセットのことを指します。ビッグデータの課題には、データの収集、保存、分析、検索、共有、転送、可視化、クエリ、更新、情報プライバシーなどがあります。

お問い合わせを送信いただきありがとうございます！当社のスタッフがすぐにご連絡いたします。

予約を送信いただきありがとうございます！当社のスタッフがすぐにご連絡いたします。

コース概要

ビッグデータ分析のためのデータサイエンス入門

データサイエンスの概要
ビッグデータの概要
データ構造
ビッグデータの動機と複雑さ
ビッグデータエコシステムと新しい分析アプローチ
ビッグデータの主要技術
データマイニングのプロセスと課題
- 関連パターンマイニング
- データクラスタリング
- 外れ値検出
- データ分類

データ分析ライフサイクルの入門

発見
データ準備
モデル計画
モデル構築
結果の提示・コミュニケーション
実装
演習: ケーススタディ

このポイントから、訓練時間の80%がRおよび関連するビッグデータテクノロジーの例と演習に費やされます。

Rの入門

RとRstudioのインストール
R言語の特徴
Rのオブジェクト
Rにおけるデータ
データ操作
ビッグデータの問題点
演習

Hadoopの入門

Hadoopのインストール
Hadoopモードの理解
HDFS
MapReduceアーキテクチャ
Hadoop関連プロジェクトの概要
Hadoop MapReduceでのプログラム作成
演習

RとHadoopをRHadoopで統合する

RHadoopのコンポーネント
RHadoopのインストールとHadoopとの接続
RHadoopのアーキテクチャ
RによるHadoopストリーミング
RHadoopを用いたデータ分析問題解決
演習

前処理とデータ準備

データ準備の手順
特徴量抽出
データクリーニング
データ統合と変換
データ削減 - サンプリング、特徴量部分集合選択
次元削減
離散化とビニング
演習とケーススタディ

Rにおける探査的データ分析手法

記述統計
探査的データ分析
可視化 - 初期段階
単変量の可視化
複数変量の検討
評価のための統計手法
仮説検定
演習とケーススタディ

データ可視化

Rにおける基本的な可視化
データ可視化のパッケージ ggplot2, lattice, plotly, lattice
Rにおけるプロットのフォーマット
高度なグラフ
演習

回帰 (将来値の予測)

線形回帰
ユースケース
モデルの説明
診断
線形回帰の問題点
縮小法、リッジ回帰、ラソ
一般化と非線形性
回帰スプライン
局所多項式回帰
一般加法モデル
RHadoopによる回帰
演習とケーススタディ

モデルの性能評価と選択

バイアス、分散、モデルの複雑さ
精度 vs 解釈可能性
分類器の評価
モデル/アルゴリズムの性能測定
ホールドアウト検証法
クロスバリデーション
caretパッケージによる機械学習アルゴリズムの調整
Profit ROCとLift曲線を用いたモデル性能の可視化

アンサンブル手法

バギング
ランダムフォレスト
ブースティング
勾配ブースティング
演習とケーススタディ

分類と回帰のためのサポートベクトルマシン

最大限の余裕を持つ分類器
- サポートベクトル分類器
- サポートベクトルマシン
- 分類問題へのSVMの適用
- 回帰問題へのSVMの適用
演習とケーススタディ

データセット内の未知のグループを特定する

クラスタリングのための特徴量選択
代表点ベースアルゴリズム: k-means, k-medoids
階層的アルゴリズム: 集約法と分割法
確率的基底アルゴリズム: EM
密度ベースアルゴリズム: DBSCAN, DENCLUE
クラスタ検証
高度なクラスタリング概念
RHadoopによるクラスタリング
演習とケーススタディ

リンク分析を用いたつながりの発見

リンク分析の概念
ネットワーク解析のためのメトリクス
Pagerankアルゴリズム
Hyperlink-Induced Topic Search (HITS)
リンク予測
演習とケーススタディ

テキスト分析

テキスト分析の手順
生データの収集
単語袋モデル
TF-IDF (Term Frequency - Inverse Document Frequency)
センチメントの決定
演習とケーススタディ

35 時間

参加者の人数

オンライン

教室

場所を選択

会場を選択してください

参加者1人あたりの価格

オープントレーニングコースには5人以上が必要です。

ビッグデータ分析のためのデータサイエンスのトレーニングコース - 予約

名前 *

メールアドレス *

電話番号 *

仕事のタイトル

会社名

住所１ *

都市 *

州/県

国 *

郵便番号 *

開始日

税番号

日程は利用可能な場合に 10:00 から 17:00 までに行われます。

支払い *

銀行振込（請求書、注文書）

デビット / クレジットカード

規約と条件 *

私は上記のクライアントの代理人であり、NobleProgの利用規約とプライバシーポリシーに従って上記のコースまたはサービスを予約したいと思います。

割引やプロモーションについてお知らせください

当社のプライバシーポリシーをご確認いただき、お客様データの取り扱い方法についてご理解ください。

ビッグデータ分析のためのデータサイエンスのトレーニングコース - お問い合わせ

名前 *

メールアドレス *

電話番号 *

参加者の人数

会社名

会社住所

どのようにコースを受講されますか？

クライアントの施設

オンライン

教室

割引やプロモーションについてお知らせください

当社のプライバシーポリシーをご確認いただき、お客様データの取り扱い方法についてご理解ください。

ビッグデータ分析のためのデータサイエンス - コンサルティングお問い合わせ

名前 *

電話番号 *

メールアドレス *

会社名

相談のタイトル *

相談の目的

コンサルタントは誰と仕事しますか？

相談の緊急性 *

割引やプロモーションについてお知らせください

当社のプライバシーポリシーをご確認いただき、お客様データの取り扱い方法についてご理解ください。

お客様の声 (2)

強度、トレーニング資料と専門知識、明瞭性、アレッサンドラとの優れたコミュニケーション

Marija Hornis Dmitrovic - Marija Hornis

コース - Data Science for Big Data Analytics

機械翻訳

The example and training material were sufficient and made it easy to understand what you are doing.

Teboho Makenete

コース - Data Science for Big Data Analytics

Anacondaのコンポーネントやライブラリをインストールし設定する。
Anacondaのコア概念、機能、および利点を理解する。
Anaconda Navigatorを使用してパッケージ、環境、チャネルを管理する。
Conda、R、Pythonパッケージをデータサイエンスと機械学習に使用する。
複数のデータ環境を管理するための実践的なユースケースやテクニックについて知る。

Google ColabとApache Sparkを使用したビッグデータ分析

14 時間

このインストラクター主導のライブトレーニング（オンラインまたはオンサイト）は、中級レベルのデータサイエンティストやエンジニアを対象としており、Google ColabとApache Sparkを使用してビッグデータの処理と分析を行いたい方々向けです。

このトレーニング終了時には、参加者は以下ができることを目指します：

Google ColabとSparkを使用してビッグデータ環境をセットアップする。
Apache Sparkを使用して大量のデータセットを効率的に処理および分析する。
協調的な環境でビッグデータを可視化する。
Apache Sparkとクラウドベースのツールを統合する。

ヘルスケアにおけるビッグデータ分析

21 時間

ビッグデータ分析は、大量の多様なデータセットを検証し、相関関係、隠れたパターン、その他の有用な洞察を見出すプロセスです。

医療業界には、非常に複雑で異種の医療および臨床データが膨大に存在します。ヘルスケアデータに対するビッグデータ分析の適用は、医療提供の改善につながる洞察を得る上で大きなポテンシャルを持っています。しかし、これらのデータセットの巨大さは、解析や臨床環境への実用的な応用において大きな課題をもたらしています。

このインストラクター主導のライブトレーニング（リモート）では、参加者は一連の手動実習を通じてヘルスケアにおけるビッグデータ分析を学びます。

このトレーニング終了時には、参加者は以下のことができます：

Hadoop MapReduce や Spark などのビッグデータ分析ツールのインストールと設定
医療データの特性を理解する
医療データに対処するためのビッグデータ技術の適用
ヘルスケア応用におけるビッグデータシステムとアルゴリズムの研究

対象者

開発者
データサイエンティスト

コース形式

講義、ディスカッション、演習、そして多くの手動実践が含まれています。

注意事項

このコースのカスタマイズされたトレーニングを希望される場合は、お問い合わせください。

HadoopとSparkの管理者向けトレーニング

35 時間

この講師主導型のライブトレーニング（オンラインまたはオンサイト）は、組織内でHadoopクラスターを設定、展開、管理したいシステム管理者を対象としています。

このトレーニング終了後、参加者は以下のことができるようになります：

Apache Hadoopのインストールと構成を行う。
Hadoopエコシステムの4つの主要なコンポーネント（HDFS、MapReduce、YARN、およびHadoop Common）を理解する。
Hadoop Distributed File System (HDFS)を使用して、クラスターを数百または数千のノードにスケーリングする。
HDFSをオンプレミスのSpark展開のストレージエンジンとして設定する。
Amazon S3やRedis、Elasticsearch、Couchbase、AerospikeなどのNoSQLデータベースシステムへのアクセスを設定する。
Apache Hadoopクラスターのプロビジョニング、管理、監視、セキュリティ対策など、管理者としてのタスクを行う。

ストリーム処理の実践的な導入

21 時間

このインストラクター主導のライブトレーニング（日本、オンサイトまたはリモート）では、参加者は既存の大規模データストレージシステムや関連するソフトウェアアプリケーションおよびマイクロサービスと異なるストリーム処理フレームワークを設定し統合する方法を学びます。

このトレーニングの終了時には、参加者は以下のことができるようになります：

Spark Streaming と Kafka Streaming のような異なるストリーム処理フレームワークをインストールおよび設定する。
タスクに最も適したフレームワークを選択し理解する。
データを連続的、並行的に、レコードごとに処理する。
ストリーム処理ソリューションを既存のデータベース、データウェアハウス、データレイクなどと統合する。
企業アプリケーションおよびマイクロサービスに最も適したストリーム処理ライブラリを統合する。

Kaggle

14 時間

このインストラクター主導のライブトレーニング（オンラインまたはオンサイト）は、Kaggleを使用してデータサイエンスのキャリアを学びたいと考えているデータサイエンティストや開発者向けです。

このトレーニング終了時には、参加者は以下のことが able to できます：

データサイエンスと機械学習について学ぶ。
データ分析を探索する。
Kaggleとその機能について学ぶ。

Modinを使用してPython Pandasワークフローを加速

14 時間

この講師主導のライブトレーニング（オンラインまたはオンサイト）は、Modinを使用して並列計算を構築および実装し、高速なデータ分析を行うことを目指すデータサイエンティストや開発者向けです。

このトレーニング終了時には、参加者は以下のことが Able to:

必要な環境を設定して、Modinを使用してスケールアウトするPandasワークフローの開発を開始します。
Modinの機能、アーキテクチャ、および優位性を理解します。
Modin、Dask、およびRayの違いを知ります。
Modinを使用してPandas操作を高速に行います。
全Pandas APIと関数を実装します。

PySpark と機械学習

21 時間

このトレーニングは、PySpark を使用したスケーラブルなデータ処理および機械学習ワークフローの構築に関する実践的な入門を提供します。参加者は、Apache Spark が現代のビッグデータエコシステム内でどのように動作するか、分散コンピューティングの原則を用いて大規模データセットを効率的に処理する方法を学びます。

NVIDIA RAPIDSによるGPUデータサイエンス

14 時間

この講師主導のライブトレーニング（オンラインまたはオンサイト）は、データサイエンティストや開発者向けに設計されており、RAPIDSを使用してGPUアクセラレートされたデータパイプライン、ワークフロー、および可視化を構築し、XGBoost、cuMLなどの機械学習アルゴリズムを適用する方法を学ぶことができます。

このトレーニングの終了時には、参加者は以下のことができるようになります：

NVIDIA RAPIDSを使用してデータモデルを構築するために必要な開発環境をセットアップする。
RAPIDSの特徴、コンポーネント、および利点を理解する。
GPUを活用してエンドツーエンドのデータと分析パイプラインを加速する。
cuDFとApache Arrowを使用してGPUアクセラレートされたデータ準備とETLを実装する。
XGBoostとcuMLアルゴリズムを使用して機械学習タスクを行う方法を学ぶ。
cuXfilterとcuGraphを使用してデータ可視化とグラフ分析を構築する。

データサイエンスのためのSMACKスタック

14 時間

このインストラクター主導のライブトレーニング（オンラインまたはオンサイト）は、ビッグデータソリューションのためのデータ処理プラットフォームを構築したいデータサイエンティストを対象としています。

このトレーニングが終了したとき、参加者は以下のことをできるようになります：

ビッグデータの処理に使用されるデータパイプラインアーキテクチャを実装します。
Apache MesosとDockerを使用してクラスタインフラストラクチャを開発します。
SparkとScalaを使用してデータを分析します。
Apache Cassandraを使用して非構造化データを管理します。

Apache Spark の基本

21 時間

この講師主導のライブトレーニング（オンラインまたはオンサイト）は、大量のデータを処理するために Apache Spark システムを設定し展開したいエンジニア向けです。

本トレーニング終了後、参加者は以下のことが行えるようになります：

Apache Spark をインストールおよび設定する。
大量のデータセットを迅速に処理し分析する。
Apache Spark と Hadoop MapReduce の違いを理解し、どちらを使用すべきか判断できる。
他の機械学習ツールと Apache Spark を統合する。

Apache Spark の管理

35 時間

この講師主導のライブトレーニング（オンラインまたは対面）は、初級から中級レベルのシステム管理者を対象としており、Spark クラスタの展開、維持、最適化を目指しています。

このトレーニングの終了時には、参加者は以下のことができるようになります：

様々な環境での Apache Spark のインストールと設定を行うことができます。
クラスタリソースを管理し、Spark アプリケーションを監視することができます。
Spark クラスタのパフォーマンスを最適化することができます。
セキュリティ対策を実施し、高可用性を確保することができます。
一般的な Spark の問題のデバッグとトラブルシューティングを行うことができます。

Apache Spark の学習曲線は最初緩やかに上昇しますが、初めて成果を得るためには多くの努力が必要です。このコースは、最初の難しい部分を飛ばすことを目指しています。このコースを修了した参加者は、Apache Spark の基本を理解し、RDD と DataFrame を明確に区別し、Python と Scala API を学び、実行者とタスクを理解するなど、多くのスキルを身につけることができます。また、ベストプラクティスに基づいて、このコースはクラウド展開、Databricks および AWS に強い焦点を当てています。学生たちは、AWS EMR と AWS Glue の違いも理解し、AWS の最新の Spark サービスの一つである AWS Glue についても学びます。

対象者:

Data Engineer, DevOps, Data Scientist

PythonとSparkを使用したビッグデータ分析 (PySpark)

21 時間

このインストラクター主導のライブトレーニングでは、参加者は手順演習を通じてPythonとSparkを組み合わせてビッグデータを分析する方法を学びます。

このトレーニング終了時には、参加者は以下のことをできるようになります：

Pythonを使用してSparkでビッグデータを分析する方法を学ぶ。
現実の事例を模した演習を行う。
PySparkを使用したビッグデータ分析のさまざまなツールと技術を利用する。

Stratio: PySparkを使用したRocketとIntelligenceモジュール

14 時間

Stratioは、ビッグデータ、AI、ガバナンスを統合したデータ中心のプラットフォームです。そのRocketとIntelligenceモジュールにより、エンタープライズ環境での迅速なデータ探索、変換、高度な分析が可能になります。

このインストラクター主導のライブトレーニング（オンラインまたはオンサイト）は、中級レベルのデータ専門家を対象とし、PySparkを使用してStratioのRocketとIntelligenceモジュールを効果的に活用することに焦点を当てます。ループ構造、ユーザー定義関数、および高度なデータロジックが重点となります。

このトレーニングの終了時には、参加者は以下が Able to できます：

RocketとIntelligenceモジュールを使用してStratioプラットフォームをナビゲートし、操作する。
データの取り込み、変換、分析の文脈でPySparkを適用する。
ループと条件ロジックを使用してデータワークフローと特徴エンジニアリングタスクを制御する。
再利用可能なデータ操作のため、PySparkでユーザー定義関数（UDFs）を作成および管理する。

コース形式

インタラクティブな講義とディスカッション。
多数の演習と実践。
ライブラボ環境での手動実装。

コースカスタマイズオプション

このコースのカスタマイズトレーニングを依頼するには、お問い合わせください。

ビッグデータ分析のためのデータサイエンスのトレーニングコース

コース概要

ビッグデータ分析のためのデータサイエンス入門

データ分析ライフサイクルの入門

このポイントから、訓練時間の80%がRおよび関連するビッグデータテクノロジーの例と演習に費やされます。

Rの入門

Hadoopの入門

RとHadoopをRHadoopで統合する

前処理とデータ準備

Rにおける探査的データ分析手法

データ可視化

回帰 (将来値の予測)

分類

モデルの性能評価と選択

アンサンブル手法

分類と回帰のためのサポートベクトルマシン

データセット内の未知のグループを特定する

リンク分析を用いたつながりの発見

関連パターンマイニング

推薦エンジンの構築

テキスト分析

お客様の声 (2)

Marija Hornis Dmitrovic - Marija Hornis

コース - Data Science for Big Data Analytics

Teboho Makenete

コース - Data Science for Big Data Analytics

今後のコース

ビッグデータ分析のためのデータサイエンス

ビッグデータ分析のためのデータサイエンス

ビッグデータ分析のためのデータサイエンス

ビッグデータ分析のためのデータサイエンス

ビッグデータ分析のためのデータサイエンス

関連カテゴリー

他の国・地域のこのサイト

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites

ビッグデータ分析のためのデータサイエンスのトレーニングコース

コース概要

ビッグデータ分析のためのデータサイエンス入門

データ分析ライフサイクルの入門

このポイントから、訓練時間の80%がRおよび関連するビッグデータテクノロジーの例と演習に費やされます。

Rの入門

Hadoopの入門

RとHadoopをRHadoopで統合する

前処理とデータ準備

Rにおける探査的データ分析手法

データ可視化

回帰 (将来値の予測)

分類

モデルの性能評価と選択

アンサンブル手法

分類と回帰のためのサポートベクトルマシン

データセット内の未知のグループを特定する

リンク分析を用いたつながりの発見

関連パターンマイニング

推薦エンジンの構築

テキスト分析

お客様の声 (2)

Marija Hornis Dmitrovic - Marija Hornis

コース - Data Science for Big Data Analytics

Teboho Makenete

コース - Data Science for Big Data Analytics

今後のコース

ビッグデータ分析のためのデータサイエンス

ビッグデータ分析のためのデータサイエンス

ビッグデータ分析のためのデータサイエンス

ビッグデータ分析のためのデータサイエンス

ビッグデータ分析のためのデータサイエンス

関連コース

データサイエンティストのためのAnacondaエコシステム

Google ColabとApache Sparkを使用したビッグデータ分析

ヘルスケアにおけるビッグデータ分析

HadoopとSparkの管理者向けトレーニング

ストリーム処理の実践的な導入

Kaggle

Modinを使用してPython Pandasワークフローを加速

PySpark と機械学習

NVIDIA RAPIDSによるGPUデータサイエンス

データサイエンスのためのSMACKスタック

Apache Spark の基本

Apache Spark の管理

クラウドでの Apache Spark

PythonとSparkを使用したビッグデータ分析 (PySpark)

Stratio: PySparkを使用したRocketとIntelligenceモジュール

関連カテゴリー

ビッグデータ

データサイエンス

他の国・地域のこのサイト

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites