Ascend、Biren、Cambricon 上のパフォーマンス最適化のトレーニングコース
Ascend、Biren、Cambricon は中国で主要な AI ハードウェアプラットフォームであり、それぞれが大規模な AI タスク向けに独自のアクセラレーションとプロファイリングツールを提供しています。
この講師主導のライブトレーニング(オンラインまたはオンサイト)は、中国の複数の AI チッププラットフォーム上でモデル推論と学習ワークフローを最適化したい上級レベルの AI インフラストラクチャおよびパフォーマンスエンジニア向けです。
このトレーニング終了時には、参加者は以下のことが Able to になります:
- Ascend、Biren、Cambricon プラットフォーム上でモデルをベンチマークする。
- システムのボトルネックとメモリ/計算の非効率性を特定する。
- グラフレベル、カーネルレベル、およびオペレータレベルでの最適化を適用する。
- デプロイメントパイプラインを調整して、スループットとラティエンシーを向上させる。
コース形式
- 対話型の講義とディスカッション。
- 各プラットフォーム上でプロファイリングおよび最適化ツールを使用する実践的な操作。
- 実用的なチューニングシナリオに焦点を当てたガイド付き演習。
コースのカスタマイズオプション
- パフォーマンス環境やモデルタイプに基づいたこのコースのカスタマイズトレーニングをご希望の場合、ご連絡ください。
コース概要
パフォーマンスの概念と指標
- レイテンシー、スループット、消費電力、リソース利用率
- システムレベル vs モデルレベルのボトルネック
- 推論用プロファイリング vs 学習用プロファイリング
Huawei Ascend 上でのプロファイリング
- CANN Profiler と MindInsight の使用
- カーネルおよびオペレータ診断
- オフロードパターンとメモリマッピング
Biren GPU 上でのプロファイリング
- Biren SDK パフォーマンス監視機能
- カーネル融合、メモリアライメント、実行キュー
- 消費電力と温度に応じたプロファイリング
Cambricon MLU 上でのプロファイリング
- BANGPy と Neuware パフォーマンスツール
- カーネルレベルの可視化とログ解釈
- MLU プロファイラとデプロイメントフレームワークとの統合
グラフおよびモデルレベルの最適化
- グラフ剪定と量子化戦略
- オペレータ融合と計算グラフの再構成
- 入力サイズの標準化とバッチチューニング
メモリおよびカーネルの最適化
- メモリレイアウトと再利用の最適化
- チップセット間での効率的なバッファ管理
- プラットフォームごとのカーネルレベルの調整技術
クロスプラットフォームのベストプラクティス
- パフォーマンスポータビリティ: 抽象化戦略
- 複数チップ環境向けに共有チューニングパイプラインを構築する
- 例: Ascend、Biren、MLU 跨いで物体検出モデルの調整
まとめと次なるステップ
要求
- AI モデル学習またはデプロイメントパイプラインでの実務経験
- GPU/MLU 計算原理とモデル最適化の理解
- パフォーマンスプロファイリングツールとメトリクスの基本的な知識
対象者
- パフォーマンスエンジニア
- マシンラーニングインフラストラクチャチーム
- AI システムアーキテクト
オープントレーニングコースには5人以上が必要です。
Ascend、Biren、Cambricon 上のパフォーマンス最適化のトレーニングコース - 予約
Ascend、Biren、Cambricon 上のパフォーマンス最適化のトレーニングコース - お問い合わせ
Ascend、Biren、Cambricon 上のパフォーマンス最適化 - コンサルティングお問い合わせ
コンサルティングお問い合わせ
今後のコース
関連コース
Huawei AscendとCANNを使用したAIアプリケーションの開発
21 時間Huawei Ascendは、高性能な推論と学習を目的としたAIプロセッサファミリーです。
このインストラクター主導のライブトレーニング(オンラインまたはオンサイト)は、中級レベルのAIエンジニアやデータサイエンティスト向けで、HuaweiのAscendプラットフォームとCANNツールキットを使用してニューラルネットワークモデルを開発および最適化することを目指しています。
このトレーニング終了時には、参加者は以下のことが Able to できます:
- CANN開発環境のセットアップと設定。
- MindSporeとCloudMatrixワークフローを使用してAIアプリケーションを開発する。
- カスタム演算子とタイリングを使用してAscend NPUのパフォーマンスを最適化する。
- モデルをエッジまたはクラウド環境に展開する。
コースの形式
- インタラクティブな講義とディスカッション。
- サンプルアプリケーションでHuawei AscendとCANNツールキットを使用するハンズオン練習。
- モデルの構築、学習、展開に焦点を当てたガイド付き演習。
コースカスタマイズオプション
- インフラストラクチャやデータセットに基づいたこのコースのカスタマイズトレーニングを希望する場合は、ご連絡ください。
CANNとAscend AIプロセッサを使用したAIモデルのデプロイ
14 時間CANN (Compute Architecture for Neural Networks) は、Huaweiが提供するAI計算スタックで、Ascend AIプロセッサ上でAIモデルを展開および最適化するために使用されます。
このインストラクター主導の実践的なトレーニング(オンラインまたはオンサイト)は、中級レベルのAIデベロッパーやエンジニア向けで、CANNツールキットやMindSpore、TensorFlow、PyTorchなどのツールを使用して、学習済みのAIモデルを効率的にHuawei Ascendハードウェアに展開することを目指しています。
このトレーニングの終了時には、参加者は以下のことができるようになります:
- CANNアーキテクチャとAIデプロイパイプラインにおける役割を理解する。
- 一般的なフレームワークのモデルをAscend互換フォーマットに変換および適応させる。
- ATC、OMモデル変換、MindSporeなどのツールを使用してエッジとクラウド推論を行う。
- 展開に関する問題を診断し、Ascendハードウェア上のパフォーマンスを最適化する。
コースの形式
- 交互的な講義とデモンストレーション。
- CANNツールやAscendシミュレーターやデバイスを使用した実践的なラボワーク。
- 実際のAIモデルに基づく展開シナリオ。
コースカスタマイズオプション
- このコースのカスタマイズトレーニングを希望される場合は、お問い合わせください。
CloudMatrixを使用したAI推論とデプロイ
21 時間CloudMatrixは、Huaweiの統合AI開発およびデプロイプラットフォームで、スケーラブルで本番環境向けの推論パイプラインをサポートするように設計されています。
この講師主導の実践的なトレーニング(オンラインまたはオンサイト)は、CloudMatrixプラットフォームを使用してAIモデルをデプロイおよび監視したい初級から中級レベルのAI専門家向けです。CANNとMindSporeとの統合もサポートされます。
このトレーニング終了時には、参加者は以下のことができるようになります:
- CloudMatrixを使用してモデルをパッケージ化、デプロイ、提供する。
- Ascendチップセット向けにモデルを変換および最適化する。
- 実時間とバッチ推論タスクのパイプラインを設定する。
- 本番環境でのデプロイメントを監視し、パフォーマンスを調整する。
コース形式
- 対話型の講義とディスカッション。
- 実際のデプロイメントシナリオを使用したCloudMatrixの実践的な使用。
- 変換、最適化、および拡張に焦点を当てたガイド付き演習。
コースカスタマイズオプション
- AIインフラストラクチャやクラウド環境に基づいてこのコースをカスタマイズしたい場合は、ご連絡ください。
Biren AI アクセレレーターでの GPU プログラミング
21 時間Biren AI アクセレレーターは、AI と HPC タスク向けに設計された高性能 GPU であり、大規模なトレーニングと推論をサポートしています。
このインストラクター主導のライブトレーニング(オンラインまたはオンサイト)は、中級から上級レベルの開発者向けに設計されており、Biren の独自 GPU スタックを使用してアプリケーションをプログラミングおよび最適化する方法を学びます。CUDA ベースの環境との実践的な比較も行われます。
このトレーニング終了後、参加者は以下を行うことができます:
- Biren GPU アーキテクチャとメモリアイアラキーを理解します。
- 開発環境のセットアップと Biren のプログラミングモデルの使用方法を学びます。
- CUDA スタイルのコードを Biren プラットフォーム向けに翻訳および最適化します。
- パフォーマンス調整とデバッグテクニックを適用します。
コースの形式
- インタラクティブな講義とディスカッション。
- Biren SDK を使用したサンプル GPU ワークロードの手動操作。
- ポーティングとパフォーマンス調整に焦点を当てたガイド付き演習。
コースのカスタマイズオプション
- アプリケーションスタックや統合要件に基づいてこのコースをカスタマイズしたい場合は、お問い合わせください。
Cambricon MLU開発とBANGPy、Neuwareを使用した開発
21 時間Cambricon MLUs(Machine Learning Units)は、エッジおよびデータセンターのシナリオで推論と学習に最適化された専用AIチップです。
このインストラクター主導の実践的なトレーニング(オンラインまたはオンサイト)では、中級レベルの開発者がBANGPyフレームワークとNeuware SDKを使用してCambricon MLUハードウェア上でAIモデルを構築およびデプロイする方法を学びます。
このトレーニング終了時には、参加者は以下のことが Able になります:
- BANGPyとNeuwareの開発環境を設定および構成します。
- PythonおよびC++ベースのモデルをCambricon MLUs向けに開発および最適化します。
- Neuwareランタイムを使用してエッジデバイスやデータセンターデバイスにモデルをデプロイします。
- MLU固有のアクセラレーション機能を統合したMLワークフローを作成します。
コース形式
- 対話型講義とディスカッション。
- BANGPyとNeuwareを使用した開発とデプロイの実践。
- 最適化、統合、テストに焦点を当てた指導付き演習。
コースカスタマイゼーションオプション
- Cambriconデバイスモデルやユースケースに基づいたカスタマイズされたトレーニングをご希望の場合は、お問い合わせください。
CANNを用いたAIフレームワーク開発者の入門
7 時間CANN (Compute Architecture for Neural Networks)は、HuaweiのAIコンピューティングツールキットで、Ascend AIプロセッサ上でAIモデルをコンパイル、最適化、および展開するために使用されます。
このインストラクター主導のライブトレーニング(オンラインまたはオンサイト)は、初心者のAI開発者向けに設計されており、CANNがモデルライフサイクルの訓練から展開までの位置づけや、MindSpore、TensorFlow、PyTorchなどのフレームワークとの連携について理解することを目指しています。
このトレーニング終了時には、参加者は以下のことをできるようになります:
- CANNツールキットの目的とアーキテクチャを理解する。
- CANNとMindSporeを使用した開発環境のセットアップ。
- 単純なAIモデルをAscendハードウェアに変換および展開する。
- 今後のCANN最適化や統合プロジェクトのための基礎知識を得る。
コース形式
- 対話型の講義とディスカッション。
- 単純なモデル展開を伴うハンズオンラボ。
- CANNツールチェーンと統合ポイントのステップバイステップガイド。
コースカスタマイゼーションオプション
- このコースのカスタマイズされたトレーニングを希望する場合は、お問い合わせください。
エッジAIデプロイメントのCANN
14 時間HuaweiのAscend CANNツールキットは、Ascend 310などのエッジデバイス上で強力なAI推論を可能にします。CANNは、コンピュートとメモリが制約される環境でのモデルのコンパイル、最適化、およびデプロイメントに必要なツールを提供します。
このインストラクター主導の実践的なトレーニング(オンラインまたはオンサイト)は、中級レベルのAI開発者や統合者がCANNツールチェーンを使用してAscendエッジデバイスにモデルをデプロイおよび最適化することを目指しています。
このトレーニング終了時には、参加者は以下ができます:
- CANNツールを使用してAscend 310向けにAIモデルを準備し、変換します。
- MindSpore LiteとAscendCLを使用して軽量な推論パイプラインを構築します。
- 限られたコンピュートとメモリ環境でのモデル性能を最適化します。
- 実際のエッジユースケースでAIアプリケーションをデプロイおよび監視します。
コース形式
- 双方向の講義と実演。
- エッジ固有のモデルやシナリオを使用したハンズオンラボ作業。
- 仮想または物理的なエッジハードウェアでの実際のデプロイメント例。
コースカスタマイゼーションオプション
- このコースのカスタマイズトレーニングを希望する場合は、ご連絡ください。
HuaweiのAIコンピュートスタックを理解する: CANNからMindSporeまで
14 時間HuaweiのAIスタック — 下位レベルのCANN SDKから上位レベルのMindSporeフレームワークまで — Ascendハードウェア向けに最適化された、緊密に統合されたAI開発および展開環境を提供します。
この講師主導のライブトレーニング(オンラインまたはオンサイト)は、初心者から中級レベルの技術専門家向けで、CANNとMindSporeの各コンポーネントがどのように協調してAIライフサイクル管理とインフラストラクチャ決定をサポートするかを理解することを目指しています。
このトレーニングの終了時には、参加者は以下のことが Able to できるようになります:
- HuaweiのAIコンピュートスタックの階層構造を理解します。
- CANNがモデル最適化とハードウェアレベルでの展開をどのようにサポートするかを特定します。
- MindSporeフレームワークとツールチェーンを業界の代替品と比較評価します。
- HuaweiのAIスタックをエンタープライズやクラウド/オンプレミス環境に位置付けます。
コース形式
- 交互的な講義と議論。
- ライブシステムデモとケーススタディの解説。
- MindSporeからCANNへのモデルフローに関するオプションのガイドルーム。
コースカスタマイズオプション
- このコースのカスタマイズされたトレーニングを依頼するには、お問い合わせください。
CANN SDKを活用したニューラルネットワークの性能最適化
14 時間CANN SDK (Compute Architecture for Neural Networks) は、Huawei の AI 計算基盤で、開発者が Ascend AI プロセッサ上で展開されたニューラルネットワークの性能を微調整および最適化することができます。
このインストラクター主導のライブトレーニング(オンラインまたはオンサイト)は、CANN の高度なツールセット、Graph Engine、TIK、カスタムオペレータ開発を使用して推論性能を最適化したい上級レベルの AI 開発者とシステムエンジニア向けです。
このトレーニング終了時には、参加者は以下のことができます:
- CANN のランタイムアーキテクチャとパフォーマンスライフサイクルを理解する。
- プロファイリングツールと Graph Engine を使用して性能分析と最適化を行う。
- TIK と TVM を使用してカスタムオペレータを作成および最適化する。
- メモリボトルネックを解決し、モデルのスループットを向上させる。
コース形式
- 対話型レクチャーとディスカッション。
- リアルタイムプロファイリングとオペレータチューニングのハンズオンラボ。
- エッジケース展開例を使用した最適化練習。
コースカスタマイゼーションオプション
- このコースのカスタマイズされたトレーニングを依頼する場合は、ご連絡ください。
CANN SDK for Computer Vision and NLP Pipelines
14 時間CANN SDK(Compute Architecture for Neural Networks)は、コンピュータビジョンとNLPのリアルタイムAIアプリケーションにおける強力な展開と最適化ツールを提供します。特にHuawei Ascendハードウェア上で活用されます。
この講師主導のライブトレーニング(オンラインまたはオンサイト)は、中級レベルのAI実践者向けです。CANN SDKを使用して視覚や言語モデルを構築、展開、最適化したい方々に適しています。
このトレーニング終了時には、参加者は以下のことができるようになります:
- CANNとAscendCLを使用してCVおよびNLPモデルを展開し最適化する。
- CANNツールを使用してモデルを変換し、ライブパイプラインに統合する。
- 検出、分類、感情分析などのタスクにおける推論パフォーマンスを最適化する。
- エッジまたはクラウドベースの展開シナリオ向けにリアルタイムCV/NLPパイプラインを構築する。
コース形式
- インタラクティブな講義とデモンストレーション。
- モデル展開とパフォーマンスプロファイリングのハンズオンラボ。
- 実際のCVおよびNLPユースケースを使用したライブパイプライン設計。
コースカスタマイゼーションオプション
- このコースのカスタマイズトレーニングを希望される場合は、ご連絡ください。
CANN TIKとTVMを使用したカスタムAIオペレータの構築
14 時間CANN TIK (Tensor Instruction Kernel) と Apache TVM は、Huawei Ascend ハードウェア向けに AI モデルのオペレータを高度に最適化し、カスタマイズすることを可能にします。
このインストラクター主導のライブトレーニング(オンラインまたはオンサイト)は、CANN の TIK プログラミングモデルと TVM コンパイラ統合を使用して、カスタムオペレータを構築、展開、調整する高度なシステム開発者向けです。
本トレーニングの終了時には、参加者は以下のことができるようになります:
- Ascend プロセッサ用に TIK DSL を使用してカスタム AI オペレータを記述し、テストする。
- CANN ランタイムと実行グラフにカスタムオプスを統合する。
- TVM を使用してオペレータのスケジューリング、自動調整、ベンチマークを行う。
- カスタム計算パターンの命令レベルのパフォーマンスをデバッグし、最適化する。
コース形式
- 交互的な講義とデモンストレーション。
- TIK および TVM パイプラインを使用したオペレータの手動コーディング。
- Ascend ハードウェアまたはシミュレーターでのテストと調整。
コースカスタマイズオプション
- このコースのカスタムトレーニングを依頼する場合は、お問い合わせください。
CUDA アプリケーションの中国 GPU アーキテクチャへの移行
21 時間華為アセンディ、百綿、およびカムブリコン MLU などの中国の GPU アーキテクチャは、地元の AI と HPC 市場向けに特化した CUDA の代替品を提供しています。
この講師主導のライブトレーニング(オンラインまたはオンサイト)は、既存の CUDA アプリケーションを中国のハードウェアプラットフォームに移行および最適化したい高度な GPU プログラマーやインフラストラクチャ専門家向けです。
このトレーニング終了時には、参加者は以下を行うことができます:
- 既存の CUDA 負荷が中国製チップの代替品とどの程度互換性があるかを評価します。
- CUDA コードベースを華為 CANN、百綿 SDK、およびカムブリコン BANGPy 環境に移植します。
- プラットフォーム間でパフォーマンスを比較し、最適化ポイントを特定します。
- クロスアーキテクチャのサポートと展開における実用的な課題に対処します。
コースの形式
- 対話型の講義とディスカッション。
- コード翻訳とパフォーマンス比較の手順実習。
- 複数 GPU への適応戦略に焦点を当てたガイダンス付き演習。
コースのカスタマイズオプション
- プラットフォームや CUDA プロジェクトに基づいてこのコースのカスタマイズ版をお求めの場合、ご連絡ください。