お問い合わせ

コース概要

Tencent Hunyuan 本番環境の基礎

  • Tencent Hunyuan モデル提供シナリオの概要
  • 大規模モデルおよび MoE モデルの本番環境における特性
  • 一般的な遅延、スループット、およびコストのボトルネック
  • 推論ワークロードに対するサービスレベル目標(SLO)の定義

展開アーキテクチャと提供フロー

  • 本番環境推論スタックの中核コンポーネント
  • コンテナ化、オンプレミス、クラウドの展開モデルの選択
  • モデル読み込み、リクエストルーティング、GPU 割当ての基礎
  • 信頼性と運用の簡素化を考慮した設計

実践的な遅延最適化

  • 適用可能な場合の TensorRT などの最適化された推論エンジンの活用
  • KV キャッシュの概念と実用的なキャッシュ調整
  • 起動、ウォームアップ、応答オーバーヘッドの削減
  • 初回トークンまでの時間(TTFT)およびトークン生成速度の測定

スループット、バッチ処理、および GPU 効率

  • 継続的バッチ処理およびリクエストバッチ処理戦略
  • 同時実行性の管理とキュー動作
  • ユーザーエクスペリエンスを損なうことなく GPU 利用率を向上
  • 長コンテキストおよび混合ワークロードリクエストの処理

量子化とコスト制御

  • 本番環境提供における量子化の重要性
  • FP16、INT8、およびその他の一般的な精度オプションの実用的なトレードオフ
  • モデルの品質、遅延、およびインフラコストのバランス調整
  • シンプルなコスト最適化チェックリストの作成

運用、監視、および準備状況レビュー

  • 推論サービスのためのオートスケーリングトリガー
  • 遅延、スループット、キャッシュ使用量、および GPU の健全性の監視
  • ロギング、アラート、およびインシデント対応の基礎
  • 参考となる展開のレビューと改善計画の策定

要求

  • 大規模言語モデルの展開および推論ワークフローに関する基礎的な理解
  • コンテナ、クラウドまたはオンプレミスインフラストラクチャ、および API ベースのサービスに関する経験
  • Python またはシステムエンジニアリングタスクの実務知識

対象者

  • 本番環境に LLM を展開する ML エンジニア
  • GPU ベースの推論サービスを担当するプラットフォームエンジニア
  • スケーラブルな AI 提供プラットフォームを設計するソリューションアーキテクト
 14 時間

参加者の人数


参加者1人あたりの価格

今後のコース

関連カテゴリー