お問い合わせ

コース概要

EXOインフラストラクチャ・アズ・コード

  • EXOデプロイメントパターンの概要:シングルノード、マルチノード、RDMAクラスター
  • 構成管理による依存関係インストールの自動化(Xcode、uv、Node.js、Rust)
  • 再現可能なEXOビルドおよび開発者環境のためのNix flakesの使用
  • 無監視のクラスタープロビジョニングのためのAnsible playbooksまたはシェルスクリプトの記述

再現可能なビルドとCI統合

  • 依存関係のピン留めとCIパイプラインでのダッシュボードのビルド
  • GitHub ActionsまたはGitLab CIランナーでのEXOスモークテストの実行
  • macOSおよびLinux VMのためのゴールドイメージおよびスナップショットベースのロールバックワークフローの作成
  • アプリケーションコードとともにカスタムモデルカードのバージョン管理

クラスター検出とネットワーク自動化

  • 信頼性の高いlibp2pノード検出のためのmDNSおよび静的DNSの設定
  • macOSでのネットワークプロファイル作成とThunderboltブリッジ管理の自動化
  • 開発、ステージング、本番のクラスターを分離するためのカスタム名前空間(EXO_LIBP2P_NAMESPACE)の使用
  • マルチテナント環境のためのファイアウォールルールおよびネットワークセグメンテーション

ストレージとモデルのライフサイクル管理

  • EXO_MODELS_DIRSおよびEXO_MODELS_READ_ONLY_DIRS戦略の設計
  • 迅速なプロビジョニングのための読み取り専用モデルリポジトリとしてNFSまたはSANシェアのマウント
  • 古いキャッシュのガーベッジコレクションとバージョン管理された重みの保持ポリシー
  • ローリングアップデート前にモデルの事前ダウンロードとヘルスチェックを自動化

監視とアラート

  • 集中ロギング(ELK、Loki、Splunk)へのEXOログのエクスポート
  • EXO_TRACING_ENABLEDの出力からのGrafanaダッシュボードの構築
  • クラスターメンバーシップの変更、OOMイベント、推論レイテンシーの急上昇に対するアラート
  • macmonハードウェアテレメトリとモデルパフォーマンスの劣化の相関分析

更新、ロールバック、および災害復旧

  • フリート全体の展開前にカナリアノードでEXOバイナリ更新をステージング
  • モデルレベルのロールバック:再ダウンロードせずに量子化バージョン間で切り替える
  • クラスターの状態、カスタム名前空間、キャッシュされた重みのバックアップと復元
  • クラスターの完全再構築シナリオのための復旧ランブックの文書化

セキュリティ強化とコンプライアンス

  • ダッシュボードとAPIの逆プロキシ層(nginx、traefik)でTLSの適用
  • EXOエンドポイントに対するAPIレート制限とIPホワイトリストの実装
  • VLANおよびゼロトラストネットワークポリシーによるクラスターの分離
  • アクセス監査およびデプロイされたモデルとバージョンのインベントリの維持

要求

  • DevOpsプラクティス(CI/CD、IaC、コンテナオーケストレーション)の経験
  • macOSまたはLinuxのシステム管理およびパッケージ管理の知識
  • ネットワーク、DNS、ストレージの概念の理解

対象者

  • DevOpsエンジニア
  • インフラストラクチャアーキテクト
  • オンプレミスAIワークロードを担当するSRE
 21 時間

参加者の人数


参加者1人あたりの価格

お客様の声 (2)

今後のコース

関連カテゴリー