お問い合わせを送信いただきありがとうございます!当社のスタッフがすぐにご連絡いたします。
予約を送信いただきありがとうございます!当社のスタッフがすぐにご連絡いたします。
コース概要
EXOインフラストラクチャ・アズ・コード
- EXOデプロイメントパターンの概要:シングルノード、マルチノード、RDMAクラスター
- 構成管理による依存関係インストールの自動化(Xcode、uv、Node.js、Rust)
- 再現可能なEXOビルドおよび開発者環境のためのNix flakesの使用
- 無監視のクラスタープロビジョニングのためのAnsible playbooksまたはシェルスクリプトの記述
再現可能なビルドとCI統合
- 依存関係のピン留めとCIパイプラインでのダッシュボードのビルド
- GitHub ActionsまたはGitLab CIランナーでのEXOスモークテストの実行
- macOSおよびLinux VMのためのゴールドイメージおよびスナップショットベースのロールバックワークフローの作成
- アプリケーションコードとともにカスタムモデルカードのバージョン管理
クラスター検出とネットワーク自動化
- 信頼性の高いlibp2pノード検出のためのmDNSおよび静的DNSの設定
- macOSでのネットワークプロファイル作成とThunderboltブリッジ管理の自動化
- 開発、ステージング、本番のクラスターを分離するためのカスタム名前空間(EXO_LIBP2P_NAMESPACE)の使用
- マルチテナント環境のためのファイアウォールルールおよびネットワークセグメンテーション
ストレージとモデルのライフサイクル管理
- EXO_MODELS_DIRSおよびEXO_MODELS_READ_ONLY_DIRS戦略の設計
- 迅速なプロビジョニングのための読み取り専用モデルリポジトリとしてNFSまたはSANシェアのマウント
- 古いキャッシュのガーベッジコレクションとバージョン管理された重みの保持ポリシー
- ローリングアップデート前にモデルの事前ダウンロードとヘルスチェックを自動化
監視とアラート
- 集中ロギング(ELK、Loki、Splunk)へのEXOログのエクスポート
- EXO_TRACING_ENABLEDの出力からのGrafanaダッシュボードの構築
- クラスターメンバーシップの変更、OOMイベント、推論レイテンシーの急上昇に対するアラート
- macmonハードウェアテレメトリとモデルパフォーマンスの劣化の相関分析
更新、ロールバック、および災害復旧
- フリート全体の展開前にカナリアノードでEXOバイナリ更新をステージング
- モデルレベルのロールバック:再ダウンロードせずに量子化バージョン間で切り替える
- クラスターの状態、カスタム名前空間、キャッシュされた重みのバックアップと復元
- クラスターの完全再構築シナリオのための復旧ランブックの文書化
セキュリティ強化とコンプライアンス
- ダッシュボードとAPIの逆プロキシ層(nginx、traefik)でTLSの適用
- EXOエンドポイントに対するAPIレート制限とIPホワイトリストの実装
- VLANおよびゼロトラストネットワークポリシーによるクラスターの分離
- アクセス監査およびデプロイされたモデルとバージョンのインベントリの維持
要求
- DevOpsプラクティス(CI/CD、IaC、コンテナオーケストレーション)の経験
- macOSまたはLinuxのシステム管理およびパッケージ管理の知識
- ネットワーク、DNS、ストレージの概念の理解
対象者
- DevOpsエンジニア
- インフラストラクチャアーキテクト
- オンプレミスAIワークロードを担当するSRE
21 時間
お客様の声 (2)
クレイグはトレーニングに非常に積極的に関わり、常に私たちが注意を払っているか確認し、例を日常の活動に合わせて調整しました。また、プレゼンテーションに含まれていない情報であっても、質問された際には常に回答を提供してくれました。
Ecaterina Ioana Nicoale - BOOKING HOLDINGS ROMANIA SRL
コース - DevOps Foundation®
機械翻訳
講師の高いコミットメントと知識
Jacek - Softsystem
コース - DevOps Engineering Foundation (DOEF)®
機械翻訳