お問い合わせ

コース概要

EXOとローカルAIクラスターリングの概要

  • EXOフレームワークおよびexo-exploreエコシステムの見通し
  • 集中型クラウド推論と分散型ローカル推論の比較
  • アーキテクチャ:libp2pデバイス発見、MLXバックエンド、ダッシュボード、APIレイヤー
  • ハードウェア要件:Apple Silicon(M3 Ultra、M4 Pro/Max)、Thunderbolt 5、共有ストレージ

macOSへのEXOのインストール

  • Xcode、Metalツールチェーン、macOSの前提条件の設定
  • uv、Node.js、Rust nightlyツールチェーンのインストール
  • Apple Siliconの監視用にピン留めされたmacmonフォークのインストール
  • リポジトリのクローン作成とnpmを使用したダッシュボードのビルド
  • ソースからのEXOの実行とlocalhost:52415ダッシュボードの検証

LinuxへのEXOのインストール

  • Linux上でaptまたはHomebrewを使用して依存関係のインストール
  • uv、Node.js 18+、Rust nightlyの設定
  • ダッシュボードのビルドとCPU専用のみのモードでのEXOの実行
  • ディレクトリ構成:設定、データ、キャッシュ、ログ用のXDGベースディレクトリパス

自動デバイス発見とクラスター形成

  • ローカルネットワーク全体でのlibp2pベースの自動発見の理解
  • EXO_LIBP2P_NAMESPACEを使用したカスタムネームスペースによるクラスター分離の設定
  • ダッシュボードのクラスタービューでのノード参加の確認
  • 発見失敗およびネットワーク分割の問題への対処

Thunderbolt 5上のRDMAの有効化

  • RDMAのアーキテクチャと99%のレイテンシ削減主張
  • rdma_ctlを使用してmacOSリカバリモードでRDMAを有効化
  • Mac Studioにおけるケーブル要件およびポートトポロジの制約
  • すべてのクラスターノード間でmacOSバージョンの一致
  • RDMA発見およびDHCP設定のトラブルシューティング

最先端モデルのデプロイ

  • ダッシュボードを使用してDeepSeek v3.1、Qwen3-235B、Llamaファミリーモデルを読み込み、シャード処理。
  • /instance/previews APIエンドポイントを使用してインスタンス配置をプレビュー。
  • パイプラインまたはテンソル並列シャード処理によるモデルインスタンスの作成。
  • HuggingFaceハブからカスタムモデルカードの設定。

監視とトラブルシューティング

  • EXOログの読み取りと分散トレースの理解。
  • ダッシュボードのクラスタービューでクラスターの健全性を解釈。
  • ワーカーノードの失敗および再接続動作の診断。
  • パフォーマンスボトルネックの分析にEXO_TRACING_ENABLEDの使用。

クラスターのメンテナンスと更新

  • EXOバイナリの更新およびダッシュボードの再ビルド手順。
  • NFS上でのモデルキャッシュの移行および事前ダウンロード済みモデルの管理。
  • ノードの正常な削除およびワークロードの再バランス。

要求

  • ネットワークの基本原理(IP、サブネット分け、ファイアウォール)に関する理解
  • macOSまたはLinuxのコマンドライン運用経験
  • Pythonパッケージ管理(pip/uv)およびNode.jsツールキットの習熟

対象者

  • システム管理者
  • DevOpsエンジニア
  • オンプレミスLLM展開を担当するAIインフラストラクチャアーキテクト
 21 時間

参加者の人数


参加者1人あたりの価格

今後のコース

関連カテゴリー