お問い合わせ

コース概要

AIの主権とLLMのローカルデプロイ

  • クラウドLLMのリスク:データ保持、入力に基づく学習、外国の管轄権。
  • Ollamaのアーキテクチャ:モデルサーバー、レジストリ、OpenAI互換API。
  • vLLM、llama.cpp、Text Generation Inferenceとの比較。
  • モデルライセンス:Llama、Mistral、Qwen、Gemmaの利用条件。

インストールとハードウェアセットアップ

  • CUDAおよびROCmサポート付きLinuxへのOllamaのインストール。
  • CPU単独時のフォールバックおよびAVX/AVX2の最適化。
  • Dockerデプロイメントおよび永続ボリュームのマッピング。
  • マルチGPUセットアップとVRAM割り当て戦略。

モデル管理

  • Ollamaレジストリからのモデルプル:ollama pull llama3。
  • HuggingFaceおよびTheBlokeからのGGUFモデルのインポート。
  • 量子化レベル:Q4_K_M、Q5_K_M、Q8_0のトレードオフ。
  • モデルの切り替えと同時モデル読み込みの制限。

カスタムModelfile

  • Modelfile構文の作成:FROM、PARAMETER、SYSTEM、TEMPLATE。
  • Temperature、top_p、repeat_penaltyの調整。
  • 役割固有の動作のためのシステムプロンプトエンジニアリング。
  • カスタムモデルの作成とローカルレジストリへの公開。

API統合

  • OpenAI互換 /v1/chat/completions エンドポイント。
  • ストリーミング応答およびJSONモード。
  • LangChain、LlamaIndex、およびカスタムアプリケーションとの統合。
  • リバースプロキシを用いた認証とレート制限。

パフォーマンスの最適化

  • コンテキストウィンドウのサイズ設定とKVキャッシュの管理。
  • バッチ推論とリクエストの並行処理。
  • CPUスレッドの割り当てとNUMAの考慮。
  • GPU利用率とメモリ圧迫の監視。

セキュリティとコンプライアンス

  • モデル提供エンドポイントのネットワーク隔離。
  • 入力フィルタリングと出力審査のパイプライン。
  • プロンプトおよび補完の監査ログ記録。
  • モデルの由来とハッシュ検証。

要求

  • 中級レベルのLinuxおよびコンテナ管理知識。
  • マシンラーニングおよびトランスフォーマーモデルの概要的理解。
  • REST APIおよびJSONへの習熟。

対象者

  • クラウドLLM APIを置き換えたいAIエンジニアおよび開発者。
  • データの機密性によりクラウドモデルの使用が制限されている組織。
  • エアギャップされた言語モデルを必要とする政府および防衛チーム。
 14 時間

参加者の人数


参加者1人あたりの価格

今後のコース

関連カテゴリー