お問い合わせを送信いただきありがとうございます!当社のスタッフがすぐにご連絡いたします。
予約を送信いただきありがとうございます!当社のスタッフがすぐにご連絡いたします。
コース概要
AIの主権とLLMのローカルデプロイ
- クラウドLLMのリスク:データ保持、入力に基づく学習、外国の管轄権。
- Ollamaのアーキテクチャ:モデルサーバー、レジストリ、OpenAI互換API。
- vLLM、llama.cpp、Text Generation Inferenceとの比較。
- モデルライセンス:Llama、Mistral、Qwen、Gemmaの利用条件。
インストールとハードウェアセットアップ
- CUDAおよびROCmサポート付きLinuxへのOllamaのインストール。
- CPU単独時のフォールバックおよびAVX/AVX2の最適化。
- Dockerデプロイメントおよび永続ボリュームのマッピング。
- マルチGPUセットアップとVRAM割り当て戦略。
モデル管理
- Ollamaレジストリからのモデルプル:ollama pull llama3。
- HuggingFaceおよびTheBlokeからのGGUFモデルのインポート。
- 量子化レベル:Q4_K_M、Q5_K_M、Q8_0のトレードオフ。
- モデルの切り替えと同時モデル読み込みの制限。
カスタムModelfile
- Modelfile構文の作成:FROM、PARAMETER、SYSTEM、TEMPLATE。
- Temperature、top_p、repeat_penaltyの調整。
- 役割固有の動作のためのシステムプロンプトエンジニアリング。
- カスタムモデルの作成とローカルレジストリへの公開。
API統合
- OpenAI互換 /v1/chat/completions エンドポイント。
- ストリーミング応答およびJSONモード。
- LangChain、LlamaIndex、およびカスタムアプリケーションとの統合。
- リバースプロキシを用いた認証とレート制限。
パフォーマンスの最適化
- コンテキストウィンドウのサイズ設定とKVキャッシュの管理。
- バッチ推論とリクエストの並行処理。
- CPUスレッドの割り当てとNUMAの考慮。
- GPU利用率とメモリ圧迫の監視。
セキュリティとコンプライアンス
- モデル提供エンドポイントのネットワーク隔離。
- 入力フィルタリングと出力審査のパイプライン。
- プロンプトおよび補完の監査ログ記録。
- モデルの由来とハッシュ検証。
要求
- 中級レベルのLinuxおよびコンテナ管理知識。
- マシンラーニングおよびトランスフォーマーモデルの概要的理解。
- REST APIおよびJSONへの習熟。
対象者
- クラウドLLM APIを置き換えたいAIエンジニアおよび開発者。
- データの機密性によりクラウドモデルの使用が制限されている組織。
- エアギャップされた言語モデルを必要とする政府および防衛チーム。
14 時間