コース概要

Vision-Language Models の概要

  • VLMs の概要とマルチモーダル AI における役割。
  • 人気のアーキテクチャ:CLIP, Flamingo, BLIP など。
  • ユースケース:検索、キャプショニング、自律システム、コンテンツ分析。

ファインチューニング環境の準備

  • OpenCLIP およびその他の VLM ライブラリの設定。
  • 画像-テキストペア用のデータセット形式。
  • 視覚と言語入力の前処理パイプライン。

CLIP 及び類似モデルのファインチューニング

  • コントラスティブロスと結合埋め込み空間。
  • カスタムデータセットでの CLIP のファインチューニングの手順。
  • ドメイン特有のデータや多言語データの処理。

高度なファインチューニングテクニック

  • 効率性のために LoRA とアダプターベースの方法を使用する。
  • プロンプトチューニングとビジュアルプロンプト注入。
  • ゼロショット評価とファインチューニング評価のトレードオフ。

評価とベンチマーク

  • VLMs の指標:検索精度、BLEU, CIDEr, recall など。
  • 視覚-テキストアライメント診断。
  • 埋め込み空間と誤分類の可視化。

実際のアプリケーションへの展開と使用

  • 推論用にモデルをエクスポート(TorchScript, ONNX)。
  • パイプラインや API への VLMs の統合。
  • リソース考慮事項とモデルのスケーリング。

ケーススタディと応用シナリオ

  • メディア分析とコンテンツモデレーション。
  • eコマースやデジタルライブラリーでの検索と検出。
  • ロボティクスと自律システムにおけるマルチモーダルインタラクション。

まとめと次なるステップ

要求

  • 視覚と NLP のディープラーニングについての理解。
  • PyTorch およびトランスフォーマーベースモデルを使用した経験。
  • マルチモーダルモデルアーキテクチャに関する知識。

対象者

  • コンピュータビジョンエンジニア
  • AI 開発者
 14 時間

参加者の人数


参加者1人あたりの価格

今後のコース

関連カテゴリー