コース概要

Gemini 3のマルチモーダリティ入門

  • テキスト、画像、オーディオ、ビデオに関する機能
  • モデル選択とエンドポイントの概要
  • マルチモーダル推論における主要概念

テキストと構造化入力の扱い方

  • テキスト生成のためのプロンティング戦略
  • メタデータ、コンテクストウィンドウ、および埋め込み
  • テキストベースのマルチモーダルタスクのオーケストレーション

画像理解とビジュアルワークフロー

  • Gemini 3を使用した画像分析と解釈
  • ビジュアル検索およびタギングツールの作成
  • 画像からテキスト、テキストから画像への相互作用の構築

オーディオ入力処理

  • 音声認識とトランスクリプションワークフロー
  • オーディオイベントの検出と解釈
  • テキストとビジュアル入力との統合

ビデオインテリジェンスとシーン分析

  • フレームごとおよび連続的なビデオ推論
  • 要約作成ツールやハイライト抽出ツールの構築
  • ビデオベースの自動化とコンテンツワークフロー

マルチモーダルアプリケーションアーキテクチャの設計

  • 1つのパイプラインで複数の入力タイプを組み合わせる。
  • レイテンシー、コスト、および計算リソースの考慮
  • 拡張可能なマルチモーダルシステムのベストプラクティス

マルチモーダルアプリケーションのプロトタイピング

  • マルチモーダルプロトタイプの実践的な作成
  • プロンプトエンジニアリングを活用した迅速な反復
  • ユーザー体験フローのテストと改善

マルチモーダルソリューションの展開

  • 展開戦略と環境セットアップ
  • 実際のパフォーマンス監視
  • セキュリティとコンプライアンスの考慮事項

まとめと次なるステップ

要求

  • 現代的なAI概念の理解
  • PythonまたはJavaScriptの使用経験
  • REST APIの知識

対象者

  • デザイナー
  • コンテンツクリエーター
  • 技術製品チーム
 14 時間

参加者の人数


参加者1人あたりの価格

お客様の声 (1)

今後のコース

関連カテゴリー