お問い合わせを送信いただきありがとうございます!当社のスタッフがすぐにご連絡いたします。
予約を送信いただきありがとうございます!当社のスタッフがすぐにご連絡いたします。
コース概要
Gemini 3のマルチモーダリティ入門
- テキスト、画像、オーディオ、ビデオに関する機能
- モデル選択とエンドポイントの概要
- マルチモーダル推論における主要概念
テキストと構造化入力の扱い方
- テキスト生成のためのプロンティング戦略
- メタデータ、コンテクストウィンドウ、および埋め込み
- テキストベースのマルチモーダルタスクのオーケストレーション
画像理解とビジュアルワークフロー
- Gemini 3を使用した画像分析と解釈
- ビジュアル検索およびタギングツールの作成
- 画像からテキスト、テキストから画像への相互作用の構築
オーディオ入力処理
- 音声認識とトランスクリプションワークフロー
- オーディオイベントの検出と解釈
- テキストとビジュアル入力との統合
ビデオインテリジェンスとシーン分析
- フレームごとおよび連続的なビデオ推論
- 要約作成ツールやハイライト抽出ツールの構築
- ビデオベースの自動化とコンテンツワークフロー
マルチモーダルアプリケーションアーキテクチャの設計
- 1つのパイプラインで複数の入力タイプを組み合わせる。
- レイテンシー、コスト、および計算リソースの考慮
- 拡張可能なマルチモーダルシステムのベストプラクティス
マルチモーダルアプリケーションのプロトタイピング
- マルチモーダルプロトタイプの実践的な作成
- プロンプトエンジニアリングを活用した迅速な反復
- ユーザー体験フローのテストと改善
マルチモーダルソリューションの展開
- 展開戦略と環境セットアップ
- 実際のパフォーマンス監視
- セキュリティとコンプライアンスの考慮事項
まとめと次なるステップ
要求
- 現代的なAI概念の理解
- PythonまたはJavaScriptの使用経験
- REST APIの知識
対象者
- デザイナー
- コンテンツクリエーター
- 技術製品チーム
14 時間
お客様の声 (1)
プレゼンテーションにおける流れ、雰囲気、およびトピック
Lukasz Kowalczyk - Allegro Sp. z o.o.
コース - Google Gemini AI for Data Analysis
機械翻訳