コース概要

Mistral マルチモーダル モデルの紹介

  • Mistral Medium とマルチモーダル機能の概要
  • OCR/ドキュメントモデルとユースケース
  • オープンソース生態系との統合

OCR とビジョン パイプライン

  • Mistral モデルを使用した OCR の基礎
  • 画像とスキャニングされたドキュメントの前処理
  • 画像から構造化テキストを抽出する

ドキュメント理解

  • ドキュメント用 NLP パイプラインの設計
  • エンティティ認識、要約、分類
  • テキストとビジョンデータのクロスモーダル連結

検索と知識アプリケーション

  • ビジョン-テキスト検索システム
  • OCR 出力を使用した意味検索の構築
  • エンタープライズ ドキュメント リポジトリ

支援およびインタラクティブ アプリケーション

  • マルチモーダル アシスタント用の UI 設計
  • アクセシビリティ アプリケーション (例: ビジョン-テキスト)
  • 実世界での生産性ツール

パフォーマンスと最適化

  • マルチモーダル パイプラインの拡張
  • 推論性能のチューニング
  • 精度と効率のトレードオフ評価

事例研究と将来の方向性

  • マルチモーダル AI の業界応用
  • OCR およびドキュメント AI の研究トレンド
  • ビジョン-テキストタスクでの責任ある AI 考慮事項

まとめと次回のステップ

要求

  • 自然言語処理の概念の理解
  • Python と ML フレームワークの経験
  • コンピュータビジョンの基礎知識

対象者

  • 製品チーム
  • ML 研究者
  • 応用 ML エンジニア
 14 時間

参加者の人数


参加者1人当たりの料金

今後のコース

関連カテゴリー