第22回 マルチモーダル

プロンプト講座

AIが目、耳、口を持った

最新のAIは文字だけではなく、画像や動画、音声も扱えるようになりました。たとえると、AIが「目」、「耳」、「口」を持ち、あなたとコミュニケーションすることができます。

1. 今日のテーマ

複数のメディア(マルチモーダル)を使ったAI活用方法を学びましょう。

2. マルチモーダルAIの具体例

Webアプリを使っている場合には、テキストファイル、画像ファイル、pdfファイルなどをアップロードすると読み込んでくれます。

アップロードしたファイルを前提に

  • 画像説明:「このグラフの傾向を解説して」
  • テキスト→画像生成:「この物語の場面を絵に」
  • 動画分析:「このスポーツプレーのポイントは?」
  • 音声認識と生成:「冷蔵庫の中身を見せて夕食のメニューを提案して」

とプロンプトを送信します。

3. 最新のツールを知ろう

PCのカメラ、マイクでも構いませんし、スマホアプリであればカメラとマイクの使用に許可を与えれば、画像、音声でAIとコミュニケーションすることができます。

AIが五感を獲得しつつある?

確かめましょう。

  1. 画像を見せて、何かを確認
  2. 音声で質問
  3. pdfをアップロードして内容を質問

AIの理解度はいかがですか?

まとめ

✅ マルチモーダル=複数のメディアを処理
✅ AIは画像・音声認識と生成を連携可能
✅ プロンプトにメディアファイルを添付可能

コメント

タイトルとURLをコピーしました