第22回マルチモーダル

プロンプト講座

2025.03.11

AIが目、耳、口を持った

最新のAIは文字だけではなく、画像や動画、音声も扱えるようになりました。たとえると、AIが「目」、「耳」、「口」を持ち、あなたとコミュニケーションすることができます。

1. 今日のテーマ

複数のメディア（マルチモーダル）を使ったAI活用方法を学びましょう。

2. マルチモーダルAIの具体例

Webアプリを使っている場合には、テキストファイル、画像ファイル、pdfファイルなどをアップロードすると読み込んでくれます。

アップロードしたファイルを前提に

画像説明：「このグラフの傾向を解説して」
テキスト→画像生成：「この物語の場面を絵に」
動画分析：「このスポーツプレーのポイントは？」
音声認識と生成：「冷蔵庫の中身を見せて夕食のメニューを提案して」

とプロンプトを送信します。

3. 最新のツールを知ろう

PCのカメラ、マイクでも構いませんし、スマホアプリであればカメラとマイクの使用に許可を与えれば、画像、音声でAIとコミュニケーションすることができます。

AIが五感を獲得しつつある？

確かめましょう。

画像を見せて、何かを確認
音声で質問
pdfをアップロードして内容を質問

AIの理解度はいかがですか？

まとめ

✅ マルチモーダル＝複数のメディアを処理
✅ AIは画像・音声認識と生成を連携可能
✅ プロンプトにメディアファイルを添付可能

コメント

タイトルとURLをコピーしました