AIが目、耳、口を持った
最新のAIは文字だけではなく、画像や動画、音声も扱えるようになりました。たとえると、AIが「目」、「耳」、「口」を持ち、あなたとコミュニケーションすることができます。
1. 今日のテーマ
複数のメディア(マルチモーダル)を使ったAI活用方法を学びましょう。
2. マルチモーダルAIの具体例
Webアプリを使っている場合には、テキストファイル、画像ファイル、pdfファイルなどをアップロードすると読み込んでくれます。
アップロードしたファイルを前提に
- 画像説明:「このグラフの傾向を解説して」
- テキスト→画像生成:「この物語の場面を絵に」
- 動画分析:「このスポーツプレーのポイントは?」
- 音声認識と生成:「冷蔵庫の中身を見せて夕食のメニューを提案して」
とプロンプトを送信します。
3. 最新のツールを知ろう
PCのカメラ、マイクでも構いませんし、スマホアプリであればカメラとマイクの使用に許可を与えれば、画像、音声でAIとコミュニケーションすることができます。
AIが五感を獲得しつつある?
確かめましょう。
- 画像を見せて、何かを確認
- 音声で質問
- pdfをアップロードして内容を質問
AIの理解度はいかがですか?
まとめ
✅ マルチモーダル=複数のメディアを処理
✅ AIは画像・音声認識と生成を連携可能
✅ プロンプトにメディアファイルを添付可能
コメント