マルチモーダルAIとは？ | TapUp デジタル用語辞典

マルチモーダルAIとは、テキスト、画像、音声、動画など、異なる種類のデータを統合して処理できるAIのことだよ。
人間が「赤いリンゴ」という言葉を聞いて、丸くて赤い果物の映像を頭に思い浮かべるように、異なる形式の情報を結びつけて理解できるのが特徴なんだ。

従来のAIの多くは「シングルモーダル」と呼ばれていて、文字なら文字、画像なら画像というように、主に一つの種類のデータを専門に扱っていたんだ。
でも、現実世界の情報は複雑で、文字だけでは伝えきれないことも多いよね。
マルチモーダルAIは、複数の情報を組み合わせることで、画像の内容を言葉で説明したり、音声で指示した内容から画像を生成したりといった、種類の異なるデータを結びつけた処理ができるようになったんだよ。

例えば、動画を見てその内容を文章で要約したり、手描きのスケッチからウェブサイトのコードを生成したりすることもできるんだ。
ロボットが周囲の状況（映像）と人間の指示（音声）を同時に理解して動くような場面でも、この技術が使われているよ。