一覧に戻る
Lv.2

マルチモーダルAI

Multimodal Artificial Intelligence

文字や画像など、種類の違うデータを組み合わせて処理できるAI

名前のヒミツ

Multimodal(マルチモーダル)は、Multi(多数の)とModal(様式・形式)を組み合わせた言葉だよ。 「複数の感覚(モード)を持っている」という意味で、人間が目や耳で情報を得るように、AIも視覚や聴覚など複数の手段でデータを扱えることを表しているんだ。

簡単に説明すると

これまでの多くのAIは、「文字だけ」「画像だけ」のように特定の種類のデータを扱うのが主流だったけど、マルチモーダルAIはそれらを一度に扱えるんだ。 例えば、冷蔵庫の中身の写真を見せて「これで作れる料理を教えて」と質問すると、画像を認識してレシピを提案してくれるようなことができるよ。

くわしく見てみよう!

マルチモーダルAIとは、テキスト、画像、音声、動画など、異なる種類のデータを統合して処理できるAIのことだよ。
人間が「赤いリンゴ」という言葉を聞いて、丸くて赤い果物の映像を頭に思い浮かべるように、異なる形式の情報を結びつけて理解できるのが特徴なんだ。

従来のAIの多くは「シングルモーダル」と呼ばれていて、文字なら文字、画像なら画像というように、主に一つの種類のデータを専門に扱っていたんだ。
でも、現実世界の情報は複雑で、文字だけでは伝えきれないことも多いよね。
マルチモーダルAIは、複数の情報を組み合わせることで、画像の内容を言葉で説明したり、音声で指示した内容から画像を生成したりといった、種類の異なるデータを結びつけた処理ができるようになったんだよ。

例えば、動画を見てその内容を文章で要約したり、手描きのスケッチからウェブサイトのコードを生成したりすることもできるんだ。
ロボットが周囲の状況(映像)と人間の指示(音声)を同時に理解して動くような場面でも、この技術が使われているよ。

カテゴリAI