一覧に戻る
Lv.2

マルチモーダルAI

Multimodal Artificial Intelligence

文字や画像など、種類の違うデータを組み合わせて処理できるAI

簡単に説明すると

マルチモーダルAIは、テキスト、画像、音声、動画など、異なる種類のデータを一度に組み合わせて処理できるAIのことだよ。 従来のAIは文字や画像などを単独で扱うことが多かったけど、このAIは異なる情報を結びつけて理解できるのが特徴なんだ。 例えば、動画の内容を文章で要約したり、手描きのスケッチからウェブサイトのコードを生成したりすることができるよ。 周囲の映像と人間の音声指示を同時に理解して動くロボットなどにも技術が活用されているんだ。

名前のヒミツ

Multimodal(マルチモーダル)は、Multi(多数の)とModal(様式・形式)を組み合わせた言葉だよ。 「複数の感覚(モード)を持っている」という意味で、人間が目や耳で情報を得るように、AIも視覚や聴覚など複数の手段でデータを扱えることを表しているんだ。

くわしく見てみよう!

マルチモーダルAIとは、テキスト、画像、音声、動画など、異なる種類のデータを統合して処理できるAIのことだよ。
人間が「赤いリンゴ」という言葉を聞いて、丸くて赤い果物の映像を頭に思い浮かべるように、異なる形式の情報を結びつけて理解できるのが特徴なんだ。

従来のAIの多くは「シングルモーダル」と呼ばれていて、文字なら文字、画像なら画像というように、主に一つの種類のデータを専門に扱っていたんだ。
でも、現実世界の情報は複雑で、文字だけでは伝えきれないことも多いよね。
マルチモーダルAIは、複数の情報を組み合わせることで、画像の内容を言葉で説明したり、音声で指示した内容から画像を生成したりといった、種類の異なるデータを結びつけた処理ができるようになったんだよ。

例えば、動画を見てその内容を文章で要約したり、手描きのスケッチからウェブサイトのコードを生成したりすることもできるんだ。
ロボットが周囲の状況(映像)と人間の指示(音声)を同時に理解して動くような場面でも、この技術が使われているよ。

カテゴリAI