一覧に戻る
Lv.1

音声認識

Speech Recognition

人が話す声をコンピュータが聞き取ってテキストなどに変換する技術。

簡単に説明すると

音声認識は、人間が話した言葉をコンピュータが聞き取って、文字(テキスト)に直す技術のことだよ。 スマホに話しかけてメッセージを入力したり、会議の録音を自動で文章にしたりする時に使われているんだ。スマートスピーカーが命令を理解して動いたり、翻訳アプリで同時通訳をしたりする際も、まずはこの音声認識で声を文字に変換することから始まっているんだよ。

名前のヒミツ

音声認識(おんせいにんしき)だよ。 漢字で「音声」は「ひとの声や音」、「認識」は「受け取って判別すること」を意味するから、そのまま「声を受け取って判別する技術」という意味の名前なんだ。英語でもSpeech(スピーチ)Recognition(レコグニション)と、日本語とそっくり同じ構造になっているよ。声をテキストなどのデータに変換するという技術の働きが、名前にぴったり表れているんだね。

くわしく見てみよう!

音声認識とは、マイクなどで拾った人間の声を解析して、文字データに変換する技術のことなんだ。
特定の指示として受け取って、コンピュータを操作することにも使われるよ。

まず、コンピュータは取り込んだ音の波形を細かく分析して、音の特徴を抜き出すよ。
次に、その特徴がどの言葉に近いかを、あらかじめ学習した膨大なデータの中から探し出すんだ。

AIを活用した仕組みでは、周りの雑音や一人ひとりの話し方のクセを分析し、言葉を正確に読み取ることができるんだ。
ざっくり言うと、コンピュータの中に巨大な辞書と音のお手本があって、それらと照らし合わせることで言葉を特定しているんだ。

音声認識の技術は、私たちの身近なところでたくさん活躍しているんだ。
スマホの音声アシスタントやカーナビの操作、耳が不自由な人のためのリアルタイム字幕作成など、活用される場面は幅広く存在しているよ。

カテゴリAIアプリ