一覧に戻る
Lv.3

RAG(検索拡張生成)

Retrieval-Augmented Generation

検索機能を組み込んだAIシステムが、用意されたデータから情報を探して回答を作成する技術

名前のヒミツ

Retrieval-Augmented Generation(リトリーバル・オーグメンテッド・ジェネレーション)の略だよ。 Retrievalは「検索」、Augmentedは「拡張された」、Generationは「生成」という意味なんだ。 AIに新しい情報を学習させて覚えさせるんじゃなくて、回答に必要な情報をその場で検索して、それを参考にしながら文章を作る仕組みを表しているね。

簡単に説明すると

RAGは、AIが教科書や資料を見ながら質問に答える仕組みのことだよ。 普通のAIは学習済みの知識だけで答えるから、新しい情報や特定のルールには弱いし、もっともらしいウソ(ハルシネーション)をつくこともあるんだ。 でもRAGを使えば、AIが質問に合わせて用意されたデータベースから情報を探してきて、それを参考に回答してくれるよ。ただし万能ではなくて、資料に情報がなかったり検索で見つけられなかったりすると答えも間違っちゃうから、「資料が揃っていて、ちゃんと検索できたときに正確になる仕組み」なんだ。

くわしく見てみよう!

RAGとは、AIが回答を生成する際に、外部のデータベースやドキュメントから関連する情報を検索して活用する技術のことだよ。

通常の生成AIは、事前に学習した膨大なデータに基づいて答えを作るけれど、学習後に出てきた新しい情報や、特定の企業だけが持っている社内データなどについては正確性が保証できないんだ。
知らない情報でも「それっぽい答え」をもっともらしく作ってしまうことがあって、これがいわゆるハルシネーション(もっともらしいウソ)の原因になるんだよね。

そこでRAGを使うと、AIはまず質問に関連する情報を外部のデータベースから検索しに行くんだ。
ただし「資料全体を読んで理解する」わけではなくて、検索でヒットした一部の文章(チャンクと呼ばれる短い抜粋)をピックアップして、それを参考情報としてAIに渡すという仕組みだよ。例えば社内規定についての質問なら、規定集の中から質問に関連しそうな箇所を検索で絞り込み、見つかった該当部分の文章をAIに渡して、その内容をもとに回答を生成するという流れになるね。
これによって、AIをいちいち再学習させなくても、検索対象のデータを適切に整備しておくことで、新しいニュースや社内マニュアルに基づいた正確な回答が得られやすくなるんだよ。
ただし万能ではなくて、検索で適切な箇所がヒットしなかったり、重要な部分がチャンクの区切りで分断されて見落とされたり、参照した情報だけでは足りない部分をAIが勝手に補って答えてしまったりすることもある。だから「精度が上がる仕組み」であって「必ず正しく答えられる仕組み」ではないんだ。

カテゴリAIデータ