一覧に戻る
Lv.2

合成データ

Synthetic Data

AIの学習やデータ分析など、様々な目的のためにコンピューターが人工的に作り出したデータ

簡単に説明すると

合成データとは、現実の世界で集められたものではなく、コンピューターやAIによって新しく作り出されたデータのことだよ。 本物の個人情報の代わりに使うことでプライバシーのリスクを抑えながらAIを学習させたり、自動運転における珍しい事故のような現実では集めにくいデータを安全に補ったりできるのが特徴なんだ。 画像や音声、テキストなど様々な種類が作られており、AI開発などを進める手段として活用されているよ。

名前のヒミツ

英語ではSynthetic Data(シンセティック・データ)と呼ぶよ。 「Synthetic」には「合成の」や「人工的な」という意味があるんだ。 現実の世界で集めた本物のデータではなく、コンピューターの計算によって人工的に作られたデータであることを表しているよ。

くわしく見てみよう!

合成データとは、現実の世界で直接集められたものではなく、コンピューターのプログラムやAIによって新しく生成されたデータのことだよ。
現実のデータが持つ特徴や傾向を模したり、シミュレーションによって特定の状況を再現したりして作られるのが特徴なんだ。

合成データの利点の一つは、プライバシー保護に役立つことだよ。
例えば、病院の患者データや個人の買い物履歴などをそのままAIの学習に使うと、誰かの個人情報が漏れてしまう危険があるよね。
でも、個人を特定できないように新しく作られた合成データを代わりに使えば、プライバシーのリスクを抑えながらAIを賢くすることができるんだ。

もう一つの利点は、現実世界では集めにくいデータを補えることだよ。
自動運転のAIを学習させるためには、雪道でのスリップや珍しい事故のデータがたくさん必要になるけれど、現実世界でそれを何度も繰り返して集めるのは危険だしとても大変だよね。
そこでコンピューター上でそうした状況の合成データを作り出せば、安全にAIの学習を進める手助けになるんだ。

画像や音声、テキストなど、いろんな種類のデータを生成する技術が開発されているよ。
AI開発などにおいて、本物のデータを補ったり、集めにくい場面を再現したりする手段として、合成データが活用されているんだ。

カテゴリAIデータ