合成データ
Synthetic Data
AIの学習やテストのために、コンピューターが人工的に作り出したデータ
名前のヒミツ
英語ではSynthetic Data(シンセティック・データ)と呼ぶよ。 「Synthetic」には「合成の」や「人工的な」という意味があるんだ。 現実の世界で集めた本物のデータではなく、コンピューターの計算によって人工的に作られたデータであることを表しているよ。
簡単に説明すると
合成データというのは、コンピューターを使って意図的に作り出した人工的なデータのことだよ。 ただのデタラメな情報ではなくて、目的に合わせて現実のデータに似た特徴や規則性を持たせて作られているんだ。 例えば、実在しない人間のリアルな顔写真を作ったり、架空のカルテデータを作ったりすることができるよ。 これを使うことで、プライバシーのリスクを抑えながらAIを賢くしたり、現実では集めるのが難しい珍しいデータを簡単に用意したりできるんだ。
くわしく見てみよう!
合成データとは、現実の世界で直接集められたものではなく、コンピューターのプログラムやAIによって新しく生成されたデータのことだよ。
現実のデータが持つ特徴や傾向を模したり、シミュレーションによって特定の状況を再現したりして作られるのが特徴なんだ。
このデータがAI開発で重視されている理由の一つは、プライバシー保護に役立つことだよ。
例えば、病院の患者データや個人の買い物履歴などをそのままAIの学習に使うと、誰かの個人情報が漏れてしまう危険があるよね。
でも、個人を特定できないように新しく作られた合成データを代わりに使えば、プライバシーのリスクを抑えながらAIを賢くすることができるんだ。
もう一つの理由は、データを集める時間やコストを大きく減らせることだよ。
自動運転のAIを学習させるためには、雪道でのスリップや珍しい事故のデータがたくさん必要になるけれど、現実世界でそれを何度も繰り返して集めるのは危険だしとても大変だよね。
そこでコンピューター上で珍しい状況の合成データを作り出せば、効率よく安全にAIを鍛えることができるんだ。
技術が進歩して、画像や音声、テキストなど、いろんな種類の高品質なデータが作れるようになったよ。
AI開発では、本物のデータを補ったり、集めにくい場面を再現したりする手段として、合成データが活用される場面が増えているんだ。