データレイク
Data Lake
あらゆる種類のデータを、そのままの形で1か所にまとめて貯めておく場所。
簡単に説明すると
データレイクは、文字や数字、画像や動画など、色んなデータをバラバラな形のまま保存しておく仕組みのことだよ。 スマートフォンのアプリから出る利用記録や、工場のセンサーが測った温度の変化などを、1秒ごとにどんどん溜め込んでいくんだ。 後から分析したい時に、必要な分だけを取り出して使うために、まずは全てのデータを捨てずに置いておく場所として使われているよ。
名前のヒミツ
Data Lake(データレイク)は、Data(データ)とLake(湖)を組み合わせた言葉だよ。 加工されていない生のデータが、湖の水のように大量に流れ込み、そのまま蓄えられている様子をイメージして名付けられたんだ。 情報を整理してからしまう倉庫とは違って、まずは何でも受け入れる巨大な貯水池のような存在だね。
くわしく見てみよう!
データレイクとは、形式を問わずあらゆるデータを一元的に蓄積する基盤のことだよ。
加工や整理をせず、発生したそのままの状態で保存するのが最大の特徴んだ。
よく比較されるものにデータウェアハウスがあるけど、これはきれいに整理整頓された倉庫のようなものだね。
対してデータレイクは、情報の形を決めずに保管するから、後からどんな分析にも柔軟に対応できるという特徴があるんだ。
スマートフォンの利用記録や工場のセンサーデータなど、リアルタイムに発生する大量のデータを集めるのに向いているよ。
機械学習やAIの分野では、素材となる大量の生のデータを扱うための基盤として、よく活用されているよ。
ただし、ただ溜めるだけでは中身が分からない「データの沼」のような状態になってしまうこともあるんだ。
どこに何があるかを管理するルールを決め、中身を整理しておくことが上手に使いこなすコツだと言えるね。