データレイク
Data Lake
でーたれいく
他の資格での定義
構造化・半構造化・非構造化データをそのままの形式で大量に蓄積するストレージ基盤。データウェアハウスと異なり、事前のスキーマ定義なしにデータを格納し、必要時に加工・分析を行う。
構造化データ、半構造化データ、非構造化データを元の形式のまま一元的に蓄積する大規模ストレージ。データウェアハウスとは異なりスキーマを事前に定義せず、分析時に必要に応じてデータを整形する。
構造化データ、半構造化データ、非構造化データを元の形式のまま大量に蓄積するストレージ基盤。データウェアハウスと異なり、格納時にスキーマを定義する必要がなく(スキーマオンリード)、多様なデータソースからの生データを柔軟に保持できる。
構造化データ・非構造化データを問わず、生データをそのままの形式で大量に蓄積するストレージ基盤。データウェアハウスが事前にスキーマを定義して格納するのに対し、データレイクはスキーマオンリードの方式で柔軟な分析を可能にする。
構造化・非構造化を問わず、さまざまな形式のデータをそのままの形で蓄積する大規模ストレージ。IoTデバイスから収集したセンサデータ、ログ、画像データなどを一元管理し、後から分析やAI学習に活用する。AWS S3やAzure Data Lakeが代表的。
関連キーワードの用語
E.F.コッドが提唱した、データを2次元の表(リレーション)で表現するデータモデル。数学的な集合論と述語論理に基づき、データの構造・操作・整合性制約を定義する。現在のRDBMSの理論的基盤である。
関係モデルにおける基本的なデータ構造で、属性(列)の集合で定義されるスキーマと、タプル(行)の集合で構成される。数学的には定義域の直積の部分集合である。実装上はテーブルに対応する。
関係モデルにおいて、リレーションを構成する1つの要素(行)。各属性に対して1つの値を持つ。実装上はテーブルの行(レコード)に対応する。
関係モデルにおいて、リレーションの列に相当する要素。属性名と定義域(ドメイン)を持ち、各タプルは属性ごとに定義域内の値をとる。実装上はテーブルのカラムに対応する。
関係モデルにおいて、属性がとりうる値の集合。例えば「年齢」属性のドメインは正の整数、「性別」属性のドメインは{'男','女'}など。SQLではCHECK制約やデータ型で制限を実現する。
関係モデルに対する操作を数学的に定義した代数体系。選択、射影、結合、和、差、直積、商などの演算からなる。SQLの理論的基盤であり、問合せ最適化の基礎となる。