データレイク
Data Lake
でーたれいく
他の資格での定義
構造化・半構造化・非構造化データをそのままの形式で大量に蓄積するストレージ基盤。データウェアハウスと異なり、事前のスキーマ定義なしにデータを格納し、必要時に加工・分析を行う。
構造化データ、半構造化データ、非構造化データを元の形式のまま大量に蓄積するストレージ基盤。データウェアハウスと異なり、格納時にスキーマを定義する必要がなく(スキーマオンリード)、多様なデータソースからの生データを柔軟に保持できる。
構造化データ・非構造化データを問わず、生データをそのままの形式で大量に蓄積するストレージ基盤。データウェアハウスが事前にスキーマを定義して格納するのに対し、データレイクはスキーマオンリードの方式で柔軟な分析を可能にする。
構造化・半構造化・非構造化を問わず、あらゆるデータを元の形式のまま一元的に蓄積する大規模データストレージ。データウェアハウスと異なり、格納時にスキーマを定義する必要がなく、分析時にスキーマを適用する(スキーマオンリード)。
構造化・非構造化を問わず、さまざまな形式のデータをそのままの形で蓄積する大規模ストレージ。IoTデバイスから収集したセンサデータ、ログ、画像データなどを一元管理し、後から分析やAI学習に活用する。AWS S3やAzure Data Lakeが代表的。
関連キーワードの用語
データを2次元の表(テーブル、リレーション)の集合として管理するデータベース。行(タプル)と列(属性)で構成され、テーブル間をキーで関連付けてデータの整合性を維持する。SQLによる操作が標準的で、最も広く普及しているデータベース形式。
データベースの定義・操作・制御・保全を一元的に管理するソフトウェア。同時実行制御、障害回復、データ機密保護などの機能を提供する。Oracle、MySQL、PostgreSQLなどが代表的で、ミドルウェアとしてOSとアプリケーションの間に位置する。
関係データベース以外のデータベースの総称。キーバリュー型、ドキュメント指向、列指向、グラフ型などがあり、大量データの分散処理やスキーマレスな柔軟なデータ構造に対応できる。
データベースの構造を外部スキーマ(利用者やプログラムから見たデータの定義)、概念スキーマ(データベース全体の論理的構造)、内部スキーマ(物理的な記憶構造)の3層に分けて管理する方式。データの独立性を高める。
3層スキーマにおいて、個々の利用者やアプリケーションプログラムから見たデータの定義。副スキーマとも呼ばれ、ビューに対応する。利用者ごとに必要なデータだけを見せることでセキュリティと利便性を向上させる。
3層スキーマにおいて、データベース全体の論理的なデータ構造を定義したもの。テーブル、属性、制約、関連などを含み、データベース管理者が設計・管理する。物理的な格納方法には依存しない。