データレイク
Data Lake
でーたれいく
他の資格での定義
構造化・半構造化・非構造化データをそのままの形式で大量に蓄積するストレージ基盤。データウェアハウスと異なり、事前のスキーマ定義なしにデータを格納し、必要時に加工・分析を行う。
構造化データ、半構造化データ、非構造化データを元の形式のまま一元的に蓄積する大規模ストレージ。データウェアハウスとは異なりスキーマを事前に定義せず、分析時に必要に応じてデータを整形する。
構造化データ・非構造化データを問わず、生データをそのままの形式で大量に蓄積するストレージ基盤。データウェアハウスが事前にスキーマを定義して格納するのに対し、データレイクはスキーマオンリードの方式で柔軟な分析を可能にする。
構造化・半構造化・非構造化を問わず、あらゆるデータを元の形式のまま一元的に蓄積する大規模データストレージ。データウェアハウスと異なり、格納時にスキーマを定義する必要がなく、分析時にスキーマを適用する(スキーマオンリード)。
構造化・非構造化を問わず、さまざまな形式のデータをそのままの形で蓄積する大規模ストレージ。IoTデバイスから収集したセンサデータ、ログ、画像データなどを一元管理し、後から分析やAI学習に活用する。AWS S3やAzure Data Lakeが代表的。
関連キーワードの用語
従来のデータベース技術では処理困難な大量・多種多様・高速発生のデータ。3V(Volume:大量、Velocity:高速、Variety:多様性)の特性を持つ。IoTデータ、SNS投稿、ログデータなどが例。
複数のプロセスやトランザクションが共有資源に同時アクセスする際に、データの整合性を保つための制御機構。セマフォ、ミューテックスなどのOS同期機構や、ロック方式(共有ロック・専有ロック)、MVCC等のデータベース制御手法がある。デッドロックの防止も重要な課題。
データベースの定義・操作・制御・保全を一元的に管理するソフトウェア。同時実行制御、障害回復、アクセス制御、データ機密保護などの機能を提供する。ミドルウェアとしてOSとアプリケーションの間に位置する。
データを行(タプル)と列(属性)からなる二次元の表(リレーション)で管理するデータベース。E.F.コッドが提唱した関係モデルに基づき、SQLで操作する。データの独立性が高く、正規化による冗長性の排除が可能で、最も広く普及しているデータベース方式。
RDBの関係モデルに依存しないデータベースの総称。キーバリュー型(Redis)、ドキュメント指向型(MongoDB)、カラム指向型(Apache Cassandra)、グラフ型(Neo4j)などの種類がある。大量データの分散処理やスキーマレスな柔軟性に優れるが、トランザクションの一貫性ではRDBに劣る場合がある。
データベースの構造を外部スキーマ(利用者やアプリケーションから見たデータ定義)、概念スキーマ(データベース全体の論理的構造)、内部スキーマ(物理的な格納方式)の3層に分離するアーキテクチャ。データの独立性を確保し、一方の変更が他方に影響しにくくする。