データレイク
Data Lake
でーたれいく
他の資格での定義
構造化・半構造化・非構造化データをそのままの形式で大量に蓄積するストレージ基盤。データウェアハウスと異なり、事前のスキーマ定義なしにデータを格納し、必要時に加工・分析を行う。
構造化データ、半構造化データ、非構造化データを元の形式のまま一元的に蓄積する大規模ストレージ。データウェアハウスとは異なりスキーマを事前に定義せず、分析時に必要に応じてデータを整形する。
構造化データ、半構造化データ、非構造化データを元の形式のまま大量に蓄積するストレージ基盤。データウェアハウスと異なり、格納時にスキーマを定義する必要がなく(スキーマオンリード)、多様なデータソースからの生データを柔軟に保持できる。
構造化・半構造化・非構造化を問わず、あらゆるデータを元の形式のまま一元的に蓄積する大規模データストレージ。データウェアハウスと異なり、格納時にスキーマを定義する必要がなく、分析時にスキーマを適用する(スキーマオンリード)。
構造化・非構造化を問わず、さまざまな形式のデータをそのままの形で蓄積する大規模ストレージ。IoTデバイスから収集したセンサデータ、ログ、画像データなどを一元管理し、後から分析やAI学習に活用する。AWS S3やAzure Data Lakeが代表的。
関連キーワードの用語
企業内の様々な業務システムからデータを収集・統合し、分析や意思決定支援に活用するための大規模データベース。時系列データの蓄積、サブジェクト指向、非更新性、統合性が特徴。BIツールと連携して多角的な分析を可能にする。
従来のデータベース技術では処理が困難な、大量・多種・高速に生成されるデータの総称。Volume(量)、Variety(多様性)、Velocity(速度)の3Vで特徴づけられ、AIやBIと組み合わせた分析により、経営上の意思決定や新たな価値創出に活用される。
プライバシーやセキュリティ、知的財産権に関する信頼を確保しながら、ビジネスや社会課題の解決に有益なデータが国境を意識することなく自由に行き来する、国際的に自由なデータ流通の促進を目指すコンセプト。
データの流れに着目してシステムや業務を分析するための図法。プロセス、データストア、外部エンティティ、データフローの4要素で構成され、業務やシステムにおけるデータの入出力と処理の流れを可視化する。構造化分析の代表的手法。
業務で扱うデータを、意味的なまとまりで分類・整理した単位。エンティティ(実体)とも呼ばれ、業務モデルにおいて業務プロセスとの関連付けに用いられる。業務モデル作成時に業務プロセスとデータクラスの対応表を作成する。
大量のデータから統計的手法やAI技術を用いて、隠れたパターンや関係性を発見する分析手法。クラスター分析、決定木分析、ロジスティック回帰分析、アソシエーション分析などの手法があり、経営戦略の意思決定やマーケティングに活用される。