IT用語帳

Apache Spark

Apache Spark

あぱっちすぱーく

大規模データの高速分散処理を実現するオープンソースフレームワーク。Hadoopと異なりインメモリ処理を中心とし、バッチ処理、ストリーム処理、機械学習、グラフ処理を統合的に実行できる。Spark SQLでSQL風の問合せも可能。
データベース応用 > ビッグデータ

関連キーワードの用語

DBHadoop

大規模データの分散処理を実現するオープンソースフレームワーク。分散ファイルシステム(HDFS)とMapReduceによる並列処理を中核とする。コモディティサーバで構成でき、スケールアウトが容易。

IP2相コミットメント

分散データベースにおいて、複数のサイトでトランザクションの整合性を保証するためのプロトコル。投票フェーズと決定フェーズの2段階で全サイトの合意を得る。

SG分散ファイルシステム

複数のサーバやストレージにまたがってファイルを分散配置し、利用者からは単一のファイルシステムとしてアクセスできるようにする仕組み。大量データの処理や可用性の向上に活用される。

FE2相コミットメント

分散データベースにおいて、複数のサイトにまたがるトランザクションの整合性を保証するプロトコル。第1相で全サイトにコミット可否を確認し、全サイトが合意した場合のみ第2相でコミットを実行する。

AP2相コミットメント

分散データベースでトランザクションの原子性を保証するプロトコル。第1相(準備フェーズ)で全サイトにコミット可否を問い合わせ、全サイトが準備完了した場合のみ第2相(コミットフェーズ)でコミットを実行する。1つでも失敗すれば全体をロールバックする。

APCAP定理

分散データベースシステムにおいて、一貫性(Consistency)、可用性(Availability)、分断耐性(Partition Tolerance)の3つの特性を同時にすべて満たすことは不可能であるという定理。システム設計時に、どの2つを優先するかのトレードオフの判断に用いられる。