データウェアハウス
データウェアハウスとは、企業内のシステムやアプリ、クラウドサービスなどから定期的にデータを時系列に蓄積していくシステムのこと。
概要
編集定義
編集データウェアの提唱はアメリカの計算機科学者ビル・インモン(William H. Inmon)で、1990年の著作によれば、「データウェアハウスは、意思決定(Decision)のため、主題別(Subject-oriented)に編成され、統合(Integrate)され、時系列で、削除(Delete)や更新(Update)しないデータの集合体」とされる。
複数の基幹系システム(製造管理システム、販売管理システム、会計システムなど)から、マスタやトランザクション(取引)を抽出して、再構成・再蓄積したシステムを指すことが多い。
データウェアハウスの成立と発展
編集データウェアハウスの登場は、1990年代にハードディスクが安くなったことと、PCやサーバで使用可能な安価なCPUを並列で使用する技術ができてきたことによる。この時代にはまだ基幹系システムのCPUやハードディスクは高止まりしており、データウェアには専用のハードウェアやソフトウェアが使用されていたが、汎用PCにより構成出来るようになったことで、データを長期間に渡り蓄積するという観点を実現出来るようになった。
その後、2010年代にクラウドコンピューティングのデータウェアハウスとしてGoogle BigQueryやAmazon Redshiftなどの、よりクラウドネイティブなデータウェアハウスの提供がされるようになった。イニシャルコストを最小限に抑え、時間および使用リソースによる従量課金でデータウェアハウスが利用出来るようになり、データウェアハウスの利用用途が飛躍的に広がった。
特徴
編集基幹系システムではデータの参照時点での状況が把握できればよいので、過去のデータは基本的に保持されず、短ければ半期、長くても1年ごとに個別データをサマリに更新する。このため基幹系システムのディスク使用量は業務量が増大しない限り大きく変動しない。
これに対してデータウェアハウスの目的は過去のデータの蓄積と現在との比較であるため、データの削除や更新はされず、保持データ量は時間と比例して増大する。例えばある顧客が今までにどのような買い物をしたのか、さらに今後どの程度の購買が期待できるのか、といった判断のためにデータウェアハウスが使用される。
関連するシステム
編集データウェアハウスでは、データを分析して意思決定に役立てるため、複数の基幹系システムからデータを収集し、蓄積する。 意思決定にデータを活用するという観点から、データウェアハウスはBIの一つに位置付けられることがある。
データウェアハウスでは極めて小さい単位のデータ(「アトミック[要曖昧さ回避]である」とも表現される)を扱うが、多くの場合適宜に集計されたデータを使用する方が速いので、ユーザが使うデータを予測しておいて、データウェアハウスからデータを集計しデータマートが構築されることがある。ユーザはツールを使ってデータマートから必要なデータやレポートを作成する。その名前のとおり、データウェアハウスはデータの倉庫であり、データマートはデータの小売店を意味している。
データウェアハウスから有用なデータを発見するための手法・ツールとして、MS Accessなど市販のデータベースソフトを利用する人もいるが、OLAPやデータマイニングの専用ツールが使われることも多い。
データウェアハウス製品
編集- SAP - SAP NetWeaver Business Warehouse, SAP BW/4HANA, SAP IQ
- Oracle - Oracle Database / Oracle Exadata
- Teradata - Teradata Database / Teradata Vantage
- IBM - Red Brick
- Netezza - Netezza TwinFin
- NEC - InfoFrame DWH Appliance
- マイクロソフト - Microsoft SQL Server
- 日本HP - HP Neoview Platform