データ分析について調査していると「DWH(データウェアハウス)」というキーワードを目にすることがあります。
ここでは、「DWHについて簡単に知りたい人」向けに記事を書きます。 この記事を読むと以下が分かります。
・DWHの役割はなにか?
・なぜデータ分析といえばRDB(リレーショナル・データベース)じゃなくて、DWHなのか?
ぜひ、最後までご覧ください。
▶DWHとは?
DWHは、簡単にいうと「多種多様なシステム、ファイル、センサからのデータを時系列に整理し蓄積するデータの倉庫」のようなシステムです。
DWHは「データ分析で利用されること」を前提に設計されます。
そのため、以下のような特徴を持ちます。
①「時系列データ」として蓄積する
過去の状況と現在の状況を比較分析できるように、データを「時系列データ」として保存します。
時系列データとは、計測値とそれの発生時刻が対になったデータです。
★ 時系列データについて、知りたい方はこちら → https://www.blog.promptk.jp/post/whats-tsd
②「横断的に分析」できるようにデータを整理する データ分析では、例えば残業分析など、業務効率化のために各部署のデータを横断的に分析することがあります。
これを実現するためにDWHでは、各部署のばらばらなデータに対して以下の整理を行った後、蓄積します。
■データフォーマットの統一化
一元管理のために必要です。
■サブジェクトごとに整理
ばらばらな情報を効率的に扱えるよう、まとめていく作業です。
「サブジェクトごとに整理」とは、取引、顧客、店舗など「主題ごと」にデータをまとめることです。
サブジェクトの粒度は、データ分析の要件やDWHのコンセプトにより異なります。
③ データを大量に蓄積可能
データ分析では、膨大なデータを必要とします。
これに対応するためにDWHでは大容量のストレージを装備します。
④ 蓄積されたデータは消えない、更新されない
DWHでは蓄積したデータの削除や更新を原則、行いません。
これにより、データが発生した時点の状態が永久に維持され、いつ過去を振り返ってもその時の状態を正しく参照できるということが保証されます。
ただし、ストレージの容量は無限ではないため、運用ポリシーと照らし合わせてデータを削除することもあります。
⑤高速にデータを検索 / 抽出できる
データ分析では、データの組み合わせを変えたり、データ量を増やしながら、様々な分析手法を活用し試行錯誤的に課題解決の手がかり探ります。
これを効率的に行うには、データの検索 / 抽出の高速化が必須です。
DWHでは、データの検索 / 抽出に特化したデータの構造化を内部で行う、もしくは、そのように構造化されたデータを対象に蓄積し、高速化を実現します。
▶データベースじゃだめなのか?=RDBが適さない理由=
データベースと言われた時に、その多くはRDB(リレーショナル・データベース)を指します。
ここでは、データ分析プロジェクトにおいて「なぜ、RDBが適さないのか?」の理由を2点ご紹介します。
① データの検索 / 抽出が遅い データの検索 / 抽出に時間がかかってしまうと、データ分析プロジェクトを効率的に進めることができません。
RDBはデータの蓄積量が多くなるにつれて、データ検索 / 抽出がどんどん遅くなってしまいます。
これはデータ管理の方式に起因します。 ★ 詳しく知りたい方は、以下の記事をご参照ください。 「行指向」と「カラム型」がキーワードとなります。
② 最新のデータしか残っていない データ分析は過去のデータを活用します。
RDBは、基本的に最新のデータ(状態)しか保管しません。 過去のデータは上書きされたり、不要になったものは削除します。
▶DWHの登場シーン
これまでお話してきたように、DWHはデータ分析プロジェクトで活用されます。
以下の図は、弊社でのデータ分析の流れを簡単に表現したものです。
DWHがどういった文脈で登場するのかイメージをつけてください。
※ ETLとは、データの収集、整形、書込を担うツールの総称です。
※ GW はGateWay(ゲートウェイ)の略であり、ここでは、センサーのデータ変換、送信機能を担うアプリケーションとしてご理解ください。
▶最後に
DWHの概要について、ご説明させていただきました。
皆さまの理解の助けになれば幸いです。
弊社ではDWHを自社開発し、データ活用サービスを提供させていただいております。
次回は、弊社のDWH製品についてご説明します。
★ 弊社製品にご興味がある方は、まずはこちらをご覧ください。
→ 「CLOUDSHIPとRealBoard」のご紹介: https://www.promptk.jp/product
Comments