はじめに

Qlikは従来よりデータ分析製品を提供してきましたが、2019年のAttunity社の買収によりデータ統合製品もポートフォリオに加えました。ここでは、データ分析およびデータ統合の全体的な製品ポートフォリオのご紹介と、各データ統合製品のご紹介をさせて頂きます。

Qlikの製品戦略とポートフォリオの概要

企業にはサイロ化した膨大なデータが存在します。それらをいかにして統合してガバナンスの元に管理し、データ探索を行って得た洞察をいかにアクションに繋げるか、ひいてはジタルトランスフォーメーション(DX)やイノベーションにいかにして繋げることができるかといった課題に多くの企業は取り組んでいます。そのような課題に対してQlikは従来からQlik SenseやQlik NPrintingなどを含むデータ分析(Qlik Data Analytics)の製品群をポートフォリオとして提供してきました。それに加えてQlik ReplicateやQlik Composeといったデータ統合(Qlik Data Integration)の製品群をポートフォリオに加えることで、包括的にデータ統合・データ分析をカバーし、企業のDX・イノベーションをエンド。ツー・エンドでご支援できるようになりました。

image

Qlikが提供するデータ統合・データ分析のポートフォリオは具体的には以下の様になっています。データソースからQlik Replicateリアルタイムにデータウェアハウスやデータレイクにデータを移行します。そして、Qlik Compose for Data Warehouses/Data Lakesでそれらのデータを分析可能なデータに整備・加工し、それを利用してQlik Senseでデータ分析・活用を行うことができます。Qlik Sense、およびオプション製品のQlik NPrintingQlik Alertingなどによって、ダッシュボード、セルフサービスBI、モバイルアナリティクス、組込みアナリティクス、定型帳票からアラートなど、ビジネスの現場でデータを活用して意思決定を行うユーザーの様々なニーズや要望に対応することができます。

image

データ統合とデータ分析の両輪をカバーするQlikプラットフォームの優位点を纏めると以下になります:

データ統合

  1. リアルタイム:バッチの呪縛からの脱却、鮮度の高いデータでタイムリーに意思決定が可能に
  2. エージェントレス:ソースシステムに手を入れたり、負荷を掛けず、システム的な影響度を最低限に
  3. DWH/データレイクの自動化:ベストプラクティスやメソドロジーに基づいた設計、コード(SQL, HiveQL, Spark)の自動生成を行い、分析に利用可能なデータへ

データ分析

  1. 連想インデックシング + 拡張知能=AI2:思考の流れに従った分析を、マシン・インテリジェンスの力を借りて
  2. 幅広い分析ユースケースに対応:セルフサービスBI、ダッシュボード、定型帳票、モバイル分析、組込み分析などをサポート
  3. アジャイルBI:データ準備~分析までを一気通貫でサポートし、俊敏かつ柔軟なBI環境を提供

image

Qlikのデータ統合製品のご紹介

では次に、以下のQlikのデータ統合製品に焦点をおいてご紹介を行いたいと思います。

  • Qlik Replicate
  • Qlik Compose for Data Warehouses
  • Qlik Compose for Data Lakes
  • Qlik Enterprise Manager

Qlik Replicate

Qlik Replicateはリアルタイムかつインメモリで高速に、ソースからターゲットに対してデータを転送・複製を行う製品となります。このQlik Replicateの大きな強みはエージェントレスで動作するため、データソースにエージェントの導入不要となっています。そのため、データソースへのCPUやメモリ消費の負荷の影響も最小限とし、基幹系システムの本番運用への影響を排除した利用が可能です。また、異種システム間のデータ転送が行え、メインフレームやSAPを含む多種のデータソースをサポートしています。

image

Qlik Replicateの代表的なユースケースは大きく、基幹系のユースケースと分析系のユースケースに分かれます。

基幹系のユースケースでは以下を含めた異種システム間のデータ移行などで利用されています。

  • 停止時間を最小化してDBを移行、システム更改への対応
  • 商用データベースをOSSデータベースへ移行
  • オンプレ環境からクラウド環境への基幹系データを移行

また、分析系のユースケースでは、基幹系システムのデータを分析系システムにリアルタイムで連携するといった用途で利用されています。

  • データレイク/DWHのバッチデータ更新をリアルタイム化
  • クラウド系データレイク/DWHへ基幹系システムのデータ同期
  • メインフレームのデータをオープン系システムに同期・活用
  • グローバル拠点への分析データの配信・収集

image

以下がサポートされているプラットフォームとなります。Oracle、DB2、MySQL、PostgreSQL、SAP HANAなどのデータベース、DB2 z/OS(メインフレーム)、SAP、AWS RDSやRedshift、 Azure Synapse AnalyticsやSQL DB、Hadoop (AWS EMR、HDInsight、Hortonworks/Cloudera、Google Dataproc)、Snowflake(AWS/Azure/Google)、Databricks(AWS/Azure)、Kafkaなど、様々なエンドポイントをサポートしています。詳細および最新の情報はヘルプサイトの「Supported Platforms and Endpoints」をご確認ください。

image

Qlik Compose for Data Warehouse

Qlik Replicateで基幹系システムから転送・複製したデータは必ずしも分析に活用できる状態のデータになっているとは限りません。そのデータを分析できるデータにするための製品がQlik Composeになります。Qlik Replicateでリアルタイム抽出したデータを活用し、Qlik Composeによりベストプラクティスに基づいたDWH設計・構築を行うことができます。

image

エンタープライズデータウェアハウス(DWH)の領域には広く活用されているメソドロジーやベストプラクティスが存在ます。その中で主要なものはビル・インモン(Bill Inmon)のコーポレート・インフォメーション・ファクトリーや、ダニエル・リンステット(Dan Linstedt)のデータボルト、ラルフインボール(Ralph Kimball)のディメンショナル・モデリングなどが挙げられます。

image

このようなメソドロジーで提唱されているテクニックで、一般的なDWHで適用されているものの例としては以下になります。一般的なDWHのアーキテクチャーでは、ODSやLandingエリアに複数ソースシステムから抽出した最新のデータを保持し、EDW領域の統合データモデルに、クレンジングした過去の履歴データを格納し、目的別・サブジェクト別にディメンショナルモデルに従ったマートを作成するといった形が取られます。また、DWHでは履歴データを永続的に保持することが求められますが、時系列データの扱いについては緩やかに変化するディメンション(SCD: Slowly Changing Dimension)といった手法が用いられます。

image

ETLツールは幅広い変換処理への対応と大量データのバッチ処理にフォーカスした製品になっています。そのため、上記のようなベストプラクティスやテクニックを、スキルや要件などに合わせて一つ一つ設計して作り上げていくアプローチとなります。また大量データを扱うバッチ処理を行うことが製品の主眼にあり、データの差分抽出を行う仕組みもデータソースのエージェントを使ったものとなります。それに対して、Qlik ComposeはQlik Replicateのエージェントレスとリアルタイム処理の仕組みを基盤として利用することができます。そして、GUI画面のウィザードで流れに沿って作業をしていくことで、ODS~EDW~データマートの設計や、Slowly Changing Dimensionに基づいたテーブルの物理・論理設計などを自動化して作業していくことができるのが特徴となっています。

image

Qlik Compose for Data Warehousesのアーキテクチャーの概要は以下となっています。Qlik Replicateが初期ロードと変更データキャプチャー(CDC)の レプリケーションを行い、Qlik Composeがデータ・ウェアハウスやデータ・マートを設計しデータを格納するためのELT(Extract, Load, Transform)セットを生成して実行します。

image

Qlik Compose for Data Lakes

Qlik Compose for Data LakesはHadoopなどのデータレイク向けのQlik Compose製品となっており、Hortonworks/Cloudera、AWS EMR、Azure HDInsight、Google Dataproc、Databricksなどに対応しています。Qlik Replicateでリアルタイムにデータレイクに転送し、Qlik Composeがそのデータの履歴を保存します。そして、データ活用や分析のために、ある時点のスナップショットデータや履歴データを分析に適したParquest/ORC/Avroなどの形式で提供します。Qlik Compose for Data Warehousesと同様にステップごとにGUI上でデータレイクの設計を行い、その設計に基づいてSpark/HiveQLのコードが自動生成されてシステム上で実行される仕組みとなっています。

image

Qlik Enterprise Manager

Qlik Enterprise Managerは、大規模なビジネス環境において複数のQlik ReplicateインスタンスやQlik Composeのタスク実行状況やサーバーの稼働状況などを統合的に管理するための製品です。直観的な履歴チャートを使用して容量計画と負荷分散に関する情報をQlik Enterprise Manager上で入手が可能で、システム管理における意思決定を行うためにも利用することができます。

image

まとめ

データ分析およびデータ統合の全体的な製品ポートフォリオのご紹介と、各データ統合製品のご紹介を行いました。今後は、それぞれの製品についての詳細な利用方法などについてご紹介をさせて頂く予定です。