SEワンタンの独学備忘録

IT関連の独学した内容や資格試験に対する取り組みの備忘録

【Pentaho】Pentaho-server(BIツール)をCentOS7に導入してみる

とりあえずインストールするところまで。

Pentaho(ペンタホ)について

Pentahoは、データ統合、OLAPサービス、レポート、情報ダッシュボード、データマイニング、抽出、変換、読み込み(ETL)機能を提供するビジネスインテリジェンス(BI)ソフトウェアです。本社はフロリダ州オーランドにあります。 Pentahoが買収された日立データシステムズ2015年及び2017年日立Vantaraの一部となりました。

引用元:Pentaho - Wikipedia


一言で言えば、オープンソースのBIツールです。
何ができるかとかは現時点では正直わかっていないので、後からかな。

以下は参考になります。
Pentahoとは - Qiita
Pentaho:日立

今回は無料で活用できる「コミュニティーエディション」を使用していきます。
また、記事作成時のバージョンで対象は「9.1.0.0-324」としています。

BIツール自体に詳しいわけではないですが、さっと調べた感じだと他のツールと比較すると以下のような特徴があると思います。

・特定の範囲であれば永久無料で使用できる
 ⇒他のツールだとトライアル版で使用期間に制限などがある場合も多いと思います。

・一定のITスキルは必要とされる
 ⇒ビジュアルの作りこみや環境の構築などにそれなりに技術が必要になると思われます。

・日本語ドキュメントは少なめ
 ⇒インターネットで検索した感じだと、最新版の日本語ドキュメントが常に豊富にある感じではないと感じました。

正直言ってしまえば、個人独学で勉強程度に活用してみる分には学習コストがやや高い印象があります。
英語が堪能なら多少は有利になるとは思いますが・・

Pentaho自体には今回構築するPentaho-server以外のツールやプラグインがかなり豊富にあります。
十分に活用できれば便利なものになると思いますが、ツールやプラグインが豊富すぎるため何も知らない状態から始めると自分がやりたいことを実現するために何を使用すればいいのかわからない状態になりがちになるのではないかと思います。

Pentaho機能概要

前述の通り、Pentahoには多様な機能があります。
全容は把握しきれていませんが、特にce版だと各機能を一つ実現するために一つのコンポーネントをダウンロードするか、プラグインを導入する必要があるイメージです。
今回扱えるのはユーザコンソールとダッシュボード デザイナー(含まれているのかは微妙)ぐらいです。

詳細は公式サイトを参照くださいです。
引用元:https://help.pentaho.com/Documentation/9.1/Products

■Web ベースのコンポーネント
・ユーザーコンソール
・アナライザー
・インタラクティブレポート
・ダッシュボード デザイナー
・CTools
・データ ソース ウィザード
・データ ソース モデル エディタ

■デザイン ツール
・データ統合
・レポート デザイナー
・集計デザイナー
・メタデータ エディタ
・スキーマワークベンチ

下準備

環境と構築イメージ

f:id:wantanBlog:20201025183635p:plain

ホストマシンであるWindows10上にVMWare Workstation Playerにインストールして仮想マシンとして立てたCentOS7上にPentaho-serverをインストールを行います。

普通にWindowsマシンを使用しているなら多分普通にそちらにインストールしてもOKです。
あんまり参考にできるものも少なかったのでまぁまぁ手探りでやっていきます。

今回の範囲としてはPentaho-serverのインストールのみで、用意されているサンプルデータをブラウザ上で可視化させるところまでとします。

CentOS7にjavaのインストール

Pentaho関連製品は実行環境にjavaを必要とします。なので、Linuxサーバで稼働されるならLinuxにWindowsマシンで稼働させるならWindowsにjavaをインストールされている必要があります。
今回はCentOS7へのインストールなので以下の手順になります。

・javaパッケージの確認

yum search java-1.8.0-openjdk

・JDKのインストール

yum install java-1.8.0-openjdk

バージョンはそんなに気になくてもよさそうだけど、私の環境ではJava8で動いた。

Pentahoインストール

Pentahoサーバのダウンロード

とにもかくにもペンタホの本体をダウンロードします。
以下のサイトより「pentaho-server-ce-9.1.0.0-324.zip」をダウンロードしてきます。
※別のバージョンでも多分同じような要領になると思います。
ダウンロードファイル一覧 - Pentaho - Business Intelligence - OSDN

上記から探し出してホストマシンにダウンロードして転送でもOK。
私は「wget」コマンドでサーバから直接ダウンロードしてunzipしたけど、zipのフォルダ名が変なことになっていたのでとりあえず非推奨で。

1.9GBぐらいあるので、いずれにしても環境によってはまぁまぁ時間がかかるかもしれません。
容量キツキツでやっている場合には容量にもお気をつけて。

インストール

サーバ上の任意の場所に配置したら「unzip」で解凍する。

unzip pentaho-server-ce-9.1.0.0-324.zip

インストールというか普通に起動って感じですかね。
起動スクリプトを実行します。

./start-pentaho.sh

実行時の様子は以下のようになりました。
参考までに。

[root@localhost pentaho-server]# ./start-pentaho.sh
WARNING: Using java from path
DEBUG: _PENTAHO_JAVA_HOME=
DEBUG: _PENTAHO_JAVA=java
--------------------------------------------------------------------------------                                                        ------------
The Pentaho BI Platform now contains a version checker that will notify you
when newer versions of the software are available. The version checker is enable                                                        d by default.
For information on what the version checker does, why it is beneficial, and how                                                         it works see:
http://wiki.pentaho.com/display/ServerDoc2x/Version+Checker
Press Enter to continue, or type cancel or Ctrl-C to prevent the server from sta                                                        rting.
You will only be prompted once with this question.
--------------------------------------------------------------------------------                                                        ------------
[OK]:

Using CATALINA_BASE:   /home/wantan/work/pentaho-server/tomcat
Using CATALINA_HOME:   /home/wantan/work/pentaho-server/tomcat
Using CATALINA_TMPDIR: /home/wantan/work/pentaho-server/tomcat/temp
Using JRE_HOME:        /usr
Using CLASSPATH:       /home/wantan/work/pentaho-server/tomcat/bin/bootstrap.jar                                                        :/home/wantan/work/pentaho-server/tomcat/bin/tomcat-juli.jar
Tomcat started.

多分しばらくまつ。
サーバ上の設定が不十分な場合にはfirewallの設定などを見直すこと。

私の場合はtomcatをサービス登録する必要があった。

vim /etc/firewalld/services/tomcat.xml
<?xml version="1.0" encoding="utf-8"?>
<service>
  <short>Tomcat (HTTP)</short>
  <description>Tomcat HTTP Server.</description>
  <port protocol="tcp" port="8080"/>
</service>
ブラウザから接続する

ブラウザから以下のアドレスに接続する。

[http://[サーバのIP]:8080/]

以下のような画面が表示できれば起動はとりあえずOK。
特に設定もしてませんが、日本語版になってた。

f:id:wantanBlog:20201014002026p:plain

デフォルトのIDとパスワードは以下の通りらしい。

ID:admin
パスワード:password
※勘で入力しました。

ダッシュボードを作成してみる

今回はデータをブラウザ上で可視化することを試してみたいと思います。
簡単に試すためにサンプルデータを使用します。

全然理解できていない部分も多いですが、ざっくり流れを言うと、テンプレートを適用してそのテンプレートにコンテンツ(グラフなど)を当てはめていく感じだと理解しました。多分本格的に使用するなら設定すべき場所をスルーしています。

ホーム画面から「新規作成>CDEダッシュボード」を選択します。

f:id:wantanBlog:20201025234255p:plain

標準テンプレートの適用

ダッシュボードの新規作成画面が開けたらまずはテンプレートの適用を行います。
テンプレートはもちろん自分で作成、編集することも可能なようですが、ここでは標準テンプレートをそのまま使用します。

「Layout Structure」にある「Apply Template」を選択します。

f:id:wantanBlog:20201026001301p:plain

ここでは「2 Columns Template」というものを選択していますが、試す程度ならどれでもいいはずです。
任意のものを選択してOK。

f:id:wantanBlog:20201026001451p:plain

警告が表示されますが、作成中のテンプレートが上書きされるようなものなので、作成中のものなどがなければOK。

f:id:wantanBlog:20201026001631p:plain

テンプレートの読み込みが行われます。
データを表示するだけならやらなくて大丈夫ですが、ダッシュボードとして表示されるタイトルを編集してみます。

読み込まれたテンプレートのヘッダー行の「Html」要素を開きます。

f:id:wantanBlog:20201026002122p:plain

h2要素に囲われたタイトル部分を任意の文字列に編集します。

f:id:wantanBlog:20201026002250p:plain

一旦テンプレートを保存しておきます。
「Save as」から保存を行います。

今回は以下のように保存しました。
・フォーマット:Dashboard
・フォルダ:/home/admin 配下(任意)
・ファイル名:任意
・タイトル:任意

f:id:wantanBlog:20201027210714p:plain

データソースの適用

ここではsampleDataを使用します。
この辺は本当に分かっていなくて、もっといろいろなことができると思いますが、まずは簡単にできるところまで。

メニュー右側の「データソースパネル」を選択します。

f:id:wantanBlog:20201026003516p:plain

左側に現れるメニューから「Wizards>OLAP Chart Wizard」を選択します。

f:id:wantanBlog:20201026003821p:plain

ウィザードが表示されるので、後は好きなようにいじってみます。
参考までに今回は以下のように設定してみました。

・Catalog:SampleData
・Name:任意
・Html Object:Panel_1
※ダッシュボード上のどこに適用するか?今回のテンプレートだと「Panel_1」で左側に表示されるはず
・Chart Type:Pie Chart
・Top Count:15
・Rows:Department
※基本的には左側のDimensionsから選択するものっぽい
・Columns:Budget
※基本的には左側のMeasuresから選択するものっぽい

今回は部門ごとの予算の割合を表示している感じですかね。

f:id:wantanBlog:20201026004930p:plain

いい感じのが作れたらOKを押して親画面の方で「Save」しておきましょう。

作成したダッシュボードのイメージはメニュー右側の「Preview your Dashboard」から確認することができます。

f:id:wantanBlog:20201026005211p:plain

f:id:wantanBlog:20201026010755p:plain

かなり簡素ですが、作りこめばもう少しよいビジュアルにできると思います。

※現時点で、一度作成したダッシュボードを閉じて再編集する方法という致命的なことが分かっていません。方法はあるかもしれませんが、このページにその方法は載せていないので要注意で

作成したダッシュボードを参照する

作成したダッシュボードをプレビューではなく実際の画面で参照してみます。
ホーム画面の「ファイル検索」を押下します。

さきほどテンプレートでつけたタイトルの方の「CDE」となっているファイルの方を選択します。

f:id:wantanBlog:20201026011854p:plain

f:id:wantanBlog:20201026011632p:plain

他にどの程度のことができるか

サンプルをのぞいてみる

今回はかなり単純なものを表示したのみなので実際にどの程度のことができるのかはサンプルを参照するのが早いと思います。
サンプル以上のことももちろんできるのだとは思いますが参考までに

ホーム画面から「ファイル検索」を押下。

「public」配下にある任意のファイルを開いてみるとどのようなものが作れるのかみることができると思います。
例えば「public>Steel Wheels>Dashboards>Home Dashboard」。

f:id:wantanBlog:20201026013234p:plain

f:id:wantanBlog:20201026013318p:plain

こちらは着目したいデータをクリックすることで、それに関するデータで再表示するなどもできるようです。
他にもいろいろありますので興味があれば適宜参照してみてください。

ーーーーーーーーーーーーーーーーーーーーー
BIツールに興味がでてなんとなくで手を出したPentahoですが、独学で実用レベルまでもっていくには少々ハードルが高い印象・・
実現したいことがままならない状態でやるには少し学習コストが高すぎるのでどこまでやるかは不明です。