事業におけるデータ活用は、マーケティングのみならず業務効率化やデジタルトランスフォーメーションの観点からも無視できないものとなっています。
データ分析は、効率よく抽出(Extract)→加工(Transform)→出力(Load)する必要があります。これらの頭文字を取ってETLツールなどと呼ばれますが、最近はオープンソースソフトウェアとしても提供されているものがあります。
先日、ETLツールとして一時代を築いた「RapidMiner Studio」を紹介しましたが、今回はRapidMiner Studioを追随する「Talend Open Studio」の紹介と、インストールする際の注意点についてまとめます。
Talend Open Studioとは
Talend Open Studioは、GUIベースで定義したETLフローから、Javaコードを自動生成して実行する、オープンソースのETLツールです。ExcelやCSV、XMLの他、PDFにも対応しており、幅広いデータを扱うことができます。
OSも、Windows・Mac・Linux系それぞれに対応しています。
インストール手順
手順はいたって簡単です。次の2点でOKです。
- Java SE Development Kitをインストール
- Talend Open Studio for Data Integration をインストール
1. Java SE Development Kitをインストール
[sc_Linkcard url=”https://www.oracle.com/java/technologies/downloads/#jdk19-mac”]2022年10時点の最新バージョンはJava 19です。上記はMac OS版のリンクになりますが、WindowsやLinuxの場合はそれぞれのOSのバージョンをダウンロードしてください。
ファイルをダウンロードしてマウントするとpkgファイルが現れるので、実行してJDKをインストールします。
2. Talend Open Studio for Data Integration をインストール
ダウンローページのフォーム項目に必要な情報を入力し送信すると、ダウンロードURLが記載されたメールが届きますので、Zipファイルをダウンロードしてください(800MB弱あります)。
Zipファイルを解凍すると、全OS分の必要なファイルが用意されています。ファイル容量が大きいのはそのためです。Macの場合、「TOS_DI-macosx-cocoa(.app)」を実行すると起動します。
起動しない場合の対処法
JDKがインストールされていない場合はその旨のエラー、またappファイル実行初回は、セキュリティに関する警告が表示されますが、それとは別に下記エラーにより起動できない場合があります。
The TalendOpenStudio-macosx-carbon executable launcher was unable to locate its companion shared library.
エラーの原因は解凍した階層の深度によって発生する場合があるようです。Zipファイルを解凍フォルダをできるだけ上位階層にするなどして再度試してみてください。
次回は、Talend Open Studio for Data Integration の使い方について説明いたします。