日々のデータ管理や分析業務を効率化するために、BIやデータサイエンスツール活用するけーづが増えているのではないでしょうか。BIツールと言うとTableauやGoogleデータポータルなどが思い浮かびますが、オープンソースで活用でsきるデータサイエンスツールもあります。それが、「RapidMiner Studio」です。
RapidMinerは、2010年当時に「実務で最も使われたデータマイニングツール」と言われていました。既に老舗感すら感じさせます。
2020年3月時点でバージョンは9.6となっています。現在でも活用されるRapidMiner Studioについて、簡単に触ってみた感想程度ではありますが、まとめておきます。
RapidMiner Studioとは
RapidMiner Studioを、「オープンソースのデータサイエンスツール」と書きましたが、正確には「ETL(Extract:抽出・Transform:加工・Load:ロード)」ツールという方が正しいでしょう。ExcelやCSVなどのデータを読み込み、任意のプロセスで加工しグラフ化する作業を、ノンプログラミングで行えルツーるです。RやPythonなどとも連携できます。
日本語の正規代理店サイトもありますが、本家サイトでオープンソース版がダウンロードできます。本家サイト中心に使用してみてよいかと思います。
ちなみにオープンソース版だけでなく、高機能な有償版の「RapidMiner Server」やHadoopと類似した処理が可能な「Rapid Miner Radoop」などがあるようです。
ダウンロード&インストール
こちらの「Get-Started」から、ご自身のOSにあったファイルをDLしてインストールします。 ※GitHubにはソースコードも公開されてます。
RapidMiner Studioを試してみる
初回起動時、アカウント登録をする必要があるのでアカウント作成します。インターフェースに関して言うと、最初はヘルプやチュートリアルパネルが開いているので少しごちゃごちゃした印象を受けるかもしれませんが、それなりにシンプルにまとまっています。
上部中央にある「デザイン」側でデータの抽出と加工手順を「プロセス」タブに組んで実行すれば、「結果」側でグラフによる視覚化ができます。
サンプルデータもアプリ内に同梱&本家サイトからDLできるので、とりあえず操作性やできる事を確認するには十分ではないかと思います。という事で、使ってみた印象をいくつかあげます。
簡単な集計がとてもスムーズ
データファイルをロードすると、すぐさま単純集計やプリセットされたグラフ出力がされます。
RやPythonのようにグラフ描画の言語処理も要らなければ、加工も必要ありません。もちろん数量化が必要なデータはクレンジングしてあげないといけませんが、とりあえずノンプログラミングでのこの手軽感はさすがです。k-meansでのクラスタ分析とかまでドラッグ&ドロップでサクサクいけるのありがたい。
チュートリアル動画の充実度がすごい
すでに実績あるツールなため、チュートリアルも充実しています。「RapidMiner Academy」では、最初の一歩から機械学習への対応まで、幅広く学ぶことができるのは非常に魅力的です。
日本語サイトのブログも参考に。
ツール自体は本家サイトでも十分な印象と思ってますが、日本語サイトのブログもなかなか面白そうなので参考までに。IoT分析についてやGoogleの機械学習サービス「TensorFlow」なんかにも触れたコンテンツやセミナー情報なども掲載されてました。
BIツールから一歩進んでETLツールで日々の分析業務をおこないたい方はぜひRapidMiner Studioをお試しください。