【分析】テキストマイニングとは?導入事例と無料・有料のソフトを紹介!

今回はテキストマイニングの記事。テキストマイニングって何なの?っていうところからテキストマイニングを使った事例無料・有料で使うことのできるソフトを見ていきます。テキストマイニングを使ってこれから何かしたい・・・!っていう方は参考にしてみてください。

テキストマイニングとは

テキストマイニングといってもなんか難しそうな言葉でよくわからないですね。Wikipediaを見てみるとこんなことが書いてある。

テキストマイニングtext mining)は、文字列を対象としたデータマイニングのことである。通常の文章からなるデータを単語文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。

テキストマイニング - Wikipedia

これを見てもなんとも言えないけど、通常の文章から有用な情報を取り出すテキストデータの分析方法ということだ。テキストマイニングっていう手段を使って、自分たちが欲しいデータを取り出すていうことですね。どういったデータを取り出す時に使うのかっていうとあくまで一例だけど、商品の評価や顧客サービスの問題点

データマイニングが顧客個人の購買傾向を分析するなどの目的で行われるのに対し、テキストマイニングは顧客個人の特性よりも提供側の状態を把握する面において威力を発揮する。例えば商品の評価や顧客サービスの問題点などを把握することができる。

例えば、見える化エンジンっていうテキストマイニングのサービスがあるんだけど、トップページに顧客の声を活用しよう的なことが書かれていますね。

どう活用できるのかっていうと、テキストマイニングすることによって、顧客がその商品に抱いている印象や感情を分析することができる。印象や感情なんて目に見えないのにどう分析するんだ・・・?と思うけど、それはテキストマイニングの名の通り、テキストから分析するんだ。

テキストマイニングの分析方法

どうやって分析するのかっていうと自然言語解析といった手法なんかを使ってテキストを解析する。

大量の文章データ(テキストデータ)から、有益な情報を取り出すことを総称してテキストマイニングと呼びます。自然言語解析の手法を使って、文章を単語(名詞、動詞、形容詞等)に分割し、それらの出現頻度や相関関係を分析することで有益な情報を抽出します。

テキストマイニングとは

その自然言語解析を使って文章を単語に分割ってなんだよ?って感じだけど、形態素解析や構文解析、文脈解析といったものが行われる。形態素解析に関しては、以前Youtubeの人気動画タイトルを形態素解析で解析するような記事を書いたからそれをみてみるとちょっとイメージが湧くかもしれない。

ちなみに[仕事]っていうワードで検索した人気動画のタイトルたちを取得して形態素解析した結果、上位はこんな感じになったよ。(文を形態素解析の結果で分けてそれらの数をカウントした)

(' ', 26)
('仕事', 20)
('の', 16)
('【', 9)
('】', 9)
('に', 8)
('た', 7)
('を', 5)
・・・
・・

動画タイトルを集めて形態素解析しただけだけど、これだけでもどんな単語が人気動画タイトルに多いのか?みたいなことが少しはわかる。動画作成するなら有用な情報な気がするよね。この形態素解析はテキストマイニングの一部分だけど、構文解析や文脈解析も詳細に行えば結構なことがわかりそうな気がします。

例えば商品のアンケート結果をテキストマイニングしたら、ユーザーがどんな印象をその商品に持っているのかっていうのがなんとなくわかるでしょう。

そういえば、前のYoutubeの動画タイトル解析の記事の続きみたいな感じで人工知能に動画タイトル作らせるみたいなこともやったから気になったら見てみておくれ。

テキストマイニングの事例

テキストマイニングは、テキストを良い感じに分析すると有用な情報を得られるっていうのは何となく分かっただろうか。そんな良い感じの技ならそれらの技術を使って、情報活用を行っているところもあるでしょう。ちょっと事例を見ていこう。

10,000人から寄せられたおすすめメニューを分析

マクロミルって知っていますかね?いろんなリサーチサービスをやっていたりして、マクロミルからのアンケートを受けたことがある人もいるかもしれない。そのマクロミルのサービスでテキストマイニングがある。紹介されている事例として、10,000人から寄せられたおすすめメニューを分析した結果が載せられていますね。

テキストマイニング

大きくクラスターっていうカテゴリみたいなものが3つに分かれていてラーメン系・丼、カレー、定食等・ランチ、ケーキ等ですね。キーワードも「こってり、豚骨」「スープ、味噌」「見た目、濃い、あっさり」「ネギ、塩、醤油」とかっていうのがいくつか出てる。この結果からこんなことが考えられるみたい。

このことから、人気のメニューは「見た目は濃そうだが意外にあっさりしており、ネギがたっぷりのったネギ塩ラーメンとネギ醤油ラーメン」というイメージでしょう。また2番目のクラスターには、丼系、カレー系、定食系などが見られ、人気があるのは辛いチキンカレー、大きい海老の天丼、トンカツ定食ということになります。

なんかキーワード見るだけで人気のメニューが分かってしまいますよね。人間の目で10000人の結果を見ることなくテキストマイニングの結果を見さえすれば、大体のことがわかるのは良いな。

パナソニックES社の導入事例

これは見える化エンジンっていうテキストマイニングツールの導入事例だけど、パナソニックエコソリューションズ社の事例でコールセンターに寄せられた情報の分析やSNSの分析なんかを行っているらしい。

市場品質リスクは、従来は顧客からの苦情や現実に確認された問題から判断していたのを、SNSを利用した方法も取り入れている。そして、SNSで得られた情報を、好感・期待から悪口までを、0から4までのステージに区分し「見える化」をしているという。

テキストマイニングツールの見える化エンジンがどういったものを示してくれるかわからないけど、なんか凄そうですよね。で色々やった結果問い合わせ件数が減ったみたい。

2010年をピークとして、問い合わせ件数が5年連続で前年の件数を割れるという成果が認められたとしている。

顧客から寄せられる電話は年間約120万件にのぼるということだから、人の目では限界がありますね。そこにテキストマイニングを導入して見える化したことで成果が上がったのでしょう。

無料のテキストマイニングのソフト・サービス

無料のテキストマイニングのツールをここでは紹介していこうと思う。無料で使えるからどんなことができるのかなあ・・?なんて気になったら使ってみるとちょっと面白いかもしれない。

テキストマイニングツール by ユーザーローカル

解析したいテキストを入力すると、テキストマイニングしてくれる。

試しにサンプルの走れメロスを試してみるとこんな感じになった。この文字がぐわああああああああって出てくる感じ良いですよね。やはりメロスって言う単語の出現頻度が多いよね。

それとこのポジティブ・ネガティブがわかるの面白いですね。この単語はポジティブなイメージ・・・とかで計算しているのかな。

感情推移っていうのも出てくる。これやればその文章がどんな感情で推移するのかわかるのかもしれない。

なんかこれあれですね、本読む前になんとなくこういう感情の物語なんだろうなあ・・・っていうのが分かってしまいそう。

KH Coder

KH Coderのダウンロードと使い方からダウンロードすることができる。WindowsでもMacでも使うことができるね。使い方は最初迷うと思うから、チュートリアルを見ておくといいと思います。で、やってみたのが桃太郎の文章を解析してみた。簡単な操作で一気に情報が出てきて面白いね。

ちょっといろいろそれっぽいものを出してみたけど、何が何だか凡人の僕にはわからないけどなんか凄い。

これ無料で使えるのもしかして結構すごいんじゃないだろうか。何をやっているのか分からないけど機能もそれなりにあるし有料じゃないのか。操作も慣れれば簡単だろうし、データさえあればいろんな情報を見ることができる。無料でちょっと本格的なテキストマイニングやってみたい!っていう人がいたら試してみたらいいかもしれないですね。

Pythonで自ら実装する

プログラムを自分で書いてテキストマイニングを行うっていう方法もありますよね。別にPythonじゃなくてもいいけど、こういうのはPythonが多そう。WordCloudライブラリを使えば、良い感じのものが生成できそうです。検索してみるとやってみた系の記事が出てきますね。

ただテキストマイニングツールとして公開されているようなところまで自分でやるのはなかなかきついんじゃないかなー、と思います。ちなみに自分がYoutubeの動画タイトルを形態素解析した結果の記事はこれ(コードは書いていないけどJasomeっていうライブラリを使ってみたよ)。

有料のテキストマイニングソフト・サービス

有料のテキストマイニングソフトを見ていくんだけど、有料なだけに自分は使ったことがない。紹介にとどまるけどどんな感じのものがあるか参考にしてみてください。色々見てみて思ったけど、実際に使ってみないと分からないよね。。

Text Mining Studio

TextMiningStudioはTextMiningStudioからパンフレットのリンクなんかがあるから見ることができるんだけど、ぶっちゃけよくわからん。NTTData数理システムっていうところが作っているのかな。資料見てたら価格あって月額12万円~。永久ライセンス税別230万円~ということでした。

マジで言ってるのかこれ・・・テキストマイニングのソフトってこんなにお金かかるの・・・!?まあ気になったら見てみるといいと思います。値が張るだけあって機能は結構多そう。一般人が使うものではないのかもしれないですね。

見える化エンジン 

見える化エンジンはサイトが分かりやすくていいですね。活用シーンや事例なんかも載っているから、イメージがつきやすい。価格が〇〇円っていうのはサイトに載っていないようだったからITreview見たらこんな感じみたい。

やっぱりテキストマイニングのサービスって高いようですね。確かに膨大なデータを扱う企業なんかだとこの費用分を難なく回収できてしまうのかもしれない・・・それとここはコンサルティングなんかもやっていますね。

このソフトを使っていろんなデータが得られたとしても、それをうまく活用できる人がいないと結構無駄金に近いことになりそうなので、そういう人がいない所はコンサルっていうのもありなのかもしれない。機能は40種類以上あるようですよ、凄いな。

機能一覧が気になったら「見える化エンジン」の機能を見てみるといいです。

TextVoice

インターネットリサーチ会社のマイボイスコム株式会社が提供するサービスということで、以下6つの分析結果を提供してくれるみたい。

料金プランはこんな感じ。

ちなみにどんなイメージで使えるのか?っていうのはサイト内に紹介ムービーが貼られているからそれを参考にしてみるといいですよ。

Magic Insight for WEX

「高機能テキストマイニングACサービス」と「統合型検索エンジン FCサービス」というものをSassで提供してくれるサービス。Software as a Serviceの略でインターネット経由でサービスとして提供・利用する形態ですね。IBM Watson Explorerというもので自然言語解析とデータ分析を実施することができるみたい。

機能に関しては機能のページを見てみるといいと思います。結構色々みることができそう。それと導入前の虎の巻っていうテキストマイニング導入の参考になりそうな資料があるから何か参考になりそう。

また、このサービスは体験サイトもあるから検討するならまずは使ってみるのもいいかもしれない。

実際に使ってみないと分からないけど、IBMっていうワードが目に入るとなんかこう凄そうな感じがしてしまいますよね。

VOiC Finder

VOiC FinderはSCSKが提供するサービス。住友商事グループのSIerですね。このVOiC FinderはVOC分析に強みを持つみたい。VOCはVoice of Customerの略で、対応中に得られる顧客からの声なんかですね。

一般的なテキストマイニングツールは、コンタクトセンターなどでのお客さまとの会話における『話し言葉』の分析に弱いと言われています。VOiC Finderは、この弱点を補完し、VOC分析に強みを持つテキストマイニングツールです

ページを見る限り、こういうお客さんと話す仕事で情報を抽出したい!っていう場合に有用そうなサービスですね。JCBのインタビュー記事が掲載されているからどんな感じなのか見てみるといいかもしれない。

CoreExplorer

CoreExplorerは日立ソリューションズが提供しているサービスみたいですね。詳細な機能はページを見てみると書いてあるけど、こんな特徴があるみたいです。

5つの特長

  • 1.テキスト情報の分析をクリック操作で簡単に行える
  • 2.フリーテキストだけでなく属性部分も合わせた分析・集計が可能
  • 3.Webシステムのためクライアントへのインストールが不要
  • 4.OSSとの組み合わせにより大規模データに対応
  • 5.自社開発のためお客様の要望に応じたカスタマイズも可能(個別見積)

クライアントへのインストールが不要ということで、ブラウザがあれば使うことができるっていうのは楽でいいですね。OSSとの組み合わせって書かれているけど、Elasticsearchと連携できるそうですよ。

Knowledge Probe 20

Knowledge Probe20はFRONTEO独自開発による人工知能ということで、求めるテキストデータを抽出することが可能な人工知能「KIBIT(キビット)」っていうのが搭載されているらしい。サイトを見てみるとFRONTEOはAIや自然言語解析が得意な会社みたいですね。

このKnowledge Probe20の資料はサイトからダウンロードすることができるから、検討する場合はサイトを覗いてみるといいですね。

TRAINA テキストマイニング

TRAINAテキストマイニングツールは野村総合研究所が開発したものみたいですね。NRIって呼ばれ方の方が聞く気がする。日本最大手のシンクタンクということで何か期待してしまう。

「TRAINA テキストマイニング」は、野村総合研究所が分析コンサルティングを行なう上で開発し、自らが使い込んできたテキストデータ分析システムです。

導入されている企業も結構あるようで600社以上ということです。特徴はこんな感じで、NRIガ独自に開発した言語解析エンジンなんて搭載されているんですね。

機能は結構あるから気になったらサイトから確認してみるといいですよ。

まとめ

テキストマイニングについてと事例、サービスなんかを見てみたけどどうだろうか。サービスに関しては有料のものはそれなりの価格がするみたいですよね。それと結構いろんなところからテキストマイニングのサービスっていうのは提供されている。ただぶっちゃけどれがいいか使ってみないと分からない。

テキストマイニングツール by ユーザーローカルKH Coderなんかは無料で使うことができるから、テキストマイニング無料でしたい・・・!っていう場合はどんな感じか使ってみるといいですよ。

それと個人的にだけど有料のテキストマイニングサービスのページが企業サイト内にあることが多くて、なんか結構分かりづらい・・・見える化エンジンなんかはサービス専用のサイトがあって見やすいですね。(サービス専用のサイト作った方が売れる気がするのは気のせいなのか・・綺麗なサイトに目がいってしまうぞ)

おすすめの記事