(末尾にテキストマイニング無料体験の説明が書かれています)
ブログやツイッター、特許申請書類、企業のホームページや掲示板の書き込み内容、コールセンターの会話などのテキスト情報をほとんどすべて数量化できるようになりました。情報処理にかけられ、隠れていた貴重な真実が「見える化」できます。
コミュニケーションが科学になる時代になったのです。伝達したい意味内容が計算でき、理解しあえ、共有化しやすい環境になりました。
組織に貯蔵され日々増えていく「情報」、それら意味をもつデータの大半(専門家によると7〜8割)が定量データでなく定性データだといわれています。定性情報をなんとか加工して、計算できるように定量化されたものはアンケートであったり質問票であったり、加工されいじられれば、本来の内容から変質化されています。きちんと数量化されたデータは、その用途に開発され測定できる装置を通しての計測値であったり、あるいは売上高、人数、重量といったような、そもそも数字からなる自然のものだったりしました。
これまで定性データでは、コンピュータは読み込みと書き込みはできますが計算できず、それでしかたなくおもちゃというかギャグのようなテキストマイニングでお茶をにごし、何という単語が多いとか、どんな係り受け用語が多いとか、意味のないどうでもよい処理をしていました。
大学も、もっとまじめに情報処理の研究をすべきでした。エクセル表計算やプログラム言語がどうとかムダに主張していても、定性情報という企業には最大のデータにはなんとも対応できなかったのです。数字や記号に置き換えられたものしか計算できず、そのため数学で検証・証明できないため、定性情報をふくむ大半のデータは科学になりえずに、ただのカウントだけでおわっていました。
それが、やっと可能になりました。
コトバで表現された文章データが数量化できるようになりました。数値になれば、あとは分析者の数学力や統計能力しだいです。主成分分析、重回帰、判別分析、多次元尺度法、分散分析など、自由自在です。
あの長大で膨大な、へんてこな日本語でかかれた特許申請文章がきちんと「意味内容(セマンティクス)」で分類され、この10年の流れや傾向がずばり、手に取るようにわかります。年月で表示すれば時系列でも要素分解できますし、何という発明が何という技術革新を招いたか、パス解析もできます。Trizもラクラクです。
秋葉原にある家電製品の各社パンフレットから、おいしい情報が流れています。電器業界の進んでいる方向や各社の立ち位置、強みと弱みがすっきり見える化できます。ホームページに書かれている案内や商品紹介を分析すると、たちどころに業界とライバルそしてわが社の比較ができます。どこをどうすれば勝てるかが短時間で具体的なチャートや図に描けます。
食べログを解読したとき、世間の要望する味や価格と提供する側のレストランの感覚には大きな溝がありました。ジャランとかのホテル情報の解読からも、ユーザーと企業の思惑がズレまくっていました。これで「顧客の声」を聞いていると書いているホームページですから笑えます。
興味がおありなら説明します。最近、やっと何人かが興味をもってくれたらしく問い合わせがありますが、たいてい「そんなことはない」と決めてかかっているのか、コトバを計算するというボクらの意見に耳を傾けてくれる人はまだ少ないです。ところが最近、人工知能のおかげで、少しずつ引き合いが増えています。テキストが計算できる、という体験をしてみませんか。
お試し体験のご案内
このような文章のデータマイニングを、卒論用でも企画用でもいいですから、あなたも「やってみたい」と思ったら費用無料でして差し上げます。1万人以内のデータ量ならば、月に1社(者)タダで分析してさしあげます。属性は年代、性別などがあれば結構、なくても結構です。連絡先は info@icas.co.jp
|