COREPON.COM 株式会社 組織活性化研究所
ANALYSIS SOLUTION CASE STUDY VOICE INFORMATION
コラム 先生のやぶにらみ セミナー・講演 最新情報 SECRETARY DESK
日本語セマンティクス
TOPANALYSISデータマイニング日本語セマンティクス第2回
日本語セマンティクス第2回
←第1回 →なし
夢のような分析を可能に
 日本語セマンティクスは夢のような分析を可能にしました。
 大勢の人々が書いた文章を、その発言の意味内容で要約し、分類してくれるのです。
 昔、聖徳太子という立派な方が、何人もの人が同時にしゃべった話を一度に聞いて内容を理解したという逸話がありました。私たちもそれに似たことが出来るようになったのです。


 どのようにして発言の要約ができるかというメカニズムは、特許の制約上、今はくわしく説明できませんが、多数の企業や大学から注目を集めています。自動車メーカー、食品、化粧品、テーマパークなどいくつもの有力企業からすでに導入希望が寄せられています。


 先日は2万4千人がネットで書き込んだデータを分析しました。
 「次に買いたい車メーカーはどこですか」「その理由はなぜですか」という2問でした。メーカーについては因子分析の結果が示すとおり、第一、第二、第三因子がヨーロッパ勢になりました。第四因子がアメ車、そして第五因子にトヨタ対ホンダの対決構造でした。
 第六因子がマツダなど他の国産車メーカー、そして第七因子が軽自動車でした。


次に買いたい車の因子分析(魚骨図)


次に買いたい車の因子分析(表)


凡例
因子抽出法:主成分分析 回転法:Kaiserの正規化を伴うバリマックス法
8回の反復で回転が収束しました。
F1 アウディ、BMW、ボルボ、フォルクスW、オペル、ベンツに乗りたい
F2 フェラーリ、ポルシェ、ベンツ、BMWに乗りたい
F3 ルノー、シトロエン、アルファロメオに乗りたい
F4 GM、クライスラー、フォードに乗りたい
F5 ホンダでなくトヨタに乗りたい。トヨタでなくホンダに乗りたい
F6 マツダ、三菱、スバル、日産の国産車に乗りたい
F7 ダイハツとスズキに乗りたい

 マルチ回答の形式をとりましたが、これは定量データです。ですから、きちんとデータ処理できる(データマイニング)人なら、メーカーの因子分析は、このように明瞭な形で出るはずです。第五因子のトヨタ対ホンダの対決構造は「うーん」とうならされるものでした。現にトヨタを買いたいと挙げる人はホンダを絶対にリストアップしない。逆にホンダを買いたいという人も絶対にトヨタの名前を書かない、見事なまでの対比ぶりでした。


 買いたい理由を記述した文章データは、統計学的には定性データといいます。
 この解読の試みをテキストマイニングと称している集団がいますが、その内容は現状では噴飯(フンパン)ものレベルです。コトバを単語単位でぶち切って、ただあちこちに並べただけ状態に、相互に線で結んだりする冗談のようなものです。説明力はゼロに限りなく近いヘナヘナ水準。それに単語の数を多い順に書いて、例えば「乗る:ラ行5段活用」とか中学生のようなショボイ説明がついてオワリ。


 形態素がテキストマイニングに適していない理由はかんたんです。買ってみたけど使えなかったという人々から「テキトーマイニング」と揶揄される原因は、お客様の声にしろ何にしろ、文章の解読ができなかったからです。値段は目が飛び出るほど高いくせに。
 その原因は形態素という日本語文法論にいきつきます。活用形というコトバの変化に注目する以上、形態素ではテキストマイニングは不可能です。これからは、発言者の真意を汲み取るセマンティクス〔意味論〕の時代なのです。


 たとえば次のような短文。
  「このクルマはもう少し値段が安ければ、買ってもいいのだが。」


 これに形態素カットを使うと、「クルマ」「値段」「安い」「買う」「いい」となります。
 なーんか、この解読だと、お客さんはストレートに買いたそうに見えますが、実は、あなたも直感でわかるように、このお客さんは「値段が問題なので買いたくない」といっています。
 現状のテキトーマイニング連中が大事にする形態素の解析とは、こんなテイタラクなのです。


 私たちの技術では、さっきの車メーカーの因子分析と同じように、文章もきちんと内容分類できます。いわば発言を要約するソフトなのです。
 トヨタを次に買いたいと書いた人たちは1万4000人程いましたが、彼らが書いた理由は18因子にまとまりました。それらは「とりあえずトヨタかな」に集約される因子とか、「国産車で安心できる」にまとまる因子、「経営が安定している」と表現する因子、「ハイブリッドカーなど環境に優しい会社」イメージの因子、「先進技術ですぐれていること」をあげる発言に整理されました。


 ホンダに寄せられた理由は、概していうと「楽しい技術」「独創的な発想」「実用性を重視」「本田宗一郎にいわれる先覚的集団」「価格のわりに走りがいい」など16因子にまとまったのです。


 さらに「価格のわりに走りがいい」と発言した人たちは誰なんだとの質問に対して、統計学で検定して集団間のちがいを証明してくれます。そう発言したのは「男性・若者」で、運転に興味があり、運転する頻度が高い人々でした。
 「とりあえずトヨタかな」と回答した集団で目立ったのは「女性・中高年」で運転頻度が少なく、車に興味のない人々でした。
 トヨタが「環境に優しい会社」だとイメージをもつ集団は「女性・若者」で車に興味はあるが運転頻度はそれほど高くありませんでした。


 私たちは、聖徳太子しか為しえなかった偉業の、同時に多数の人々の声を聞き分ける技術を開発しました。太子の偉かったことは、さらにそれを民心の安定に尽力し、仏教の導入や十七条憲法などによりわが国の基盤を整えたことでした。
 この弊社がもつ技術を活用し、自社の経営に役立てたいと思われる方には、ぜひお試し頂きたいと考えています。よろしくお願いします。
ページの先頭へ
(C) Soshiki-Kasseika Kenkyusho Inc.