COREPON.COM
COREPON.COM
only one technology "ICAS"
   
 
   
■--第二世代テキストマイニング (2007.08.07)

 従来のテキストマイニングと比較すると格段に進化したものができた。これまでは他社のやり方を見ていると、文章のなかから単語をカットして、それぞれのコトバが文中に何個含まれていたか、あるコトはどれと同時に使用されていたか、つまり共起を調べる程度だった。コトバの次に続くものを「かかりうけ(係り受け)」とか称して、他と差別化するなんていう低レベル(笑)だった。

 図表はせいぜいコレスポンデンスという数量化3類か、ニューロという関連線でむすびあうものがやっとの幼稚なものだった。科学的妥当性はあまり高くなく、単なる単語集めと単語つなぎといわれ、テキストマイニングといえば「テキトーマイニング」と揶揄されていた。

 私たちはデータマイニングに耐えられるテキストマイニングをめざし、よって単語の集計方法はのちに統計処理されることを前提とした意味分類、つまりセマンティクス(一般意味論)型テキストマイニングを作り上げた。理解できる方は少なく、よって松下電器様とオリエンタルランド様など数社に使われているのみだ。

 利用者はホントに少ないが、彼らは、はっきり実感している。世間でよく売れている俗なテキストマイニングとの大きな差があると。大意がスパッとつかめ、顧客や社員などの意見がキチンと把握できる。たとえば主成分分析は発言内容を十数個のカタマリとして要約し、重回帰分析で結論を導きだしてくれる。2語関係を補足しようと、かかりうけだのニューロだの言って騒いでいる連中には想像もつかないレベルだ。世間のテキストマイニングでは、こんな基本的な処理もできないのだ。

 そこに、さらにウチに新しい能力が追加された。自動でコトバの意味内容を、状況によって位置づけ変換してくれる機能がついた。たとえば野菜では、根菜類と緑黄色野菜や葉モノなど、区別していくといろいろに分類できる。ところが聞く人によっては単なる「野菜」としか聞こえない人もいる。マグロとサンマは、価格や味わいがだいぶ違うものだが、それらも「魚」でしかないときもある。コトバの般化(generalization)と弁別(differentiation)が自動的に処理されるようになった。

 必要に応じて、それはコウだ、それはアアだと意味の領域を変更してくれる。境界線が生き物のアメーバのように随意に動くから、人工知能に欠かせない能力だ。

 従来のテキストマイニング、「かかりうけ」やニューロのレベルを直立猿人とすれば、これはもうクロマニヨン人との違いかもしれない。従来のテキストマイニングが幼稚というより、むしろ進化の違いといえるかもしれない。そんな第二段階というか、はるかに進化したものが完成した。





翌日のダウ平均を予測する

世界へ

第二世代テキストマイニング

街の特徴とは(立地条件)

ロイヤルな顧客に育てる

トップへ戻る

所長コラム

Secretary Desk

データマイニング

CS及びお客様の声

人事・組織診断

ソリューション

アドバンスト

ナレッジ

コンピテンシー人事

事例集(図表)

事例集(音声)

今までの業績

会社案内

リンクについて

知的財産権について

お問い合わせ



 

Mozilla Firefox2.0、Internet Explorer6.0、Safari3.0 以上でご覧になることをお薦めします。
COREPON.COMが提供する情報・映像等は権利者の許可なく複製、転載、販売などの二次利用することを固く禁じます。
本サーバ上の情報(文章・映像等)は予告なしに変更または中止される場合があります。あらかじめご了承ください。
ご不明な点、お問い合わせがありましたら次の宛先までどうぞ info@corepon.com