COREPON.COM
COREPON.COM
only one technology "ICAS"
   
 
   
2007.08.07 「第二世代テキストマイニング」

 従来のテキストマイニングと比較すると格段に進化したものができた。これまでの他社のやり方を見ていると、文章のなかから単語を検索して、それぞれのコトバが文中に何個含まれていたか、あるコトはどれと同時に使用されていたか、つまり共起を調べる程度だった。コトバの次に続くものを「かかりうけ(係り受け)」とか称し、互いにソフトの優劣を競うという低レベル(笑)だった。

 図表はせいぜいコレスポンデンスという数量化3類か、ニューロという関連線でむすびあうものがやっとの幼稚さ。科学的妥当性はとても低く、というか無いに等しくただの単語集めや単語つなぎといわれ、テキストマイニングといえば「テキトーマイニング」と揶揄されていた。

 そこで私たちはデータマイニングに耐えられるテキストマイニングをめざし、よって単語の集計方法はのちに統計処理されることを前提とした意味分類、つまりセマンティクス(一般意味論)型テキストマイニングを作り上げた。理解できる方は少なく、わずかに松下電器様とオリエンタルランド様など数社に使われているのみだ。

 利用者はホントに少ないが、彼らは、はっきり実感している。世間でよく売れている低俗なテキストマイニングとの大きな差があると。大意がスパッとつかめ、顧客や社員などの意見がキチンと把握できる。たとえば主成分分析は発言内容を十数個のカタマリとして要約し、重回帰分析で結論を導きだしてくれる。

 2語関係を補足しようと、かかりうけだのニューロだの言って騒いでいる連中には想像もつかないレベルだ。世間のテキストマイニングでは、こんな基本的な処理もできないのだ。

 そこに、さらにウチに新しい能力が追加された。自動でコトバの意味内容を、状況によって位置づけ変換してくれる機能がついた。たとえば野菜では、根菜類と緑黄色野菜や葉モノなど、区別していくといろいろに分類できる。ところが聞く人によっては単なる「野菜」としか聞こえない人もいる。マグロとサンマは、価格や味わいがだいぶ違うものだが、それらも「魚」でしかないときもある。コトバの般化(generalization)と弁別(differentiation)が自動的に処理されるようになった。
 必要に応じて、それはコウだ、それはアアだと意味の領域を変更してくれる。境界線が生き物のアメーバのように随意に動くから、人工知能に欠かせない能力だ。

 従来のテキストマイニング、「かかりうけ」やニューロのレベルを直立猿人とすれば、これはもうクロマニヨン人との違いかもしれない。従来のテキストマイニングが幼稚というよりも、むしろ進化の違いといえるかもしれない。そんな第二段階というか、はるかに進化したものが完成した。






都知事選

AIによる文章解読(実用編)

AIによる文章解読

受賞作品は既に知られていた

対策の効果が実感できるマイニング

トップへ戻る

所長コラム

Secretary Desk

データマイニング

CS及びお客様の声

人事・組織診断

ソリューション

アドバンスト

ナレッジ

コンピテンシー人事

事例集(図表)

事例集(音声)

今までの業績

会社案内

リンクについて

知的財産権について

お問い合わせ



 

Mozilla Firefox2.0、Internet Explorer6.0、Safari3.0 以上でご覧になることをお薦めします。
COREPON.COMが提供する情報・映像等は権利者の許可なく複製、転載、販売などの二次利用することを固く禁じます。
本サーバ上の情報(文章・映像等)は予告なしに変更または中止される場合があります。あらかじめご了承ください。
ご不明な点、お問い合わせがありましたら次の宛先までどうぞ info@corepon.com