先日、映画監督のビートたけし氏がテレビの新番組の説明で、人の才能や賢さについて面白いコメントをしていた。 限られたフィルムの長さ(例えば1時間の映画とする)しかないとき、監督は状況を説明するために必要な場面を絞り込むのだと。全部、描きたいことを説明すると冗長になり、観客は飽きてくるし、ダラダラ意味のない場面が続くことになり、映画人としては絶対に避けたいと。 3人の殺人があったとして、Aさん、Bさん、Cさんの殺される場面をイチイチ映画にはしない。ナイフか拳銃か凶器を写して、ついで3人がうつ伏して倒れ血を流している場面が3枚あれば、この凶器で3人が殺されたと誰もが了解できる。ビート氏は、これを文科系でも使える数学だと発言していた。因数分解だと。 つまり、aX+bX+cX=X(a+b+c)という共通因数がみつかり、凶器のXでくくればいい。これは簡単な例だが、如才のなさというか頭のよさは、ちょっとしたところで自然と現れてくる。頭のよさはけっして、たとえ東大を出たとしても暗記型できた秀才もどきを言うのでなく、創造型の才能をさすのだ。 私の育てている人工知能のシンシパルがなぜ「賢い」かというと、文章の解読をイチイチ小学生のように駄文にしないで要約できることにある。世間のシロート衆、たとえば○○総研とかが売っている粗悪なテキストマイニングは、こうした内容の要約能力ができないから、ツマラナイと世間から酷評されているのだ。次の「おいしい水」というテーマについて書かれた例文を読んでほしい。 「横浜市に住む私たち夫婦は、美味しい水を手に入れるために、週末に道志川まで出かけてポリタンクに水を汲んできます。水道水はまずくて飲めません。汲んできた水はそのままでは飲めませんが、沸かしてお茶やコーヒーにして飲んだり、ご飯を炊いたりします。美味しい水のためには苦労は惜しみません」 これをイチイチ形態素で分解すると、もっとも多かった単語は「水」だとされる。テーマがおいしい水のことであり、それは当然だ。でも、水とあっても水道水とも美味しい水とも書かれている。形態素サンたちはせっせとこれを「水」が何個あった、「汲む」が何個あった、「飲む」と「飲む(否定)」が何個あったとツマンナイ分析ごっこに終始している。 ところが別な人が「私は川崎市に住んでいて・・・」と書いてあると、形態素クンたちはまた一生懸命に、川崎市と水、多摩川と水が何個あったと勘定を繰りかえし、日がな一日、勘定ばかりしている。そんなテキストマイニングだから「役立たず」といわれるのは仕方ない。世間ではテキトーマイニングと呼ばれている。 川崎市と横浜市は、一部の人には目くじらをたてて弁別すべき大差があるのかも知れない。しかし、世間一般には、横浜市と川崎市の住民が水道水がまずいといえば、それは都市生活者がともに発言しているとみなす。千葉市でも東京23区でもそうだろう、水道水はまずい。 そんな書き込みをイチイチ、横浜市の水と川崎市の水、千葉の水と繰り返す必要があるだろうか。いえ、断じてない。賢い人々(あなたもそう思うはず)には、どこかで整理すればいいのにと、駄文のテキストマイニングに飽きてくる。 都市生活者は水道水がまずいと思っている。美味しい水のためには時間と労力を惜しまないこと、どんな用途に使うかがかかれていると、わが社の人工知能シンシパルは、そうまとめてくれる。ナレッジ分析に未熟な○○総研あたりの鼻から息をしている人間よりも、ズッーと賢い。人間がロボット以下なんて、情けないねえ。 シンシパルはビート氏が言ったような上手な弁別を可能にする。それは因子分析という手法だ。文章を意味で数量化して、コンピュータに発言内容を読み込ませることに成功した。数学は、共通成分を因数にしたために計算ができる。よって科学の王様(The King of Science)になれた。 川崎市と横浜市の違いを目くじらをたてるのを弁別という。近隣の人にとっては大きな違いだ。しかし、世間一般の人には両者は「都市生活」をする人たちのエリアでしかない。これを般化という。数学に因数分解があるように、テキストマイニングには因子分析が不可欠だ。数学に最大公約数および最小公倍数(LCMとGCM)があるように、テキストマイニングには意味の般化と弁別がなくてはならない。こうした説明ができないテキストマイニングは、ただの幼児の戯れでしかない。 やっと文章までもが般化と弁別ができるようになった。これで初めてテキストマイニングが科学になれたということだ。形態素であいかわらず、うんうん苦しんでいる諸君、ご苦労さん。21世紀にもなって原始的な労働力集約産業ですか。はぁ〜。
http://corepon.com/publishing/mt-tb.cgi/13
|