|
|
|
|
|
|
|
|
|
|
|
|
大量のテキストの中から、大事なことをかいつまんで抽出する技術開発に成功しました。
その一つをご紹介します。
たとえば、人々が洗濯するときに感じる「困ったこと」を内容分析してみました。
一万人ほどの生活者が書いた文章で、それぞれ日本語で200文字前後からなる長文でした。
それを私たちの日本語処理ソフト「要約セマンティクス」で解読して、10の短文にまとめました。
1.「集合住宅なので」「夜洗濯すると近所迷惑」「ベランダが狭いので」 |
2.「外に洗濯物を干したくない」「天気を気にせず」「アトピーなので」 |
3.「寝る前にセットして」「朝起きたら乾燥までできていて」「後たたむだけ」 |
4.「主婦は忙しいので」「家事をしながら洗濯したい」「勤めがあるので」 |
などのキーワードごとに、そのマンマしゃべった人が「1.文型」の人が○○パーセントいて、それに関連して他のことに記述がおよんだ人が××パーセントいたと説明します。
こうした10の典型的パターンで表現した人が全体の70パーセントの6,900人いて、非常にユニークな個人的表現の人が10パーセントの990人いたと区分けしてくれます。
残りは混合型の意見だったとかに。
それによって全体の傾向に注目することも可能ですし、極めて個性的なn=1のような発言でも大事に拾い出すことが出来るようになりました。
全員の文章を読んでから抜き出すのでなく、Aという傾向の文章スタイルの人たち、Bという表現をする集団と分解してファイルされますから、エネルギーを消耗せずにすみます。
また集中できます。バラバラといろんな意見を読むのでないので、例えば集合住宅に住む人々の洗濯問題がサッと問題が透けて見えるような感じです。
たしかに別な角度からやっている人たち、たとえば形態素でトライしている人もまだいるようですが、現状は幼稚園児の文よりひどいレベルです。
「洗濯」「乾燥」「子供」「節電」「デザイン」「ドラム式」などと、出現してきた単語を並べてくれて、そこから何かを嗅ぎ取ってくれといわれてもなぁ。
もともと「意味のある」並びかたをしていた文章を、わざわざ単語にカットしてかき混ぜ、「さぁー読め」といわれてもなぁ。私はバカですから判読できません。形態素に取り組む連中はエライなあ(笑)。
彼らに、上記の四例文を見せると驚いて「のけぞります」。どうして、こんなに意味のとおる簡略文ができるのか、オレタチにできないのに、と悔しがるのです。 |
|
|
|
|
|
|
|
|
|