これまで15年にわたって、私は日本語文章の意味解読(テキストマイニング)をやってきたが、英語の大量文章でもそれが可能になった。
先日、日本から進出した米国企業の依頼をうけ、amazonの購買レビューの英語を解読した。およそ1000人の書き込み内容だが、一人が複数の文で記述しており、ピリオド(日本語の句点。)で区切られた英文は全部で4000文にものぼった。
たとえば、「私は17歳の少女です。原住民系なので褐色の肌をしていて、ウブ毛というよりやや硬めのヘアーが顔のアゴ部分や首にはえています。先日、〇〇〇製の回転ヘッド式・体毛処理機を手に入れました。肌に密着して薄い2枚の刃が体毛を優しくそり落とします。以前は別の機械を使っていましたが、壊れたので買い替えることにしました。アマゾンに書かれているレビューを読んで、価格的にも納得がいったのです。レビュー通りに、つるつるのお肌になり、もう手放せません。ありがとう、〇〇〇社の毛剃機さん」。といった書き込みがアレコレほめ言葉や、人によっては全くダメだとけなした表現で長々とつらなる。
一人の書き込み文章くらいなら、英語に自信のある人だとその意味も理解できるだろう。それが1000人にもなると、なかなか英語達者だといっても軽くとはいかない。母国語の日本語でも1000人の文章だと、その都度の読み込み内容なら把握できるが、だんだん途中に書いた人たちの意見がぼけてあいまいになってしまう。
これらを統計学と意味論をつかって処理すると、わかりやすい表現でスパッと解読してくれる。そして、その表現をする人々は商品満足度はいくらあり、いつごろに書き込まれた表現が好意的または批判的かパッとわかる。逆に満足度の高い集団、または低い集団はどんな主張をしているのか、それもすっきり理解できる。
英語が得意な人も日本には多数いるだろうが、ビッグデータと化した英文の洪水を毎日、忍耐強く読み続けることは苦しい。むしろ、こうしたテキスト処理をして重大な発言、箇所に注目し、そこを重点的に読み込んでいかないと、カラダも頭も耐えられないだろう。
放置できない英文データだからこそ、自分たちから積極的にアプローチしていく姿勢が必要だと思うが、どうだろう。日本人はとかく英語アレルギーが見られるが、英語といったってしょせん情報だから、それを獲得利用するくらいの心構えでいさえすればよい。恐れることはないのだ。
ついボクらは英語専門家に任せてしまっていないだろうか。彼(女)らが関心をもったり時間ができたりしたときにやっと振ってくれる情報パイプで安心できるだろうか。それとも、日本の世間様も知るほど常識化したころの知識でいいやといえる情報オンチでいられるだろうか。
数千人の書き込み、数万人の意見をスパッと意味で解読できる技術が出来上がりました。当店、日本語ソフトのほかに、「英文解読ソフト」始めました。
(注)これは英和翻訳とは違います。英語と日本語とを互いに自動的翻訳することも大切ですが、それには文法と言葉辞書が必要です。この英文自動解析は、統計学と意味論で作られていて、用いられる言葉の相互併用パターンによる意味内容(セマンティクス)の主張がどうなっているか、発言全体の構造を重視しています。
|