自然言語で検索ってどうなんだろう?

グーグル先生を超える良回答連発、Powersetを使ってみた

タイトルは「グーグル先生を超える良回答連発」なのですが、個別の検索結果をページレベルで見るとそれほど違わない感じです。

Googleでは答えが見つけられなかった例として「MacBook AirってUSBポートあったけ?」という質問が出てきますが、現在のPowersetwikipediaとFreebaseだけを検索対象にしているというのが考慮されていません。

実際に、

site:wikipedia.org Does the MacBook Air has any USB ports?

という感じでwikipediaに限定して検索してあげると、[In addition, the MacBook Air offers only a single USB port...]というPowersetとまったく同じ答えが返ってきます。古典的(?)な手法は十分に有効というべきなのか、単にGoogleが良く出来ているだけなのかは分かりませんが。

もう少しセマンティックな要素として、How manyで数字を認識した例が出てきますが、表示された数字は正解とは違うものになっています。これは文章の内容までを理解できないためだと思いますが、自然言語で検索できると言われて期待するのは、内容理解を含んだレベルではないかと思います。結局は人間が答えを確認する必要があるならば、Googleで十分ということになりそうです。

もちろんセマンティックを利用して検索結果を改善すること自体は良いと思うのですが、セマンティック(自然言語処理)を過剰に期待させるのは逆効果な気がします。Googleのような検索が少し賢くなったレベルが現実的だと思うのですが、マーケティング上の必要性からは無理なのかもしれませんね。

ちなみに個人的に欲しいセマンティックを利用した検索はこんな感じです。

製品名 -page:(価格比較) -page:(ニュースリリース)

最近は検索結果の上位に価格比較が大量に出てきて煩わしいので、そういうサイトを除外できるとうれしいです。Googleとかで実装してくれないかなぁ。