google scholar

ちょっとヒマになって来たので、論文を読み始めた。 というか、推薦システム関係で少しネタを思いついたのだが、 今までやったのは「推薦システムをWikipediaに応用しました」というもので、 明らかにまだ誰もやってなさそうなネタだったので(いや、サーベイ次第では先行事例が出てこないとも限らないし、実際皆無でもないわけだが)、 そのまんま突っ走って来たのだが、 今度は推薦システム自体の拡張ということになるんで、 新しいことかどうかサーベイしてから進もうと思ったわけです。

で、あまり話題になってないのだが、 google scholar というものがあってこれが論文検索、特に無料でダウンロードできるPDF版の論文の検索にとても便利。 そりゃまあ、ACM とか IEEE に行けば PDF はいくらでも degital library においてあるが全部有料で、 最近学会はことごとくやめてしまったから落とせない。 たぶん大学の図書館経由だと落とせるんだろうが、すこし面倒。 というのでとりあえず google scholar は便利。

推薦システムなんだけど、普通は、顧客に推薦する商品の精度をどうやって向上させるか、 という方向に最適化がはかられる。 つまり、ログインしたある特定のユーザの購買履歴や閲覧履歴などから、そのユーザが何を求めているかを推定するわけだが、 ここではユーザAと、Aが好むとしれたアイテム群 I が与えられたとき、 Aが好むかもしれない未知のアイテム群 X を推測するという問題なわけである。

ユーザAが好むと知れたアイテム群 Iと、 ユーザBが好むと知れたアイテム群 Jがあったとき、 IとJがどのくらい類似しているかとか近いかなどといった計算をする。 類似しているかどうかというのはつまり類似度とか一致度、 近いかどうかはつまりは距離、 距離を定義しようとなると距離空間の話になる。 類似度が大きいと距離は小さくなり、距離が大きくなると類似度は減る。 まあだからどっちも似たようなものだが反比例のような関係にある。

それで、たとえばだが、 phpに similar_text と Levenshtein 関数があるように、 距離とか類似度というものはかなりいかようにも計算できるもので、 でてくる結果はかなり違ってくる。 距離とか距離空間というものはかなり恣意的に定義できちゃうもんなのだよね。 で最近の研究はどちらかといえば personalized recommendation system、 つまり顧客一人一人にカスタマイズ可能な、 或いは顧客の満足度を最適化し、収益をどうやって増やすかみたいな方向に行くわけだが、 当然 web commerce 的にはそっち行くのがあたりまえだが、 そこでは距離空間はどうあるべきかのような緻密な議論はあまりしないように思える。 wikipedia の編集者たちはどのような「文化・趣味・学問グループ」に分かれ属しているか、 記事はどのような「暗黙のカテゴリー」に分類されるか、 それらアイテムやユーザは距離空間の定義によってどのようにクラスタ分けできるのか、 特に日本のような細分化されたサブカルチャー群に対してどのような全体像を与えられるか、 などといったことにアルゴリズムを最適化しようという動きは、たぶんまだないのではなかろうか。