wrs

ウィキペディアンのお薦めシステム、略してwrs

さて、登録ユーザ百人以上で編集されたページというものは、 ウィキペディア日本語版にはたかだか3000項目ほどしかないことがわかった。 しかもこれらはおそらくかなり少数のグループにカテゴライズできる。 芸能、アニメ、鉄道、歴史上の人物、政治家、地域、生物、など。 カテゴリーごとにおそらく数百ずつの項目しかないはず。 そうすると、ひとつずつのページにまとめて閲覧できるようになるはず。

たとえば、政治家だけを集めてきたいとする。 著名な政治家を10人ばかり種にして、編集した共通ユーザでもって複数でフィルタかける。 そうするとかなり高い精度で政治家ばかりを集めることができるはず。 母集団を3000項目まで絞り込んでやるんだから、そんな計算量はいらんわな。 ていうか、実時間処理した方がましかもしれんな。

てことを、いま wrs0.3ではやろうかなと思ってる。

wrs0.2はまだ公開してないけどデータベースは半分くらいまでできあがっている。 来週には公開できる。 wrs0.2は見た目はあまり変わらない。 日本語版を約1週間で解析できるようにした。それだけ。 bashスクリプトで、ダンプファイルのダウンロードからデータベースの更新まで全部自動化できるはず。

大いなる野望としては英語版でも似たようなサービスを公開することだが、 日本語版が項目総数60万件なのに対して英語版は300万件もあり、 まあ普通に考えて今の5倍のメモリ積んだマシンで5倍の時間をかけないと解析できん罠。 いや、実はもっとたくさんメモリも時間もかかるのかもしれん。 計算量がどうなるか、ユーザと項目のマトリクス使ってるわけだから、二乗で計算量増えることもあり得るわけで。

ま、ともかく、日本語版はいまのところ「扱い易い」規模に収まってるから、 ここでいろいろ実験してみる。