やはり止まる。

またまたRubyが無言でお亡くなりになっていた。 800万件くらいすぎたところで。 やあ困ったな。 ウィキペディア英語版は今600万件あるらしいから、 特別ページや単なるリダイレクトを含めると実際の項目数はその倍くらいあるだろう。 ゴールは2000万件くらいか。 遠い。遠すぎるよ。 そのうち一部を抽出しようとしてたのだが。 まあしかし、2GBメモリで800万件で死亡したのなら、 8GBにすれば2000万件くらいいけちゃうのかもね。さて。

限界まで来て死んでることも、途中で勝手に死んでることもあって、原因もよくわからん。 これは困った。 仮にメモリ増やしても解決しなけりゃどうなる。

GCの改善について うーむ。 Javaで一から書き直してみるとかはやりたくない。 とりあえず -v つけるか。

ていうか、項目数が増えると当然編集したユーザ数も増える罠。 推薦システムというのは項目と編集者のマトリクスで決まるわけだから、 仮に項目数と編集者数が比例関係にあるとして、 計算量やメモリ使用量は項目数の自乗に比例しそうだ罠 (computer scienceの人だと「しそうだ罠」みたいないい加減なことは言ってはならんのだろうが。 computer scienceの端っこの人?ていうか推薦システムの計算量についてなんてどこかにもう論文あるだろうね)。 いやー、困ったなあ。 ていうかね、割と、重要な項目でも早期収束してしまって、 最近はあまり編集されてないページというのもあるようなのだよね。 となると、 やはり全数検査したくなる罠。 少なくとも、最近三ヶ月分とかじゃうまくいかん気がしてきた。 いや、実は早期収束している重要なページというのはみなリダイレクトで、 重要な項目は常にIPユーザによるスパムにさらされていてそれをいちいちリバートするので、 三ヶ月以上更新なしということはあり得ないのかもしれん。 てか半保護ページなら更新なしもあり得るわけだが。 いやーまだまだ勉強が足りないね。

nobel prizeのページのnobelのところを自分の名前らしき単語に置き換えるIPスパム野郎が居て、 それをリバートされてまた書き換えみたいな履歴が延々残ってて笑ろた。

ウィキペディア英語版だが、北米人が3億人いて一番話者は多いとして、 インド人とかも多そうだな。 ヒンディ語版もあるようだが、項目数が5万とかって誤差のレベルだし。 日本人はせいぜい1億人で勝ち目はない罠。 しかも英語版は古くからあってその蓄積もすごいし。 インドは鉄道王国らしいし、インド人に鉄オタがたくさん居れば、 英語版はものすごい勢いでインドの鉄道駅とか車両の項目が増えそうだが。日本語版と同じことが起きればの話だが。 いや、やはり日本固有のことかもしれん。 ヨーロッパもフランス、ドイツ語圏以外は英語版にさくっと書いちゃう気もするし。

アリストテレスとかアインシュタインとかは日本で言えば織田信長とか紫式部的なもので、 英語圏の人間なら一度は編集してみたくなる項目なのかもしれん。

まだまだ予断は許されんが(笑)、このまま英語版で一番編集されているのが「ブリトニー」で逃げ切ると面白いのだが。

あら、ブリトニーはジーザスに追い抜かれた。 playstation3wiiに追い抜かれた。

中国語版を編集しているのが台湾人なのか華僑なのかそれとも本国人なのかもすごく気になる。 項目数はまだまだ少なく、しかもオタク系のページは日本語のページのコピーみたいなのが多いわけだが。