Ph.D. thesis, entitled "Wikipedia: A Quantitative Analysis"

編集ボランティアがウィキペディア離れWikipediaボランティア編集者、全体的に減少--WSJ報道Wikipedia shows signs of stalling as number of volunteers falls sharply などという記事があって、 11月23日にWSJ Onlineに載ったのがきっかけらしい。

ウィキペディアの編集者が激減——研究者が「存続の危機につながる」と指摘 ウィキメディア側は調査の信憑性を疑問視、「決して消滅しない」と反論Wikipedia UK 'definitely not dying' とか反論も出ているが、 大もとは Felipe Ortega という人の博士論文らしい。 2009年4月1日にすでにこの学位論文は審査を通過したようだ。

で、このPh.D Thesisはなんと200ページ以上あるのだが、ざっと目を通すと、 116ページ目の「4.4 Demographic Analysis of the Wikipedia Community」 辺りからそのような話が書いてあり、 図4.32辺りが WSJ のグラフに相当するようだ。

彼は、wikipedia のダンプデータから、 ユーザが最初に編集した時を birth とし、 ユーザが最後に編集し、それ以後一度も編集しないと death として月ごとにカウントした (ていうか、ダンプデータからはそれ以上のユーザ情報、 たとえば最初に登録した時とか最後にログインした時とかはわからん)。 Wikipedia では登録ユーザが登録を自分で抹消することは通常の手段ではできない。 なので、death にカウントされていてもそのうちまた編集を再開する可能性もあるわけだ。 で、2007年以降は birth よりも death の方が増えているので、 登録ユーザが急速に減少していると指摘している。

この研究は、今私がやってる研究の関連研究としてはまとまった分量の良くできたもので、 参考にさせてもらうとして、推薦システムにはまったく触れてない。 また、メインカルチャーサブカルチャー定量的分類、 とかそんな大上段に振りかぶった研究でもない。 タイトルにあるように、ウィキペディア定量的解析、を淡々とやった感じ。

で、彼の、あるいは WSJ の主張は、まあ確かにそういう傾向はあるかもしれないが、 そうじゃないかもしれない、としか言えないところもある。 統計のとり方次第でいろんな結論が導かれるからね。 death ではなくて単に inactive なだけかもしれんし(ユーザ登録だけは残ってるわけだから、 dead というよりは zombie に近い)。 自分の経験で言えば、数回編集してみて、 ウォッチリストや履歴で確認して、 変化がなければ放置するだけなので、 ずーっと長い間編集しないことは十分あり得る。 一方で、birth は徐々に減って一定値に近づくだろうから、 最初の立ち上がりの時以外は、 birth と death を比べれば常に death が多いということになりはしないか。

つまり、death がかなり余計に勘定されている可能性が極めて高い、ってこと。 特に最近の death ほど余計に勘定されるはず。 月ごとに集計しているから、最近の数ヶ月の death というのは、かなり数値として不正確。 グラフ的には常に急に減ったように見える、ってわけじゃねーのか。 たとえば、1年以上休眠しているユーザは、「死んでる確率が極めて高い」とか、 2ヶ月活動してなければ「まだ生きてる可能性も高い」とか、 そういう判断をするべきじゃねーの。

で、思うに、活発に活動しているウィキペディアンの数とか、管理者の数とか、 そういうものが順調に伸びていれば、特に運営には支障ないのではないかと思うが、 そういう数値との比較はないんだな。 一つの指標値だけで断定することはできないと思うのだよね。

そのまあ、 ソーシャルメディアとかSNSとかの中では、 今は、ウィキペディアが一番好きかな。 ユーザ情報が公開されていろいろ解析できるのが良い。 ソーシャルメディアSNSの関係は微妙だ罠。 ウィキペディアSNS的要素を取り入れたことで成功した、 という要素も、たぶんあるんだろう。 単なるウィキで、匿名投稿だけで履歴も何にもない、 会話もユーザページもない、というのでは、確かに単調でつまらん。 しかし、まとめサイトというものはどうしても必要で、 その受け皿として結果的にウィキペディアが一人勝ちしたという構図ではなかろうか。 ツイッターとかミクシィとか嫌いではないが、 ソフトも顧客情報もすべてクローズドだから、 部外者にとって研究的にはつまらんでしょう。 APIとか公開してくれればまた別だが。