wikipedia

download.wikimedia.org/enwiki/20100130

enwiki 20100130 なにやら進展があったようだ。 1月25日時点で、フリーズしたのではなくて諦めて、次のダンプが始まっていたのかもしれん。 サーバにつながらないのだが、 落ちているというよりはダウンロードが殺到しててつながらないという状態か。 やれや…

嗚呼、enwiki 20091128 pages meta history

download enwiki 20091128 ふと気づいてしまったのだが、 # 2009-12-03 12:53:43 in-progress All pages with complete page edit history (.bz2) 2010-01-25 16:02:21: enwiki 14833408 pages (3.231/sec), 284292000 revs (61.930/sec), 54.7% prefetched,…

wikimedia local chapters

紀要脱稿。もうこれ以上時間をかけられない。 だいたいこのブログに書いてきたことと同じなのだが、 地方支部をウィキメディア財団に承認された順に列挙すると 次のようになる。 ドイツ (Deutschland 2004/06/13) フランス (France 2004/10/23) イタリア (It…

越後長岡藩の家臣団

仕事を一つすっぽかした。 それはそうとやっとjawiki-100116の解析が終わった。 2週間以内で一番編集されていたのは、なぜか 越後長岡藩の家臣団。 1ヶ月以内で一番はウィンドサーフィンだった。 ノート:ウィンドサーフィンが熱い。 編集速度が速い順では ハ…

Hash clear

だいぶ速くなってきたような気がするが、それでもまだ遅いのでいろいろいじる。 OptimizingRubyProgramによれば Hash は new するより clear する方が速いらしいので、そうしてみる。 Array は new するより clear するより replace([]) する方が速いらしい…

またあらし

学科の mediawiki にまた「論文を買え」(笑)というサイトの嵐が来た。 前回と今回のパターンから察するに、適当だが実在する人物の名前でユーザ登録して、 自分のサイトへのリンクを張る、というもの。 あと、chaptcha がうまく働かずリンクを張れてしまうケ…

George W. Bush その2

enwiki-20080103-pages-meta-history.xml.7z から George W. Bush の記事だけ抜き出したら プレインテキスト非圧縮で 3GB もあってわろた。 想像以上のでかさ。 こうなるともう普通のやり方では解析できない。

George W. Bush

なぜかウィキペディア英語版で George W. Bush を調べ始めた。 43503 George W. Bush ジョージW.ブッシュ 3872 Efforts to impeach George W. Bush ジョージW.ブッシュを弾劾する努力 1354 Presidency of George W. Bush ジョージW.ブッシュ大統領 1115 Geor…

編集速度

センター試験非番に付き(笑)、いろいろと在宅勤務。 wikipedia の記事ごとの編集速度を出してみることにした。 日本語版の場合「日速」はならしてみると速くて10とか20くらいなので、 「週速」か「月速」くらいでないと、差が出ないようだ。 比較的新しい記…

jawiki-20100107-pages-meta-history.xml.7z

さっそく処理開始。 さて、少しは速くなってくれたかな。 だめだ。 やはり GC.start は必要。

仮面ライダーディケイド/log20091223

とうとう「仮面ライダーディケイド」も2009年12月23日にログ落ちしたようだ。 そろそろ5000越えそうだから、年内にやっとくかというところか。

mediawiki spammer

わざわざアカウント作成してまでリンクを張ろうとする spammer が居てびっくりした。 chaptcha を回避しようとしているので、bot であることは確かだろう。 つまり mediawiki 専門の spammer か。 リンク先をおそるおそる見てみたら「論文執筆代行」ページだ…

一ヶ月以内編集回数多い順

変化がないのも寂しいので 一ヶ月以内編集回数多い順 というのを作ってみた。

enwiki pages-meta-history.xml.bz2 202.7 GB

ダンプ開始から一ヶ月が過ぎ、年もあらたまったのに、まだダンプしてますね。

pages-meta-history.xml.bz2 ただいま186.1GB

enwiki が 091128からダンプ開始して、 pages-meta-history.xml.bz2 の処理は 091203 からだが、 そろそろ一ヶ月たとうというのにまだ終わらん。 bz2が終わっても 7z が残っており同じか或いはもっと長くかかるに違いない。 bz2のダンプサイズもこの調子では…

まだやってる。enwiki pages-meta-history.xmlのダンプ

/enwiki/20091128/ # 2009-12-03 12:53:43 in-progress All pages with complete page edit history (.bz2) 2009-12-18 18:33:10: enwiki 2108688 pages (1.602/sec), 147306000 revs (111.904/sec), 97.7% prefetched, ETA 2010-01-06 14:40:46 [max 329446…

wikipedia conference japan 2009

WCJ2009報告(5) ウィキメディアの各種統計を見てみる。 非常に興味深い。 日本で開かれたWikimediaの国際会議の発表資料。 Wmf Present Wikiconference Japan Nov 2009。 SlideShare。 なかなか興味深いサービス。 上記発表の元になったサイト。 THEwikiStic…

wikipedia abstractの内容が謎すぎる件

English Wela Wiki Webの処理終了。 なんなのだろうかこれは。 abstract.xml の abstract タグの中身が謎過ぎる。 ちと読んでみるか。

stub-meta-history + abstract

wela wiki webでは stub-meta-history.xml と abstract.xml を取ってきて、組み合わせて表示するようにした。 どうやってるかというと、まあ、メモリは8GBと余りまくってるので、 両方メモリに読み込んで、データベースに格納する時マージする感じで。 処理…

enwiki-stub-meta-history 091128

できてたのでいまから解析。 アクセスは頭打ちか。 google reader で詳細表示でそれぞれのフィードの登録件数などがわかる。 いろんな意味で人気の度合いとかわかる。

アクセスは増えてきているのだが。

google.com からのアクセスが順調に伸びている。 しかし、google.co.jp からのアクセスはほぼゼロ。 yahoo からの日本語の検索の方がまだ多いが、かなりランダム。 予想はしていたが、こんな露骨な結果になるとは思わなかったな。 まあ、いいわ。このまま、…

enwiki dump

なんか、pages-meta-history を作ろうとして失敗したみたいですよ(過去記事参照)。 /enwiki/20091103/ 2009-11-24 00:16:52 failed All pages with complete edit history (.7z) pages-meta-history.xml.7z 2009-11-24 00:16:51 failed All pages with compl…

Ph.D. thesis, entitled "Wikipedia: A Quantitative Analysis"

編集ボランティアがウィキペディア離れ、 Wikipediaボランティア編集者、全体的に減少--WSJ報道、 Wikipedia shows signs of stalling as number of volunteers falls sharply などという記事があって、 11月23日にWSJ Onlineに載ったのがきっかけらしい。 …

wikipediaと寄付

wikipedia を永遠に存続させる方法はまったく簡単で、 寄付でなしに、 広告を載せれば良い。 或いはgoogleのようなお金持ちの(複数の)企業と提携すれば良い。 なぜいつまでも寄付にこだわるのか、よくわからん。 寄付にこだわるよりも、wikipedia を安定的に…

紀要

紀要の〆切が今日なのだが、未練なく脱稿とする。 今回の研究はなかなか有意義だったと思う。 察しの良い人向けに一言で言えば「ウィキペディアの編集履歴の周波数特性を解析し、 その低周波成分が「メインカルチャー」であり、高周波成分が「サブカルチャー…

やっと終わった。

buttercupで走らせていたプロセスがやっと終わった。 ちゃんと正常終了した。 日本語版から編集回数10回未満を切り捨てて(まあ普通に stub だ罠)、 409347項目が抽出された。 アクセス件数だが、検索エンジン経由が着実に増えている。 といっても一日26回く…

続R200メンテナンス

buttercupとbubblesにメモリを増設したので余った1GB×4枚のメモリをblossomとwikiに差し替える。 こちらは元の2GBを残して2GBずつ増設となり4GBとなる。 特に問題なし。 いずれも dell poweredge R200。 今年は5台も買ったわけです。 もう一台は mail3 とい…

/ にハマった。

getメソッドで値をurlの一部として渡すとき php だと urlencode とか rawurlencode を通すのだが、 そうすると / が %2F に変換されてしまう。 これをwikipediaに渡すとはまる。 空白文字や多バイト文字はエンコードしなきゃダメなんでしょ、と思っていたの…

編集回数が多いページの履歴の分離

wikirageはだいぶ前から日本語版だけ壊れているようだ。 wikicheckerの編集合戦のフィードを読んでみる。 wikipedia日本語版ではある一定以上編集回数が多くなった項目を「技術的な理由により」「過去の履歴として分離」 する傾向がある。 なんでかと調べて…

google AJAX Translation API

ubuntu 9.11で、ハングル文字のレンダリングに関して言うと、 firefox より google chrome unstable の方がきれい。 中国語の文字もそうだ。 いろんな意味でfirefoxよりもchromeの方が良い。 しかし、firefox には長い間慣れ親しんだアドオン群があり、それ…