2009-10-01から1ヶ月間の記事一覧

ふと思ったこと(紀要の草稿代わり)。

聖書学の本など読むと初期の今日には伝わってない書簡や語録などからどうやって福音書などができあがっていったかとかいろいろ書かれていて面白いのだが、 方やWikipediaに関しては、過去の履歴というものが完全な形で残っているので、 どの文書がどのように…

大学

東京工芸大学 は大学の中では編集回数が割と多い上に、登録ユーザによる編集率がかなり高い。 大学の編集回数順で言えば、 1位は東大(登録ユーザは262人)、 2位はコロンビア大学(登録ユーザは121人)、 3位は慶応大学(登録ユーザは175人)、 4位は日本体育大学…

htmlspecialchars_decode

xmlは&や<や>が&amp;や&lt;や&gt;にエンコードされているわけだから、 それをデコードしてあげなきゃいけなかったんだ。 phpだとhtmlspecialchars_decodeでなんとかなりそう。 Rubyだと、なんだろう・・・うう脳がとろけそう。 たぶん、gsubだな。gsubしかな…

Levenshtein距離

Levenshtein distance。 Rubyのサンプルだけ再帰呼び出しなのな。 しかもうまく動かない。 Levenshtein 距離 / Ruby / RubyInline こちらのソースを使わせていただく。 Levenshteinを何に使ったかは、数日後に明らかになるであろう(バレバレか)。 ていうか、…

wikichecker

先にやられてた。 日本語版はこちら: ja.WikiChecker beta。 しかし、集計方法はだいぶ違うらしい。 おそらく、ある記事に対してよく編集するユーザが20名ほど抽出されている。 ユーザにはIPユーザも含まれる。 おそらくユーザのリストも別にあり、どのペー…

多言語化する。

英語、ドイツ語、フランス語版やってみる。 韓国語版と中国語版もやるかもしれん。 とりあえず、登録ユーザ調べは六ヶ月固定で。 日本語版はカスタマイズしすぎたのでとりあえず放置で。 Wikipedia Growth Animated。 日本語版出だし遅い。でも頑張ってる。 …

344952 in six months unsignedとunsingedはときどき間違える。 identified by と indentified byはごくたまに間違える。

受動喫煙防止条例

web

あまりにも待ち遠しいので、phpでさくっと作ってみた。 $target_time = mktime(0,0,0,4,1,2010); $current_time = time(); $diff_time = $target_time - $current_time; $diff_time = round($diff_time / 3600 / 24); $text = "神奈川県受動喫煙防止条例発動…

さくっと成功した。

Wela Wiki Web なんか今回はさくっと成功しましたよ。 元データは enwiki-20091017-stub-meta-history.xml。 項目総数は 18366630。 そのうち、三ヶ月以内に登録ユーザ(botらしきものを除く)によって更新された通常ページは 326787。 割と少ない。日本語版の…

500万項目までは調べた。

前回800万項目辺りで死んだので、500万項目まで調べたが、 3か月以内の登録ユーザに限定したら、2GBメモリの8%しか消費せず成功した。 273808項目が抽出された。 編集回数ランキング: George W. Bush 43443 times List of World Wrestling Entertainment emp…

Editors per million speakers

wikipedia statistics sitemapの Editors per million speakersというのがなかなか面白い。 つまり、英語版は、話者人口辺りで比べれば必ずしも編集者は多くない。 編集者が話者人口辺りで多いのは、日本、ドイツ、イタリア。 やばい枢軸国(笑)。 フランス語…

やはり止まる。

またまたRubyが無言でお亡くなりになっていた。 800万件くらいすぎたところで。 やあ困ったな。 ウィキペディア英語版は今600万件あるらしいから、 特別ページや単なるリダイレクトを含めると実際の項目数はその倍くらいあるだろう。 ゴールは2000万件くらい…

ウィキペディア英語版おそるべし

まあ、本格運用を前に頭の部分だけちょっとデータベースに入れてみたのだが。 Aristotle のような比較的マイナー(?)な項目ですら、 7089回も編集されている。 Albert Einstein だと13146回。 やべえ。 桁が違いすぎる。 ていうか、アリストテレスを編集した…

zeitgeist

Wikipedia:Zeitgeist によれば、 wikipediaで ZeitGeist などというのは、もともとは Google zeitgeist から来ているらしい。

wela wiki web

wrsの英語版のページはもうじき公開できるだろう。 一ヶ月以内の履歴限定というので、 名前を少し凝ってみる。 世界初のwikiが「wiki wiki web」と言い、wikiはハワイ語で速いという意味らしいんで、 「熱く速いウェブ」という意味で、やはりハワイ語の「wel…

stub-meta-history

Wikipedia:編集回数の多いページの一覧/一覧データを生成する方法#手順によれば、更新履歴を知るだけならば、 stub-meta-history.xmlがあれば十分らしい。 これはつまり、pages-meta-historyから本文を抜いたものなのだな。 日本語版ではこれをわざわざ使う…

main2など

main2、succession、先代次代、などのテンプレートは中に重要な内部リンクが含まれるので抽出したい(例えば源頼朝の先代次代には源義朝、源頼家などが含まれる)が、 やっかいなことにこれらのテンプレートにはテンプレートが入れ子になって含まれることがあ…

see also

さらにwrs。 see alsoを追加。 これは、テンプレートの see、 see also、mainを抽出したもの。 なんか、いろいろやろうと思えばできるものだな。 中国語表記がなかなか楽しい件について。 sonyは「新力」らしい。読みは xin li (シンリー)とかか。 sony comp…

wrsその5

あいかわらずwrs。 英語版、韓国語版、中国語版へのリンク追加。 サマリーを少し賢くした。 カテゴリー表示。 全データ検索する前に必ずキャッシュ検索をするようにした。 体感的にはずっと速くなった。 キャッシュ検索とは、以前にも書いたが、今回は、 編…

dell poweredge R200→R300

おかげさまで今年学科で買った5台のpoweredge R200はすべてフル稼働中だ。 wiki、mail、blossom、bubbles、buttercup。 メモリ増設するぜ。blossomとbuttercupを8GBに。 残りは全部4GBにする。 残りの予算を全部R200につぎ込みたいところだが、 新しく出たR3…

wrsその4

やはり、ウィキペディア英語版のお薦めシステムはなんとかして作るべきだ。 日本語版だと、あまり意外性がないが、英語版だと、特にガジェットにしたときに、 ふと見て何かと勉強になる。豆知識系ガジェットとして使えるかもしれん。 さらに英語版だと世界中…

やばい

なんか、プロセスが途中で死んでいる。 ログ見ると、どうも不規則な死に方、メモリ不足か。 実メモリがどうこうとかいう問題ではなさそうな気がする。 GC.startとかループに入れてみる。 実メモリを1.7GBくらいは使うようだ。 メモリ足すか。 DELL PowerEdge…

Latest complete dump of english wikipedia

Wikipedia:Database downloadに書いてあるのだが、 enwikiのpages-meta-history.xml.7z (ウィキペディア英語版の完全なダンプファイル)はあまりにでかすぎるために、 既存のバックアップシステムでは対応できず、 一番最近のもので入手可能なのは20080103の…

wrsをgoogleガジェット化してみた。

このリンクをたどるとigoogleに追加できるわけだが。 まあ、さらっとできた。 何の役に立つやらよくわからん。 んで、演習としての価値があるのかどうかもよくわからん。 google-o-meter付けたりとかもうやりたい放題です。

wrsその3

mysqlを画期的に高速化する奥義(またか)。 たとえば、テーブルの行数が60万あるとする。 どうしても重い。 そこで、よく使う部分、たとえば人気記事のトップ1000とかだけ抜き出して別テーブルにする。 行数が1000しかないからアクセスがすごく速い。 テーブ…

wrsその2

なんかだいたいwrs0.3くらいまではできてしまったなあ。 まあ、私らもうおっさんなので、頭固くなってしまってるので、 良く高校生や中学生や、大学生でもいいんだけど、 「なんとかって言葉から何を連想する?」みたいな質問をしたりするのだが、 wrs使えば…

wrs

ウィキペディアンのお薦めシステム、略してwrs。 さて、登録ユーザ百人以上で編集されたページというものは、 ウィキペディア日本語版にはたかだか3000項目ほどしかないことがわかった。 しかもこれらはおそらくかなり少数のグループにカテゴライズできる。 …

each

eachやforeachはforやwhileなどに比べて無限ループに陥る可能性がはるかに低いので、 とくにwhileなどは余計なバグになりかねんので、 whileは使わずeachを使うべきだと思った。 putty-jpはセッションごとに文字コードを保存すればよい・しなくちゃならない…

ウィキペディアンのお薦め その3

なんか、mysql覚えるとデータベースはなんでもmysqlでやりたくなっちゃうんだが、 それじゃダメだね。 insertしてからupdateしてなんてやってると時間かかって仕方ない。 仕込み作業はmysql使わずにrubyの連想配列でやればよい。 LAMPは、webサービス公開す…

ウィキペディアンのお薦め その2

MSIEで見るとレイアウトがくずれまくりだったので、いろいろ直す。 基本、firefox環境なんで・・・。 dt を float: left; にすると margin が効かなくなるのは仕様ですか。 とりあえずトリッキーなところは削って無難なコードにする。 件名を部分一致検索で…