2009-01-01から1年間の記事一覧

/ にハマった。

getメソッドで値をurlの一部として渡すとき php だと urlencode とか rawurlencode を通すのだが、 そうすると / が %2F に変換されてしまう。 これをwikipediaに渡すとはまる。 空白文字や多バイト文字はエンコードしなきゃダメなんでしょ、と思っていたの…

編集回数が多いページの履歴の分離

wikirageはだいぶ前から日本語版だけ壊れているようだ。 wikicheckerの編集合戦のフィードを読んでみる。 wikipedia日本語版ではある一定以上編集回数が多くなった項目を「技術的な理由により」「過去の履歴として分離」 する傾向がある。 なんでかと調べて…

google AJAX Translation API

ubuntu 9.11で、ハングル文字のレンダリングに関して言うと、 firefox より google chrome unstable の方がきれい。 中国語の文字もそうだ。 いろんな意味でfirefoxよりもchromeの方が良い。 しかし、firefox には長い間慣れ親しんだアドオン群があり、それ…

今度は wordpressのウィジェットを作ってみた。

iframe を使うと極めて簡単に作れるざんす。 functions.php の適当なところに入れれば動くはず。 いろいろ書いているが、基本 iframeを入れれば良いだけで、 幅と高さをオプションで指定できるようにするのにだらだらコード書いている。 register_sidebar_wi…

google gadgetを編集できるようにした。

google gadget 日本語版。 表示をかなりすっきりさせた。 form入力もなくした。 こちらは言語選択オプションをつけた多言語版の gadget。 下はフランス語表記。 韓国語表記。 プルダウンメニューで言語選択。 中国語版。 ロシア語版。 メニュー選択で url の…

嗚々、google gadget

google gadget で get メソッドで lang という変数を使うと、 同じ変数を igoogle も利用しているために、igoogle によって ja などに上書きされてしまう。 だから、自分のガジェットでは lang という変数が使えない。 泣きながら全部 lng に変更したら直っ…

順調です。

buttercup はメモリを5GBも使ってるみたいです。 [nagae@buttercup werke]$ free total used free shared buffers cached Mem: 8263308 5332592 2930716 0 132928 3369872 -/+ buffers/cache: 1829792 6433516 Swap: 4112376 0 4112376 Ruby プロセスは実メ…

mediawiki利用を特定少数ユーザだけに限定

$wgGroupPermissions['*']['read'] = false; $wgGroupPermissions['user']['read'] = true; $wgGroupPermissions['*']['createaccount'] = false; LocalSettings.phpに上記3行追加。 最初の行で全員読めなくする。 次の行で登録ユーザだけ読めるようにする。…

Dell R200にメモリ8GB積む。

早速メモリを挿す。 8GB認識されているもよう。 [nagae@buttercup ~]$ free total used free shared buffers cached Mem: 8263308 365012 7898296 0 26600 222700 -/+ buffers/cache: 115712 8147596 Swap: 4112376 0 4112376 なんかswapが足りないような気…

ruby 1.9.1をfedora11に入れてみる。

けっこうむずい。 MySQL/Ruby もコンパイル。 yum なら yum install mysql-ruby一発なのだが。 yum で zlib-devel、mysql-devel なども入れる必要があるかも。 --with-mysql-config オプションつけるといける。 が、しかし、Levenshteinがうまくコンパイルで…

痛恨のenbug。

また一からやり直し。 なのだが、メモリ届いたんで、挿さねばならぬ。 挿すには一度落とさにゃならぬ。ええいもう。 とりあえず、blossomでプロセス走らせ続け、 buttercupとbubblesにメモリを挿し、 その後でbuttercupに自分の拠点をうつすか。 さらにその…

インターウィキの変わった使い方。

mediawikiでたとえば、 mysql> insert interwiki (iw_prefix, iw_url) values ('g', 'http://www.google.com/search?q=$1'); Query OK, 1 row affected, 1 warning (0.01 sec) mysql> insert interwiki (iw_prefix, iw_url) values ('wrs', 'http://www.medi…

リバート合戦とは言うが、

most reverted pages。 例えば編集回数に対してリバート率が5%以上とかそんなページがやたらとあるわけではない。 たいてい多くても数回程度しか一つの記事にはリバートされてない。 マイナーな言語ほど、リバートも少ない。 というわけで純粋なリバート合戦…

最新のダンプファイル

例えば、jawiki-latest-stub-meta-history.xml.gz には jawiki-latest-stub-meta-history.xml.gz-rss.xml というフィードが用意されているので、 各国語の最新のダンプファイルを知りたいときには、 $languages = array('en', 'de', 'fr', 'ja', 'ko', 'zh')…

revertを数える

ウィキペディアンには、改竄をしたがる人と、 revertをしたがる人が居ると思う。 改竄とrevertが繰り替えされると編集回数は増える。 revertは新しく文言を加えたり修正するのではない。 機械的に前の版に差し戻すだけ。 revert回数が多い項目は多分攻撃され…

ubuntu9.10を入れる。

ubuntu9.10βはfirefoxが3.0だったのだが、10月29日に正式リリースされたので、 なんちゅうか、いままでX11のスクロールやらキー入力がぬるぬるしてて(bufferingのためでしょうな)、我慢がならんかったので、 さくっとubuntu9.10に変更。 X11はきびきび動くよ…

gem版levenshteinを使ってみる。

なんか、またしても無限ループから帰ってこないのでへこたれた。 原因不明だがまたlevenshteinのせいだろうか。 で、いっそのことCで書かれてて速いというライブラリ levenshtein0.2.0 を試してみることにする。 RubyForge levenshtein0.2.0 を拾ってくる。 …

ふと思ったこと(紀要の草稿代わり)。

聖書学の本など読むと初期の今日には伝わってない書簡や語録などからどうやって福音書などができあがっていったかとかいろいろ書かれていて面白いのだが、 方やWikipediaに関しては、過去の履歴というものが完全な形で残っているので、 どの文書がどのように…

大学

東京工芸大学 は大学の中では編集回数が割と多い上に、登録ユーザによる編集率がかなり高い。 大学の編集回数順で言えば、 1位は東大(登録ユーザは262人)、 2位はコロンビア大学(登録ユーザは121人)、 3位は慶応大学(登録ユーザは175人)、 4位は日本体育大学…

htmlspecialchars_decode

xmlは&や<や>が&amp;や&lt;や&gt;にエンコードされているわけだから、 それをデコードしてあげなきゃいけなかったんだ。 phpだとhtmlspecialchars_decodeでなんとかなりそう。 Rubyだと、なんだろう・・・うう脳がとろけそう。 たぶん、gsubだな。gsubしかな…

Levenshtein距離

Levenshtein distance。 Rubyのサンプルだけ再帰呼び出しなのな。 しかもうまく動かない。 Levenshtein 距離 / Ruby / RubyInline こちらのソースを使わせていただく。 Levenshteinを何に使ったかは、数日後に明らかになるであろう(バレバレか)。 ていうか、…

wikichecker

先にやられてた。 日本語版はこちら: ja.WikiChecker beta。 しかし、集計方法はだいぶ違うらしい。 おそらく、ある記事に対してよく編集するユーザが20名ほど抽出されている。 ユーザにはIPユーザも含まれる。 おそらくユーザのリストも別にあり、どのペー…

多言語化する。

英語、ドイツ語、フランス語版やってみる。 韓国語版と中国語版もやるかもしれん。 とりあえず、登録ユーザ調べは六ヶ月固定で。 日本語版はカスタマイズしすぎたのでとりあえず放置で。 Wikipedia Growth Animated。 日本語版出だし遅い。でも頑張ってる。 …

344952 in six months unsignedとunsingedはときどき間違える。 identified by と indentified byはごくたまに間違える。

受動喫煙防止条例

web

あまりにも待ち遠しいので、phpでさくっと作ってみた。 $target_time = mktime(0,0,0,4,1,2010); $current_time = time(); $diff_time = $target_time - $current_time; $diff_time = round($diff_time / 3600 / 24); $text = "神奈川県受動喫煙防止条例発動…

さくっと成功した。

Wela Wiki Web なんか今回はさくっと成功しましたよ。 元データは enwiki-20091017-stub-meta-history.xml。 項目総数は 18366630。 そのうち、三ヶ月以内に登録ユーザ(botらしきものを除く)によって更新された通常ページは 326787。 割と少ない。日本語版の…

500万項目までは調べた。

前回800万項目辺りで死んだので、500万項目まで調べたが、 3か月以内の登録ユーザに限定したら、2GBメモリの8%しか消費せず成功した。 273808項目が抽出された。 編集回数ランキング: George W. Bush 43443 times List of World Wrestling Entertainment emp…

Editors per million speakers

wikipedia statistics sitemapの Editors per million speakersというのがなかなか面白い。 つまり、英語版は、話者人口辺りで比べれば必ずしも編集者は多くない。 編集者が話者人口辺りで多いのは、日本、ドイツ、イタリア。 やばい枢軸国(笑)。 フランス語…

やはり止まる。

またまたRubyが無言でお亡くなりになっていた。 800万件くらいすぎたところで。 やあ困ったな。 ウィキペディア英語版は今600万件あるらしいから、 特別ページや単なるリダイレクトを含めると実際の項目数はその倍くらいあるだろう。 ゴールは2000万件くらい…

ウィキペディア英語版おそるべし

まあ、本格運用を前に頭の部分だけちょっとデータベースに入れてみたのだが。 Aristotle のような比較的マイナー(?)な項目ですら、 7089回も編集されている。 Albert Einstein だと13146回。 やべえ。 桁が違いすぎる。 ていうか、アリストテレスを編集した…