wikipedia

Tree list テンプレート

Wikipedia には家系図を書くための familytreeというテンプレートがあるのだが、 MediaWiki 標準ではない。 template:familytree はソースを読むとこれが table要素でできていることがわかる。 他にも似たようなのに Tree list というテンプレートがあるのだ…

中文版ウィキペディア

中文版ウィキペディアでは、 2010年フィリピン香港人拉致事件がいきなり千回以上編集されていて、大問題になっているようだ。 8月23日に、マニラで香港人25人が乗ったバスがフィリピン人の警察官にバスジャックされて、 8人が犠牲になり、犯人も射殺されたと…

levenshtein を放棄

Ruby の levenshtein ライブラリがなんかうまく動かないし、1.9 にするとよけいに挙動不審になるし、 Ruby のライブラリを Cから書くなんて経験値足りなすぎだし、 結局 levenshtein ライブラリを wikipedia解析に使うのを諦めた。 そしたら、これまで8日間…

天下父母心

ウィキペディア中文版だが、 「天下父母心」という台湾のテレビドラマが編集回数 5388件とたいへんなことになっている。 日本語版でも、編集回数通算5000件を超えているのは、 「ONE PIECEの登場人物一覧」 6958件、 「クイズ!ヘキサゴンII」 5797件、 「仮…

mediawiki 不具合の件解決

karaage に仕込んだ mediawiki の書き込みができない件について、 いろいろ調べていたのだが、 selinux を disable にしても駄目なんで、 mediawiki-1.16.0 を一からインストールしてみると動く。 そこで、extension を全部外してみたら動いた。 それで拡張…

mediawiki が動かない。

学科wikiをkaraage (fedora 13 + poweredge) に引っ越しして、 しばらく気がつかなかったのだが、 見た目は普通だがページを編集したり投稿しようとするとエラーが出る。 内部処理エラー 提供: MediaArtWiki Detected bug in an extension! Hook ConfirmEdit…

やっと解析終わった。

法定点検でサーバの電源落とすまぎわでやっと解析終わってた。 ウィキペディアンのお薦め日本語版100729。 「ゲゲゲの女房」は中文で「咯咯咯的老婆」と書くらしいなあ。 「ニコラジ」とはニコニコ生放送のラジオ番組か。ふーん。 ていうか、以前のように2週…

zhwiki 100731

中文wikiも解析終了。 ハングルwikiよりも圧倒的に活発。 実にたのもしい。 颱風燦都 (2010年)(Typhoon Chanthu) 施公奇案II (A Pillow Case of Mystery II) 香港のテレビドラマ。 南京7·28爆炸事故(2010 Nanjing chemical plant explosion) 新兵日記(Rookie…

kowiki-meta-history-100731

kowiki dumpが100731に出てたのでさっそく処理する。 ruby-1.9.1 と levenshtein の具合がまたまたよろしくない。 もうわけわからん。 コンパイル時にエラーが出るならどうにかデバッグできるが、 ランタイムエラーとかトラックバック見せられてもわけわかめ…

mediawiki-1.16.0

今まで vine 4.2 に入れていた mediawiki-1.15.1 を fedora 13 の mediawiki-1.16.0 にアップグレード。 karaage で動いているが、 dns が反映されれば wiki でもみれるようになるはずだ。 デフォルトスキンを vector に変えてみた。 また、font-size を 1.0…

最近の dump stack

Database dump progress。 enwiki のダンプ終了待ちってところなんだろうか。なんて迷惑な。 やっぱり enwiki の pages-meta-history のダンプは別枠でやってよ。世界平和のために。

最近の wikipedia

英語版、 日本語版ともに、久しぶりに解析完了。 英語版の最近の人気記事だが、1位はGaza flotilla raid、これは、 2010年5月にイスラエル軍によってガザ地区に対して行われた侵攻らしいのだが、英文記事しかなく、よくわからん。 ええっと。より正確には、…

日本発コンテンツ

編集回数が多い順(日本語版) など見ていると、 日本のアニメや漫画、着ぐるみ戦隊ものなどは海外でも話題になっているが、 バラエティ番組、クイズ番組などは海外では評価されていない(Wikipediaにページがない)ことがわかるよなあ。 クイズヘキサゴンと笑点…

enwiki-stub-meta-history 100622

enwiki dump progress on 20100622。 5ヶ月ぶりくらいに、enwiki のダンプができた。

ハングル版ウィキペディアンのお薦め

さらっと作ってみたんだが、ハングル版ウィキペディアンのお薦め、 なんか異様に面白いので暫定公開。 まだ日本語版へのリンクがうまく作れてない。 しかし、そのうちできると思う。 じきに中文もやる。 日本語、ハングル、中文だけでかなり面白いものが作れ…

ひさしぶりの jawiki dump

http://dumps.wikimedia.org/jawiki/20100607/。 前回の3月28日から2ヶ月以上空いてます。 とりあえず落としてきて解析する。

jawiki dump

jawiki dump progress on 20100428。 一ヶ月以上ダンプが終わらないってもう異常だろ。 enwiki の巻き添えくったな。

jawiki dump 停止?

jawiki が 2週間おきくらいにダンプファイルを更新していたのだが、 ここ一ヶ月ほどダンププロセスが止まっている。 たぶん、dewiki、frwiki、ruwiki、eswiki なども同様。 enwiki の pages-meta-history のダンプが数年ぶりに成功したことと何か関係がある…

中国語版

ウィキペディアンのお薦め中国語版への特定のページへのアクセスが最近急に増えていて微妙に怖い。 まあまだめちゃくちゃ多いというわけではないのだが、ちと思案中。 セッション数で言うと中国本土と台湾からのアクセス数はほぼ同じくらいのようだ。 それは…

jdate

wikipedia 日本語版のテンプレートにjdate というのがあり西暦を和暦に変換するもので、明治以降は一応まともに動作するようだが、 西暦1667年を「明治-200年」とか(正確には「寛文7年」)、西暦111年を「明治-1756 年」(正確には「景行天皇41年」)と表記…

ウィキペディアンの「お薦め」なのか

神奈川県受動喫煙防止条例施行まであと11日。 ブログトップのあのphpスクリプトもそろそろ賞味期限切れ。 ウィキペディアンのお薦めだが、google analytics によれば、 若干の増加傾向はあるが、1日300セッションくらいで横ばい。 まあこのくらいが一番平和…

ログ統合

なんかデバッグにけっこう手間取ったのだが、やっとウィキペディア日本語版のログ分離された項目を現行項目と統合して解析できた。 つまりこないだ公開した紀要の「5.3 ログ落ち項目の対応について」はすでに解決済みということ。 ダンプは20100217のもの。 …

紀要

ウィキペディアのデータベース解析と考察。 著者初稿校正も終わったので、 やや早いですが公開します。 長文注意(笑)。 今から見ると、推薦システムや協調フィルタリングに関する記述はかなりいい加減です。 先に謝っておきます。 何か特定の団体や思想を批…

協調フィルタリング

紀要原稿初稿校正。 やばい18ページもある。 あと少しで20ページいっちゃうところだった。 若干書き過ぎた。 さて、推薦システムには「協調フィルタリング」と「コンテントに基づくフィルタリング」とそれらを両方ハイブリッドにした方法があるらしいのだが…

推薦システム

結構仕事のメイルが来る。 学科のwikiのメインページのアクセス数が100万回を越えていた。けっこうすごい。 さて、少しお勉強したのでまとめておく。 K-PAXLife of BrianMementoNotorious Alice4324 BobΦ455 Cindy224Φ David3Φ52 ユーザ空間とアイテム空間と…

google scholar

ちょっとヒマになって来たので、論文を読み始めた。 というか、推薦システム関係で少しネタを思いついたのだが、 今までやったのは「推薦システムをWikipediaに応用しました」というもので、 明らかにまだ誰もやってなさそうなネタだったので(いや、サーベイ…

無言死

またまたRubyスクリプトが無言死した。 何のwarningも残らない。 たぶん原因は調べてもわからない。 対処療法的には、他のプロセスとの干渉を防ぐためにできるだけサービスを止めて、 安静な状態にして、もう一度やってみるしかない。

やりなおし

http://download.wikimedia.org/jawiki/20100217/。 失敗したので、一日後にやり直したようだ。 いや、それだけ。

何かバグってる。

http://download.wikimedia.org/jawiki/20100216/ Please provide a User-Agent header とかなんとか変なエラーが出てる。 pages-meta-history.xml.7z がたった 98 bytes とか意味不明だし。

logを統合する。

jawiki meta historyのダンプは100208まで落としているのだが、 今、表に見えているのは100130のままで、 裏で100208のデータを使ってlogを統合するテスト(デバッグ)をやっている。 ウィキペディア日本語版は編集回数が5000回に達する前に履歴を分離してしま…