2006年12月

最新15件を表示します。このリソース群の時系列順リストタイトルリスト、またこのリソースのAtom表現RSS1.0表現も参照できます。

紅白でおっぱい

なにこれwwwwwwwwwwww

タグ

参院選サイトのために

いろいろ政治的なサイトをクローリングしようと思っているのだけれども

日本人は日本から出て行きなさい 地球市民 50歳代 女性

私はいわゆる在日朝鮮人ですが、最近の日本の右傾化には恐怖さえ感じます。

そんなに外国人が嫌いなら日王(日本人は天皇と呼んでいるみたいですが)と日の丸と君が代をもって日本から出て行き、遠くの無人島で日本人同士で戦争し、殺しあうべきなのです。

ここは私たちの住む国です、私たちが嫌いならあなたが出て行くのが道理なのです。

私たちの住む国のことを私たちが決定できるようにしてくれる民主党が政権をとり、日本がよりいっそう過去の反省を強め北東アジアに貢献するためにも、あなたは民主党に投票しなくてはいけないのです。

こういう明らかなネタ投稿をどうするかがなぁ。民主党も逆宣伝のターゲットにされて大変ですね。社民党ならまだすんなり、いやなんでも。

ハンドルが「地球市民」な割には「いわゆる在日朝鮮人ですが」と国籍を明らかにしているし、論理の飛躍が明らかに釣りを狙っているし、これがガチならもう御見逸れするしかないのだけども、機械はこれを文字通り取るからなぁ。

にしても政治的なサイトや政治的なMLは工作員だらけで面白いですね。

タグ

美しい魔闘家帰無

なんかキムジョンイルってVTRで晒されすぎな気がする。なんかこう素顔が秘密のベールに包まれているほうがそれっぽくっていいなぁと思うのに、あれじゃナニだ。

タグ

この春こそ北海道へ流氷とか見に行くぞ

前回はシューカツのため行けなかった春の北海道ですが、この春こそは行きたいと思っています。夜行オホーツクや利尻が季節臨化しても高速バスというダイバーシティがあるので、それはそれでいいかもと思えてきた! そしたらながらの東京到着が今春のダイヤ改正で遅くなる! \(^o^)/

タグ

車掌泣かせ乙

東京から130円の切符で乗ってきた人が、いま車掌に清算を願っている。

いや、わざとそうしたのではなくて、自動券売機に豊橋の表示がなかったからとりあえず130円の切符で入場したみたい。どちらにせよナニ。

タグ

WEDGE1月号でブログ炎上の話題

NTT西日本の幹部はIP電話の不始末のときにネットではげしいバッシングが行われているのをぜんぜん知らなかったとか、ソフトバンクはMNPの不都合のときに適切な対応をとって延焼を防いだとか、あとソニーのやらせブログはマーケティングを適当にネットの世界に持ち込んだのはいいがネットの不文律をわきまえていなかったために燃えたとかそんな話。

ひとつ対応を間違えようものなら、スズメバチの攻撃のごとく集中砲火で大炎上するブログ。ブログ・SNSがマーケティングの手段として使われるなど、情報源としての地位が高まるなかで、企業の所業や対応のまずさがネットで叩かれたら、ブランドイメージの失墜や経営者の進退にまでも影響を及ぼす。しかし、情報が一気に伝播し、風評となって企業に被害をもたらすというネットの影響力の恐ろしさを、過小評価している企業が多すぎる。経営者は、情報に対する感度を高めなければならない。

あれだよね、広告費をたんまり出しておけばマスコミを黙らすことはできるけど、ネットじゃそうはいかないから大企業の皆さんは大変だよね。あと今まで形にならずにそのまま消えていった市井の声が、今じゃ可視化されて半永久的に残るようになっていることに早く気づかないと大変だよね。

タグ

はてなアイデアに投稿してみたよ

http://i.hatena.ne.jp/idea/13480を昼に投稿して、帰宅後また見てみたら、発行株式数が1000いってるし、タグがついているし、関連アイデアがくっついてるしで、結構うれしくなった。集合知に触れるってこういうのもさすのかなー。かなりいい感じ。

今回SAXで処理できなくなっていたのは垂直タブ(0xb)があったからだけれども、ほかにもInvalid XML Characterな文字はあるのだろうなぁ。どこかに一覧ないかな。まるごと半角空白にできる関数があると便利だよね。

タグ

浜松らじんばん滅亡

久しぶりに浜松のアニメイトに行ったら、らしんばんが消えてて、アニメイトがそこに移動してた。やはりザザとらしんばんは水と油だったか。アニメイトは移動前に比べて店が狭くなった分混雑度が非常に増している。レジから延びる列が甚だしい。ラノベ棚や角川系棚、あろうことか成年コミック棚の前に行列ができている。名古屋店はある程度隔離されているところに成年コミックコーナを移したというのに、浜松店はレジのすぐ前、さらにそこを行列が通っている。ゾーニングクソ食らえという姿勢がすがすがしいが、スペースの事情を考えたらやむを得ないか。 中央館地下にできた本屋にも行ってみたが、BLやレディースコミックをこれでもかと言うほど並べておいて成年コミックが一冊もないとは何事であるか。

名古屋まで行くくらいならネット通販の方が合理的だしなぁ。名古屋に行く用があればあればついでに買いに行けるけど、それを待ってられないので『チャイドル天使 ラ・リルクル』は通販するか。

タグ

松本零士先生の作ったうどんを食べたいです><

零士さんはこの意見に対して「そばやうどんと一緒にしてもらっては困る。作家の作品は残るが、そばやうどんは私にも作れる」と反論した。

にゃー

ぼくも松本先生のような、マニアの方に大人気で大紹介で大攻略で大解剖で大迫力で大集合で大特集で大発表で大混雑で大行進で大正解で激安な存在になりたいお

タグ

来春のダイヤ改正でムーンライトながらが

プレスリリースがPDFで出ている。

なんか「快速「ムーンライトながら」の時刻を、ご利用いただきやすい時間帯に変更します。」とか書いてあるのだけれども、いままで東京着4時42分だったのが5時5分になってしまっている。なにこれ? これじゃ東北本線や常磐線の始発に間に合わないじゃん。乗り鉄的にはかなり大ピンチ。東北本線と常磐線の遠くに行く列車に引き続きうまく接続してくれているならいいけれども。

あと全車指定席な区間が増えた。とくにくだりが豊橋まで全車指定席になったのは痛い。ぜひ浜松までにして欲しかったが、のぼりは東京まで全車指定になるらしいので浜松からとお願いしたところで無謀というもの。これじゃあ安易に「ながらで帰る」とはならなくなるなぁ。

タグ

亀田の人気は異常

みんな大好き亀田興毅のボクシング中継が昨晩TBSで放送され、試合がぜんぜん始まらないなどの放置プレーも功を奏して8万を超える投稿が寄せられた。平均分速も700を超えており、想定外の勢いに実況板定点観測のクローラも涙目。5分に1回、1000レスを超えたスレッドを取得するという方式のため、10000強程度しか取得できていなかった。しかも、ピーク時間帯の投稿がまったく取得できていなかった。スレッドの寿命が5分と持たず、次から次へとDAT落ちしていたのだろう。取得できたものは精度の高いものかというとそうではなく、アレな内容のネタスレがなぜか1000まで行ってしまい、データにゴミを残す結果となった。

こうなったら、マルチスレッド化して板ごとに走らせたほうが良いかも。生きているスレッドの立った時刻や最新100レスの投稿時間の幅から勢いを計算して巡回速度を自動的に変えるとかやるべきだな。ただ、一部の実況板監視所は1分毎に巡回しているみたいなので、もう何も考えず1分毎にまわしても案外良いのかもしれない。こわいけど。

タグ

ネットの向こうにあるものはthemじゃなくてusなんだ

学生が提出したレポートと似たような記述をインターネットで見つけ、これを質したところ、「それを書いたのは私なんです」と言われたら先生方はどう対処するのだろう。とくにWikipediaみたいな誰の著作物でもない文書の場合、誰が書いたか分からないし誰でも書けるのだから学生の言っていることが嘘だとはすぐに判断できない。

キャベツプランのときの審査委員の話し振りを見て違和感を感じたのだけれども、インターネッツを作っているのは自分と関係ない第三者であると考えるのは良くない。特にCGMだなんだかんだ盛んなこのご時世、ネットの書き込みが信用ならんと嘆く前にあなたが信用に足る書き込みをするべきだ。同様に、日本語変換ソフトに差別語が含まれておらず言葉狩りではないかと荒げる前にあなたが差別語入りの辞書ファイルを配布するべきだし、使っているテキストエディタがUnicodeに対応していないのを叩く前にあなたがUnicodeに対応するためのパッチを作って配布するべきだ。それができないなら自分の考えをコミュニティ内で共有すればいいのであって、なんで批判する必要があるのだろうか。批判は対象が自分と無関係だという態度の現われだと思うんだよねぇ。当事者意識がない。

ということで、梅田望夫とかが年上と話すのはやめたとか言うのも十分うなづける話なのでありました。学生がそれを実践すると悲惨なことになるけど。

タグ

ミアたんが好きです。

キャベツプランは努力賞でした。ていうかプレゼンもっとうまくなりたいので、今後似たようなイベントに積極的に参加していきたい所存。

原稿べた読みだとナニかなと思ってアドリブに挑戦しようとしたらハマった。

印象マトリクス
うまい
ベタ読みまぁこんなものか超すげぇアドリブ
にゃーちゃんと原稿作って練習しろよカス
へた

私は第4象限だったと思う。無難に第2象限を狙うべきだった。

あと……差しさわりがあるので書かない。とにかく次回だ次回。

タグ

MySQLでTF-IDFの計算、あと2つのベクトルの内積の計算

本文を形態素分解し、必要な品詞をtfテーブルとdfテーブルに入れる。分析対象となる文書群すべてについてこの処理を行い、各形態素のTF-IDF値を求めて文書をベクトル化する。他の文書ベクトルと内積を比較し、小さい順に「似ている記事」を求めたい (クラスタリングとかは別途)。

HarmanによるTF値の正規化とSparok JonesによるDF値の正規化をする場合のTF-IDF値の計算式は以下のようになる (参考文献):

tfidf(i,j) = log2(freq(i,j) + 1) / log2(NoT) * (log2(N / Dfreq(i)) + 1)

HarmanによるTFの正規化

tf(i,j) = log2(freq(i,j) + 1) / log2(NoT)
tf(i,j)
文書jにおける単語iのTF値
freq(i,j)
文書jにおける単語iの登場回数
NoT
文書j中のタームの種類数(num of terms)

Sparck JonesによるDFの正規化

idf(i) = log2(N / Dfreq(i)) + 1
idf(i)
単語iのDF値
N
文書集合中の文書総数
Dfreq(i)
単語iが登場する文書数

MySQL での表現

TF値の分子
SELECT log2(times + 1) FROM tf WHERE item='j' AND tag='i';
TF値の分母
SELECT log2(count(tag)) FROM tf WHERE item='j' GROUP BY item;
IDF値のlogの分子
SELECT count(id) FROM article;
IDF値のlogの分母
SELECT times FROM df WHERE tag = 'i';

全部くっつけると:

SELECT item, tag, log2(tf.times + 1) / log2(total) * (log2(n / df.times) + 1) AS tfidf
  FROM tf
    LEFT JOIN df USING(tag)
    LEFT JOIN (SELECT item, count(tag) total FROM tf GROUP BY item) AS a USING(item)
    CROSS JOIN (SELECT count(id) AS n FROM items) AS b
  WHERE item="j";

実際はユーザ変数を使った方がSQLが短くなっていいと思う。

SELECT @total := count(tag) FROM tf WHERE item = "j";
SELECT @n := count(id) FROM items;
SELECT item, tag, log2(tf.times + 1) / log2(@total) * (log2(@n / df.times) + 1) AS tfidf
  FROM tf LEFT JOIN df USING(tag)
  WHERE item="j";

これで記事の各形態素のTFIDF値が求められたので、tfidfテーブルに保管しておく。

内積を求めて近い記事を出す

とりあえず各記事の上位100単語くらいを使うことにする。

INSERT INTO tfidf
  SELECT item, tag, log2(tf.times + 1) / log2(@total) * (log2(@n / df.times) + 1) AS tfidf
    FROM tf LEFT JOIN df USING(tag)
    WHERE item="j"
    ORDER BY tfidf DESC
    LIMIT 100;

ある文書wがn次元のベクトルで表せる (w = {w1 w2 ... wn})とき、文書wとxの内積は

Σ(wi * vi) / √(Σ(wi2) * Σ(vi2))

MySQLで書くと

CREATE TEMPORARY TABLE inp
  SELECT self.tag, self.tfidf self, target.tfidf target
    FROM tfidf self
      LEFT JOIN (SELECT tag,tfidf FROM tfidf WHERE item='v') target USING(tag)
    WHERE self.item = 'w';
SELECT sum(self * target) / sqrt(sum(pow(self,2))*sum(pow(target,2))) inp FROM inp

実際にやってみる

実際にニュー速各板のスレでやってみた。だいたい同じニュースの続きのスレだと0.6以上の高い値に、似たようなネタの異なるニュースの場合は0.3~0.4くらいになった。以下はそれらの例。カッコ内が内積

高い値 …… 同じニュースの次スレ、前スレ

【経済】 「格差是正のため、正社員の待遇を非正規社員水準に合わせる」…経済財政諮問会議・八代氏★5
  • 【経済】 「格差是正のため、正社員の待遇を非正規社員水準に合わせる」…経済財政諮問会議・八代氏★4 (0.76865722990833)
  • 【経済】 「格差是正のため、正社員の待遇を非正規社員水準に合わせる」…経済財政諮問会議・八代氏★3 (0.72848890331971)
  • 【経済】「格差是正のため正社員待遇を非正規社員水準へ」…経済財政諮問会議メンバー・八代尚宏氏★2 (0.61619675121174)
  • 【経済】「格差是正のため正社員待遇を非正規社員水準へ」…経済財政諮問会議メンバー・八代尚宏氏 (0.63664490692797)
【芸能】森本レオが石原真理子の処女を奪ったことを認める「それでもやっぱりマリコがんばれ」
  • 【芸能】石原真理子「17歳で森本レオに処女奪われた」…週刊誌に暴露、「宣伝か」の声も★2 (0.82246383998552)
  • 【芸能】石原真理子「17歳で森本レオに処女奪われた」…週刊誌に暴露、「宣伝か」の声も[12/18] (0.79417204039799)
◆自治議論★64◆
  • 愛の説教部屋166(地獄キャンペーン実施中)( ゚д゚) (0.67651278868912)
  • ◆自治議論★63◆ (0.81182145799799)
  • ◆自治議論★62◆ (0.79929338782244)

中くらいの値 …… 似たようなネタだが異なるニュースのスレ

【MLB】多田野、アスレチックスと再契約 春季キャンプでメジャー復帰目指す★3
  • 【社会】 NHK職員(男)、電車で大学生(180cm・120kgの男子)に痴漢→逮捕…東京★3 (0.4629403483907)
  • 【社会】 NHK職員(男)、電車で大学生(男子)に痴漢→逮捕…東京★2 (0.41509734340642)
【大阪】コリアNGOセンター事務局長「公立校で民族教育は不要との意見が出かねない…外国籍の子供に愛国心強調しないで」[12/18]
  • 【論説】 「"日教組が、教育荒廃の元凶"というのは言いがかりだ」…東京新聞★2 (0.35593573724151)
  • 【日韓】 [特派員コラム]韓国は日本を追い越すことができる?潜在力も意欲も韓国が上[12/18] (0.3069814685099)
  • 【論説】 「愛国心、"格差"はぐらかす為か? 学生らは愛国心強要に"日本社会の悪化"を感じている」…毎日新聞★3 (0.39403589906126)
【フィギュアスケート】高橋・安藤・浅田・村主ら日本勢に謎の症状・・・体調不良者が続出★3
  • 【北海道】カキ「風評被害」に悲鳴、取扱額40%減 ノロウイルス食中毒、今季の感染例ゼロなのに★2 (0.41831300355656)

今回やってみて、同じニュースのスレッドは★1だろうが★8だろうが同じようなことを延々と話しているのではないかと感じた。何スレも立つような息の長いニュースについて、スレッドごとの単語の登場の仕方とか共起の仕方を見ていくと、ニュー速民のニュースへの態度を表せたりするかも。面白いのはフィギュアスケート選手の体調不良の記事とカキの風評被害の記事が関連付けられたこと。フィギュアスケートの記事中に「カキ」への言及がなくても、ニュー速民による噂話の可視化によって、実は関係あるかもしれない2つの記事が結びついた。なんか集合知かも~。

このとき使ったのと似たような手法を候補者ブログクローラでも使っています。

タグ

回文文化

ふとファミ通町内会の単行本を読んでみたら回文のコーナーがあったので、面白かったのをいくつか転載する。

掲載誌の関係上、下ネタとゲームネタが多いのはご愛嬌。

「ロリコン外科医」と「ブギ」は特にうまいと思う。後者は濁音を無視しているけれども。あと「阪神神話」みたいに助詞じゃない「は」と「わ」を同一視するのは許されるのか? 途中に英単語を挟んだLEVEL2はアリなのか? 専門家の意見が待たれる。

以下発想が天才的な例:

タグ
© 2001-2008 Chisa YOUZAKA. Some rights reserved.