なにこれwwwwwwwwwwww
最新15件を表示します。このリソース群の時系列順リスト、タイトルリスト、またこのリソースのAtom表現とRSS1.0表現も参照できます。
いろいろ政治的なサイトをクローリングしようと思っているのだけれども
日本人は日本から出て行きなさい 地球市民 50歳代 女性
私はいわゆる在日朝鮮人ですが、最近の日本の右傾化には恐怖さえ感じます。
そんなに外国人が嫌いなら日王(日本人は天皇と呼んでいるみたいですが)と日の丸と君が代をもって日本から出て行き、遠くの無人島で日本人同士で戦争し、殺しあうべきなのです。
ここは私たちの住む国です、私たちが嫌いならあなたが出て行くのが道理なのです。
私たちの住む国のことを私たちが決定できるようにしてくれる民主党が政権をとり、日本がよりいっそう過去の反省を強め北東アジアに貢献するためにも、あなたは民主党に投票しなくてはいけないのです。
こういう明らかなネタ投稿をどうするかがなぁ。民主党も逆宣伝のターゲットにされて大変ですね。社民党ならまだすんなり、いやなんでも。
ハンドルが「地球市民」な割には「いわゆる在日朝鮮人ですが」と国籍を明らかにしているし、論理の飛躍が明らかに釣りを狙っているし、これがガチならもう御見逸れするしかないのだけども、機械はこれを文字通り取るからなぁ。
にしても政治的なサイトや政治的なMLは工作員だらけで面白いですね。
なんかキムジョンイルってVTRで晒されすぎな気がする。なんかこう素顔が秘密のベールに包まれているほうがそれっぽくっていいなぁと思うのに、あれじゃナニだ。
前回はシューカツのため行けなかった春の北海道ですが、この春こそは行きたいと思っています。夜行オホーツクや利尻が季節臨化しても高速バスというダイバーシティがあるので、それはそれでいいかもと思えてきた! そしたらながらの東京到着が今春のダイヤ改正で遅くなる! \(^o^)/
東京から130円の切符で乗ってきた人が、いま車掌に清算を願っている。
いや、わざとそうしたのではなくて、自動券売機に豊橋の表示がなかったからとりあえず130円の切符で入場したみたい。どちらにせよナニ。
NTT西日本の幹部はIP電話の不始末のときにネットではげしいバッシングが行われているのをぜんぜん知らなかったとか、ソフトバンクはMNPの不都合のときに適切な対応をとって延焼を防いだとか、あとソニーのやらせブログはマーケティングを適当にネットの世界に持ち込んだのはいいがネットの不文律をわきまえていなかったために燃えたとかそんな話。
ひとつ対応を間違えようものなら、スズメバチの攻撃のごとく集中砲火で大炎上するブログ。ブログ・SNSがマーケティングの手段として使われるなど、情報源としての地位が高まるなかで、企業の所業や対応のまずさがネットで叩かれたら、ブランドイメージの失墜や経営者の進退にまでも影響を及ぼす。しかし、情報が一気に伝播し、風評となって企業に被害をもたらすというネットの影響力の恐ろしさを、過小評価している企業が多すぎる。経営者は、情報に対する感度を高めなければならない。
あれだよね、広告費をたんまり出しておけばマスコミを黙らすことはできるけど、ネットじゃそうはいかないから大企業の皆さんは大変だよね。あと今まで形にならずにそのまま消えていった市井の声が、今じゃ可視化されて半永久的に残るようになっていることに早く気づかないと大変だよね。
http://i.hatena.ne.jp/idea/13480を昼に投稿して、帰宅後また見てみたら、発行株式数が1000いってるし、タグがついているし、関連アイデアがくっついてるしで、結構うれしくなった。集合知に触れるってこういうのもさすのかなー。かなりいい感じ。
今回SAXで処理できなくなっていたのは垂直タブ(0xb)があったからだけれども、ほかにもInvalid XML Characterな文字はあるのだろうなぁ。どこかに一覧ないかな。まるごと半角空白にできる関数があると便利だよね。
久しぶりに浜松のアニメイトに行ったら、らしんばんが消えてて、アニメイトがそこに移動してた。やはりザザとらしんばんは水と油だったか。アニメイトは移動前に比べて店が狭くなった分混雑度が非常に増している。レジから延びる列が甚だしい。ラノベ棚や角川系棚、あろうことか成年コミック棚の前に行列ができている。名古屋店はある程度隔離されているところに成年コミックコーナを移したというのに、浜松店はレジのすぐ前、さらにそこを行列が通っている。ゾーニングクソ食らえという姿勢がすがすがしいが、スペースの事情を考えたらやむを得ないか。 中央館地下にできた本屋にも行ってみたが、BLやレディースコミックをこれでもかと言うほど並べておいて成年コミックが一冊もないとは何事であるか。
名古屋まで行くくらいならネット通販の方が合理的だしなぁ。名古屋に行く用があればあればついでに買いに行けるけど、それを待ってられないので『チャイドル天使 ラ・リルクル』は通販するか。
零士さんはこの意見に対して「そばやうどんと一緒にしてもらっては困る。作家の作品は残るが、そばやうどんは私にも作れる」と反論した。
にゃー
ぼくも松本先生のような、マニアの方に大人気で大紹介で大攻略で大解剖で大迫力で大集合で大特集で大発表で大混雑で大行進で大正解で激安な存在になりたいお
なんか「快速「ムーンライトながら」の時刻を、ご利用いただきやすい時間帯に変更します。」とか書いてあるのだけれども、いままで東京着4時42分だったのが5時5分になってしまっている。なにこれ? これじゃ東北本線や常磐線の始発に間に合わないじゃん。乗り鉄的にはかなり大ピンチ。東北本線と常磐線の遠くに行く列車に引き続きうまく接続してくれているならいいけれども。
あと全車指定席な区間が増えた。とくにくだりが豊橋まで全車指定席になったのは痛い。ぜひ浜松までにして欲しかったが、のぼりは東京まで全車指定になるらしいので浜松からとお願いしたところで無謀というもの。これじゃあ安易に「ながらで帰る」とはならなくなるなぁ。
みんな大好き亀田興毅のボクシング中継が昨晩TBSで放送され、試合がぜんぜん始まらないなどの放置プレーも功を奏して8万を超える投稿が寄せられた。平均分速も700を超えており、想定外の勢いに実況板定点観測のクローラも涙目。5分に1回、1000レスを超えたスレッドを取得するという方式のため、10000強程度しか取得できていなかった。しかも、ピーク時間帯の投稿がまったく取得できていなかった。スレッドの寿命が5分と持たず、次から次へとDAT落ちしていたのだろう。取得できたものは精度の高いものかというとそうではなく、アレな内容のネタスレがなぜか1000まで行ってしまい、データにゴミを残す結果となった。
こうなったら、マルチスレッド化して板ごとに走らせたほうが良いかも。生きているスレッドの立った時刻や最新100レスの投稿時間の幅から勢いを計算して巡回速度を自動的に変えるとかやるべきだな。ただ、一部の実況板監視所は1分毎に巡回しているみたいなので、もう何も考えず1分毎にまわしても案外良いのかもしれない。こわいけど。
学生が提出したレポートと似たような記述をインターネットで見つけ、これを質したところ、「それを書いたのは私なんです」と言われたら先生方はどう対処するのだろう。とくにWikipediaみたいな誰の著作物でもない文書の場合、誰が書いたか分からないし誰でも書けるのだから学生の言っていることが嘘だとはすぐに判断できない。
キャベツプランのときの審査委員の話し振りを見て違和感を感じたのだけれども、インターネッツを作っているのは自分と関係ない第三者であると考えるのは良くない。特にCGMだなんだかんだ盛んなこのご時世、ネットの書き込みが信用ならんと嘆く前にあなたが信用に足る書き込みをするべきだ。同様に、日本語変換ソフトに差別語が含まれておらず言葉狩りではないかと荒げる前にあなたが差別語入りの辞書ファイルを配布するべきだし、使っているテキストエディタがUnicodeに対応していないのを叩く前にあなたがUnicodeに対応するためのパッチを作って配布するべきだ。それができないなら自分の考えをコミュニティ内で共有すればいいのであって、なんで批判する必要があるのだろうか。批判は対象が自分と無関係だという態度の現われだと思うんだよねぇ。当事者意識がない。
ということで、梅田望夫とかが年上と話すのはやめたとか言うのも十分うなづける話なのでありました。学生がそれを実践すると悲惨なことになるけど。
キャベツプランは努力賞でした。ていうかプレゼンもっとうまくなりたいので、今後似たようなイベントに積極的に参加していきたい所存。
原稿べた読みだとナニかなと思ってアドリブに挑戦しようとしたらハマった。
| うまい | |||
|---|---|---|---|
| ベタ読み | まぁこんなものか | 超すげぇ | アドリブ |
| にゃー | ちゃんと原稿作って練習しろよカス | ||
| へた | |||
私は第4象限だったと思う。無難に第2象限を狙うべきだった。
あと……差しさわりがあるので書かない。とにかく次回だ次回。
本文を形態素分解し、必要な品詞をtfテーブルとdfテーブルに入れる。分析対象となる文書群すべてについてこの処理を行い、各形態素のTF-IDF値を求めて文書をベクトル化する。他の文書ベクトルと内積を比較し、小さい順に「似ている記事」を求めたい (クラスタリングとかは別途)。
HarmanによるTF値の正規化とSparok JonesによるDF値の正規化をする場合のTF-IDF値の計算式は以下のようになる (参考文献):
tfidf(i,j) = log2(freq(i,j) + 1) / log2(NoT) * (log2(N / Dfreq(i)) + 1)
tf(i,j) = log2(freq(i,j) + 1) / log2(NoT)
idf(i) = log2(N / Dfreq(i)) + 1
SELECT log2(times + 1) FROM tf WHERE item='j' AND tag='i';SELECT log2(count(tag)) FROM tf WHERE item='j' GROUP BY item;SELECT count(id) FROM article;SELECT times FROM df WHERE tag = 'i';全部くっつけると:
SELECT item, tag, log2(tf.times + 1) / log2(total) * (log2(n / df.times) + 1) AS tfidf
FROM tf
LEFT JOIN df USING(tag)
LEFT JOIN (SELECT item, count(tag) total FROM tf GROUP BY item) AS a USING(item)
CROSS JOIN (SELECT count(id) AS n FROM items) AS b
WHERE item="j";
実際はユーザ変数を使った方がSQLが短くなっていいと思う。
SELECT @total := count(tag) FROM tf WHERE item = "j";
SELECT @n := count(id) FROM items;
SELECT item, tag, log2(tf.times + 1) / log2(@total) * (log2(@n / df.times) + 1) AS tfidf
FROM tf LEFT JOIN df USING(tag)
WHERE item="j";
これで記事の各形態素のTFIDF値が求められたので、tfidfテーブルに保管しておく。
とりあえず各記事の上位100単語くらいを使うことにする。
INSERT INTO tfidf
SELECT item, tag, log2(tf.times + 1) / log2(@total) * (log2(@n / df.times) + 1) AS tfidf
FROM tf LEFT JOIN df USING(tag)
WHERE item="j"
ORDER BY tfidf DESC
LIMIT 100;
ある文書wがn次元のベクトルで表せる (w = {w1 w2 ... wn})とき、文書wとxの内積は
Σ(wi * vi) / √(Σ(wi2) * Σ(vi2))
MySQLで書くと
CREATE TEMPORARY TABLE inp
SELECT self.tag, self.tfidf self, target.tfidf target
FROM tfidf self
LEFT JOIN (SELECT tag,tfidf FROM tfidf WHERE item='v') target USING(tag)
WHERE self.item = 'w';
SELECT sum(self * target) / sqrt(sum(pow(self,2))*sum(pow(target,2))) inp FROM inp
実際にニュー速各板のスレでやってみた。だいたい同じニュースの続きのスレだと0.6以上の高い値に、似たようなネタの異なるニュースの場合は0.3~0.4くらいになった。以下はそれらの例。カッコ内が内積
今回やってみて、同じニュースのスレッドは★1だろうが★8だろうが同じようなことを延々と話しているのではないかと感じた。何スレも立つような息の長いニュースについて、スレッドごとの単語の登場の仕方とか共起の仕方を見ていくと、ニュー速民のニュースへの態度を表せたりするかも。面白いのはフィギュアスケート選手の体調不良の記事とカキの風評被害の記事が関連付けられたこと。フィギュアスケートの記事中に「カキ」への言及がなくても、ニュー速民による噂話の可視化によって、実は関係あるかもしれない2つの記事が結びついた。なんか集合知かも~。
このとき使ったのと似たような手法を候補者ブログクローラでも使っています。
ふとファミ通町内会の単行本を読んでみたら回文のコーナーがあったので、面白かったのをいくつか転載する。
掲載誌の関係上、下ネタとゲームネタが多いのはご愛嬌。
「ロリコン外科医」と「ブギ」は特にうまいと思う。後者は濁音を無視しているけれども。あと「阪神神話」みたいに助詞じゃない「は」と「わ」を同一視するのは許されるのか? 途中に英単語を挟んだLEVEL2はアリなのか? 専門家の意見が待たれる。
以下発想が天才的な例: