<?xml version="1.0" encoding="UTF-8" ?>
<rdf:RDF
	xmlns="http://purl.org/rss/1.0/"
	xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/"
	xml:lang="ja-JP"
>
	<channel rdf:about="http://txqz.net/genre/%E8%87%AA%E7%84%B6%E8%A8%80%E8%AA%9E%E5%87%A6%E7%90%86.rdf">
		<title>私と自然言語処理</title>
		<link>http://txqz.net/genre/%E8%87%AA%E7%84%B6%E8%A8%80%E8%AA%9E%E5%87%A6%E7%90%86</link>
		<dc:creator>陽坂智佐</dc:creator>
		<description>最新4件を表示します。</description>
		<items>
			<rdf:Seq>
				<rdf:li rdf:resource="http://txqz.net/blog/2009/08/23/1812"/>
				<rdf:li rdf:resource="http://txqz.net/blog/2007/09/27/2201"/>
				<rdf:li rdf:resource="http://txqz.net/blog/2006/12/19/2347"/>
				<rdf:li rdf:resource="http://txqz.net/blog/2006/10/04/2115"/>
			</rdf:Seq>
		</items>
	</channel>
	<item rdf:about="http://txqz.net/blog/2009/08/23/1812">
		<title>研究室の合宿で全自動メシをクソBotに変換しました</title>
		<link>http://txqz.net/blog/2009/08/23/1812</link>
		<description>今日まで2日間、研究室の合宿でグランビュー熱海というコンドミニアムで開発合宿をしていた。これがとてもよくて、先生が授業で営業を精力的に行ったためとかでまず女子の割合が高い。そしてご飯が自動的に出てくる。屋上に風呂があって見晴らしがいい。すぐ前が海でリアルが爆発している。そんな中OB共は怠惰な時間をすごしておりまったく救いようがない。
たとえば私などはyozbotというクソみたいなBotを作成するのみで、これは私の今までの投稿をなんかマルコフ連鎖? とかいうので再構築しているもので、ていうかまず実装 ……</description>
		<dc:subject>ポリタンク</dc:subject>
		<dc:subject>Python</dc:subject>
		<dc:subject>Twitter</dc:subject>
		<dc:subject>Bot</dc:subject>
		<dc:subject>自然言語処理</dc:subject>
		<dc:date>2009-08-23T18:12:00+09:00</dc:date>
		<trackback:ping rdf:resource="http://txqz.net/blog/2009/08/23/1812/tb"/>
	</item>
	<item rdf:about="http://txqz.net/blog/2007/09/27/2201">
		<title>理想の新書の並べ方</title>
		<link>http://txqz.net/blog/2007/09/27/2201</link>
		<description>本屋に行くと刊行順に新書が並んでいて本を探しにくいという話にブックマークがついて曰く:

[アハハ][ハウツー][魔界]「就活だからって普段来ねえ新書の棚にいちゃもんつけてんじゃねーよ、そもそも新書の分類が「政治」「経済」「ビジネス」みたいにスパッと分けられるか。文明開闢以来の「分類」ちう大問題を軽視」…等々、後ほど。

そりゃヒエラルキー型分類に嫌気が差していまフォークソノミーが絶賛流行中なわけで、これは「政治」の本でそれ以外ではない! だなんて言えない。たとえば今日買ってきた新潮新書の『 ……</description>
		<dc:subject>ネタ</dc:subject>
		<dc:subject>ベクトル空間</dc:subject>
		<dc:subject>新書</dc:subject>
		<dc:subject>研究</dc:subject>
		<dc:subject>自然言語処理</dc:subject>
		<dc:subject>距離</dc:subject>
		<dc:date>2007-09-27T22:01:00+09:00</dc:date>
		<trackback:ping rdf:resource="http://txqz.net/blog/2007/09/27/2201/tb"/>
	</item>
	<item rdf:about="http://txqz.net/blog/2006/12/19/2347">
		<title>MySQLでTF-IDFの計算、あと2つのベクトルの内積の計算</title>
		<link>http://txqz.net/blog/2006/12/19/2347</link>
		<description>本文を形態素分解し、必要な品詞をtfテーブルとdfテーブルに入れる。分析対象となる文書群すべてについてこの処理を行い、各形態素のTF-IDF値を求めて文書をベクトル化する。他の文書ベクトルと内積を比較し、小さい順に「似ている記事」を求めたい (クラスタリングとかは別途)。
HarmanによるTF値の正規化とSparok JonesによるDF値の正規化をする場合のTF-IDF値の計算式は以下のようになる (参考文献):
tfidf(i,j) = log2(freq(i,j) + 1) / log2 ……</description>
		<dc:subject>MySQL</dc:subject>
		<dc:subject>SQL</dc:subject>
		<dc:subject>TF-IDF</dc:subject>
		<dc:subject>ベクトル空間</dc:subject>
		<dc:subject>内積</dc:subject>
		<dc:subject>自然言語処理</dc:subject>
		<dc:date>2006-12-19T23:47:00+09:00</dc:date>
		<trackback:ping rdf:resource="http://txqz.net/blog/2006/12/19/2347/tb"/>
	</item>
	<item rdf:about="http://txqz.net/blog/2006/10/04/2115">
		<title>Wikipediaのタイトルリストを形態素解析の辞書にまとめて登録したら</title>
		<link>http://txqz.net/blog/2006/10/04/2115</link>
		<description>Wikipedia日本語版のタイトル一覧を持ってきてSenのユーザ辞書に突っ込んだのはいいけれども、名詞は名詞だけどどんな名詞か判断できないので一律に「名詞-from_wikipedia」として登録したら適切に使われなかった。そりゃ"from_wikipedia"なんてサブ品詞は形態素解析マシンが理解できないのだから当然。悔い改めて一律に「名詞-固有名詞」として、コストもテキトーな値にして登録してみた。
で、たとえば「クーリングオフ」という単語なのだけれども、「クーリングオフをする」とかいう文脈だ ……</description>
		<dc:subject>Wikipedia</dc:subject>
		<dc:subject>形態素解析</dc:subject>
		<dc:subject>日本語</dc:subject>
		<dc:subject>自然言語処理</dc:subject>
		<dc:date>2006-10-04T21:15:00+09:00</dc:date>
		<trackback:ping rdf:resource="http://txqz.net/blog/2006/10/04/2115/tb"/>
	</item>
</rdf:RDF>