<?xml version="1.0" encoding="UTF-8" ?>
<rdf:RDF
	xmlns="http://purl.org/rss/1.0/"
	xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/"
	xml:lang="ja-JP"
>
	<channel rdf:about="http://txqz.net/blog/2006/12/19/2347.rdf">
		<title>MySQLでTF-IDFの計算、あと2つのベクトルの内積の計算</title>
		<link>http://txqz.net/blog/2006/12/19/2347</link>
		<dc:creator>陽坂智佐</dc:creator>
		<description>「MySQLでTF-IDFの計算、あと2つのベクトルの内積の計算」に関する情報です。</description>
		<items>
			<rdf:Seq>
				<rdf:li rdf:resource="http://txqz.net/blog/2006/12/19/2347"/>
			</rdf:Seq>
		</items>
	</channel>
	<item rdf:about="http://txqz.net/blog/2006/12/19/2347">
		<title>MySQLでTF-IDFの計算、あと2つのベクトルの内積の計算</title>
		<link>http://txqz.net/blog/2006/12/19/2347</link>
		<description>本文を形態素分解し、必要な品詞をtfテーブルとdfテーブルに入れる。分析対象となる文書群すべてについてこの処理を行い、各形態素のTF-IDF値を求めて文書をベクトル化する。他の文書ベクトルと内積を比較し、小さい順に「似ている記事」を求めたい (クラスタリングとかは別途)。
HarmanによるTF値の正規化とSparok JonesによるDF値の正規化をする場合のTF-IDF値の計算式は以下のようになる (参考文献):
tfidf(i,j) = log2(freq(i,j) + 1) / log2 ……</description>
		<dc:subject>MySQL</dc:subject>
		<dc:subject>SQL</dc:subject>
		<dc:subject>TF-IDF</dc:subject>
		<dc:subject>ベクトル空間</dc:subject>
		<dc:subject>内積</dc:subject>
		<dc:subject>自然言語処理</dc:subject>
		<dc:date>2006-12-19T23:47:00+09:00</dc:date>
		<trackback:ping rdf:resource="http://txqz.net/blog/2006/12/19/2347/tb"/>
	</item>
</rdf:RDF>