= tfidf_ja
tfidf_jaは与えられた単語の配列の {TF-IDF}[http://ja.wikipedia.org/wiki/Tf-idf] を算出し、単語をキー、TF-IDF値をバリューとするハッシュテーブルを返却するライブラリです。
== 特徴
tfidf_jaには以下の特徴があります。
- IDF辞書
- IPADIC辞書に収録されている日本語の形態素(約32万語)を使用し、TF値をYahoo!のインデックス数としてあらかじめ算出。
- 算出したTF値からIDF値を算出し、IDF辞書としてライブラリに包含し、ライブラリ使用時の算出コストを減らしています。
- 形態素解析
== インストール方法
コマンドプロンプトより以下を実行してください。
$ gem install tfidf_ja
== サンプル
=== 単語の配列からTF-IDFを取得
require 'rubygems'
require 'tfidf_ja'
ti = TfIdf::Ja.new
p ti.tfidf(['この', '文章', 'から', 'TFIDF', '値', 'を', '取得', 'する'])
=== インスタンスを使い回し
インスタンスを使い回すことにより、TF-IDF値は加算されていきます。
複数のテキストから連続して算出する場合に便利です。
== 付録
=== 公開場所
== Copyright
Copyright (c) 2011 K.Nishi. See LICENSE.txt for
further details.