テキストマイニング

文章要約プログラムを書いてみよう!

http://www.seman.cs.uec.ac.jp/~shin/blog/archives/cat_eieiioieaonsse.html このプログラムが文章の要約にどんなアルゴリズムを使っているのか。これを書くのにどんな作業が必要なのか。流れをおおざっぱに書き出すと、以下のようになる。 1. コーパス…

TermExtract をとりあえず動かしてみるまで

専門用語(キーワード)自動抽出用Perlモジュール http://gensen.dl.itc.u-tokyo.ac.jp/termextract.html とあるレンタルサーバにて(多分 redhat9.2)。 make とか使えないので、 TermExtract/TermExtract フォルダを cgi と同じディレクトリに置く。サンプ…

"musashi"を使ってテキストマイニング(musashi_text)

2003年7月、"musashi"という名のデータマイニング・ソフトがオープンソース・ライセンスにてリリースされました。これを使ってエンド・ユーザが使い易いソフトウエアを仕立てることができないかと考えたのがこのプロジェクトの始まりです。 textmainingほほ…

GETA の研究

インストールとりあえずそのままやってみた。debian-woody-testing 特に問題ないと思われ。 libwam データベース(WAM)の作成と低レベルな検索 WAM データベースみたいなもの handle データベース名みたいなもの freqfile データ定義ファイル handle=my-inbox…

汎用連想計算エンジン GETA

汎用連想計算エンジン(GETA)は、文書検索における頻度付き索引データ(どの文書にどの単語が何回出現するというような)を典型とする大規模かつ粗な行列を対象として、行と行あるいは列と列(具体的には文書間および単語間)の類似度を内積型メジャーで高…

専門用語(キーワード)自動抽出用Perlモジュール "TermExtract"

日本語の文章中から単語を切り出す定番のソフトとして、「茶筅」や「案山子」がありますが、そのまま専門用語の抽出に使うには次の2つの問題があります。 ひとつは、複合語に対応していないことです。専門用語の多くは単語を組み合わせて、複雑な概念を表す…