文章要約プログラムを書いてみよう!

http://www.seman.cs.uec.ac.jp/~shin/blog/archives/cat_eieiioieaonsse.html

 このプログラムが文章の要約にどんなアルゴリズムを使っているのか。これを書くのにどんな作業が必要なのか。流れをおおざっぱに書き出すと、以下のようになる。
 1. コーパスを集める
 2. コーパス形態素解析して、名詞の出現頻度データを作る
 3. 要約したい文章を形態素解析し、名詞のリストとその登場回数を得る
 4. TF/IDFっていうアルゴリズムに通して、名詞ごとの重要度を得る
 5. 4の結果からセンテンスごとに重要度を設定し、上位n%を抜き出して要約とする

今日の井原: 文章要約プログラムを書いてみよう! Archives

なるほど……