はてなブックマーク

http://b.hatena.ne.jp/
おお、自動でキーワードを取得するのですね。自動で特徴的なキーワードを抽出するというのはこの手のキーワード入力系(ふぉくそのみー?たぎんぐ?)では必要だと思う。でChasenとかで形態素解析して…と精度の悪い方法で四苦八苦するわけだけど、はてなの場合はてなダイアリーキーワードという形で「重要と思われるキーワード」の人力入力で精査されたかなり高精度のリストを持っているからいろいろ便利。
でもすぐに編集追加削除したくなる…。こういう載ってページ中に含まれていないキーワードで分類したいよね。例えば「Yahoo!」を「検索サイト」とタグ付けするのもアリだと思し「ポータルサイト」「大手」とかタグ付けるのもアリだと思う。でも、本文中のキーワードだと、それがない。これだと普通の全文検索でも良さそうなんだ…
それに「本文中のキーワード」だと類似語は別語として扱われるから、串刺し検索してもおもしろさが薄いかも。(ちゃんとした制作者が作っているページは、統語がよくされていて、つまり単語に揺らぎがない。ということは「ブックマーク」という単語ではヒットするページも「Bookmark」「お気に入り」ではヒットしなかったりする)これはまあはてなダイアリーキーワードの「名前≒ID」という根本的な仕様の問題なんだけど…
あと、はてなブックマークがキーワードを抽出している「本文」ってどんなアルゴリズムで判定しているんだろう。適当にいくつか入れてみたけど、本文の真ん中の引用部分とかが抜き出されたりする場合もあって、よく分からない。こういう「操作できない感」ってのもイライラするかな…
MMが自動キーワード抽出してくれればいいのに…>はてなダイアリーキーワードAPIで是非!(;´Д`)フカガタカスギマス