RSS

RSS Viewerで単語測定してみたけれど

RSS

kakasi で単語を取り出してみたけれど、精度はかなりいまいち。見出しは特殊な略語を使ってるし、要約部分は口語が多いので、どちらも共に機械測定が苦手とする部分か。でも、見出し部分の略語は意外といけるかも... 何をしようとしているかというと、RSSの…

はてなダイアリーから取り出し

RSS

id:jouno さんのRSS取り出しスクリプトをさらに改造。id:hirax さんのような日単位で書いている人(セクション見出しがない)の場合にうまく取得できなかった点を修正。あと特殊文字のエスケープの仕方なんですが、HTML::TokeParser で取り出してる場合は<…

RSSに向かないサイト

RSS

スラッシュドットはRSSを吐き出すサイトとして結構有名であるが、その吐き出すRSSに description(要約)が含まれていないのが悲しいところ。コード的には簡単に適用できそうだが。 しかし、それよりもRSSビューワーから検知するという視点で見た場合に微妙…

RSS Viewer を作ってみるテスト

RSS

RSSを利用して他のサイトから一覧を取り出し、サイト別ではなく時系列順に並べるものを作ってみた(いろいろと不具合があるのでまだ非公開)。本当は更新時刻順に並べたかったけれど、どこまで読んだかわからなくなるので検知時刻順に並べ、どこまで読んだか…

見出しについて

RSS

そのままだとまずいなら、違うけど意味は同一の文章へ置き換えればいいのだ。 これはよく人間がやっている。テーマは同じでも違う文章で作り変えれば盗作にはならない。 同じニュースでも見出しを変えれば「なんの問題も消滅する」 たとえば「どこいつに新し…

LIRS と RSS

RSS

LIRSは、もともとアンテナの情報を他に提供するためのものなのか。各サイトの更新情報を提供してくれるもので、自分のサイト内の各情報の更新情報を提供する者ではない。サマリーというか description がないのもそのせいか? description を「自動で」とり…

RSS

RSS

rss をさわってみる。うーん、XMLの馬鹿。description の中がテキストじゃなくてHTML の場合とかもあるなんて...でもこれをそのままHTMLで表示するとなるとクロスサイトスクリプト問題が出てくるような...