txqz memo

KandaNewsNetworkのRSSをInforma(JDOM)で取得できない件

先日リリースした参院選予測市場デジタルARENAで紹介された山口先生にも取り上げていただいたりなど思いのほか盛り上がっていてうれしい今日この頃ですが、sangi.inではそのほかに候補者のブログを定期的にクローリングしてあれこれ情報を提供するサービスも準備中です。


で、先日KNNの神田さんが参院選に東京選挙区から立候補予定とのことで、KandaNewsNetworkを巡回対象に加えたが、Firefoxで提供フィードを見ても何も表示されない。何でかと思ったらo:pという謎の要素が原因らしく、Informaさん(の中の人のJDOMさん)もorg.jdom.IllegalNameException: The name "o:p" is not legal for JDOM/XML elements: Element names cannot contain colons.とお怒り。未定義の名前空間下にある要素もうまく処理できるRSSパーサを絶賛募集中。ていうかそれってもはやXMLパーサじゃなくて、ただの正規表現じゃないのか。ただ、ちょっと未定義の名前空間が出てきたから処理やめますたというのはXML的には正しくても現実に即してないなぁ。結局最強のXMLパーサは正規表現なのか~

似たような理由で9条ネットのZAKI候補のブログもうまく取得できない。こちらはis not legal for a JDOM character content: 0x1a is not a legal XML character.とのこと。もっとパーサにやさしいXMLを吐いてくれることを切に望む次第。以前はてブが吐いているRSSに0xb(垂直タブ)が含まれていてうまくパースできなかったことがあったが、なんかこう、もっとあるじゃないですか。HTMLは多少不正でもブラウザは大目に見てくれるけど、せめてXMLでは厳しく律したものを提供していただきたいと思った。自戒も込めて。

あと、KandaNewsNetworkのフィードだけど、OperaのRSSリーダだと文字化けしてしまったが、Google Readerだとうまく購読できた。Livedoor Readerは文字化け。これはAtomの話。Feedburnerの調子が悪いのかな??


http://feeds.feedburner.jp/typepad/egCrから取得できた。よかった。