最近Favotterにcensored機能が実装され、Google AdSenseに怒られるような単語が<censored>に置換されて表示されるようになった。私の場合、いわゆる変態クラスタと呼ばれているような方々がなさっているような偽悪的な投稿は行っておらず、このようなフィルタに引っかかるはずはないと思っていたのだが、LLTVのときに投稿した幼女
がcensoredされてしまっていたのに気づいた。なんということでしょう。いや、よくよく検索してみたら何度もそういう投稿をしていたのでそういう投稿をした自分がアレなんだけど、はじめてFavotter上で自分の投稿がcensoredされたのを見てちょっとショックだった。
ところで、件の投稿をふぁぼったーで見ると、「幼女」がcensoredされていません。そりゃあそうですよね。「幼女」がcensoredされたことを嘆いているのに、肝心の「幼女」がcensoredされたらFavotter上で見たときに文意がつかめません。これはふぁぼったーが私のそういう気持ちを酌んでくれている、というわけではなくて数値文字参照で書き込んだからです。変換には「使えない文字」のHTML4文字参照フォームを利用し、これにより「幼女」の数値文字参照である幼女を得ました。この文字列をTwitterに投稿すると、画面上には「幼女」と表示されますが、データとしてはあくまで"幼女"なので、Favotterの検閲フィルタを突破できたということです。アドセンスの中の人が数値文字参照まで気にするかどうか知りませんが、もし数値文字参照に置換すればオッケーなのだとしたら、機械も人間もWin-Winですね。
ところで、第9回文学フリマで頒布される『つヤ部報vol2』に、ふぁぼったー <censored> 徹底解説 ―これが卑猥語フィルタだ― @ono_matope
という記事が掲載されているようですね。楽しみです。