webalizerの検索語の日本語対応の話の古いやつ

新しいやつが完全に日本語に特化しており、 検索語はUTF-8かEUC-JPかShift_JISのみでしか来ない (iso-8859-1などはない)と仮定して全部変換するのに対し、 古いやつは妙なロジックで漢字コードが特定できそうだなと言う時のみ 変換することになっている。

これまでのログを試して見ると、 古いやつだと漢字コードのヒントがないため、 ほっとく(文字化けのまま)やつがあるのに対し、 新しいやつは見る範囲ですべて正しく変換できているようだ。

apacheのエスケープする"\x16進数"もデコードし、 適当にEUC-JPに変換するパッチを作り、 これを含めたパッケージ (こっちはソース) を作成した。