検索の文字コードの分布の話
webalizerの検索語の表示に関連して、
このサイト(tyche.pu-toyama.ac.jp)に来る検索を調べてみたので、
ここに記録として書いておくことにする。
基本データ
- 調査期間: 2003/9/1-2003/11/31の3ヶ月分
- データ数: 1658件 (全アクセス88601件からリファラーを元に抽出)
www.google.co.jp
852件
- ie=UTF-8のもの: 795件
普通に対処可能
「http://www.google.co.jp/search?q=%E6%B5%A6%E5%B3%B6%E6%99%BA&ie=UTF-8&oe=UTF-8&hl=ja&lr=」
- ie=utf-8のもの: 3件
大文字小文字を区別しなければそれでOK
「http://www.google.co.jp/search?q=%E3%82%B8%E3%83%96%E3%83%AA%E3%80%80%E3%83%A4%E3%83%9E%E3%83%88%E9%81%8B%E8%BC%B8&sourceid=mozilla-search&start=0&start=0&ie=utf-8&oe=utf-8」
- ie=Shift_JISのもの: 43件
普通に対処可能
「http://www.google.co.jp/search?hl=ja&ie=Shift_JIS&c2coff=1&q=%83%7D%83%8B%83%60%83L%83%83%83X%83g%81@%8Aw%8Em%98_%95%B6&lr=」
- その他: 11件
- URLエンコーディングでShift_JISかASCII: 10件
「ie=」がなく、「hl=ja」がある。
「http://www.google.co.jp/search?q=%83u%81%5B%83r%81%5B%82%CC%88%D3%96%A1&hl=ja&btnG=Google%8C%9F%8D%F5」
- こんなの: 1件
「http://www.google.co.jp/search?num=50&lr=lang_ja&q=\x8f\xac\x97\xd1\x91\xf1\x90\xb6
」
www.google.com
285件
- ie=UTF-8のもの: 128件
「http://www.google.com/search?hl=ja&ie=UTF-8&oe=utf-8&q=grub+%E3%83%95%E3%83%AD%E3%83%83%E3%83%94%E3%83%BC%E3%80%80xfs&btnG=Google+%E6%A4%9C%E7%B4%A2&lr=」
- ie=utf-8のもの: 18件
「http://www.google.com/search?q=%E5%AF%8C%E5%B1%B1%E7%9C%8C%E7%AB%8B%E5%A4%A7%E5%AD%A6+%E3%82%BD%E3%83%95%E3%83%88%E3%82%A6%E3%82%A7%E3%82%A2%E5%B7%A5%E5%AD%A6%E8%AC%9B%E5%BA%A7&sourceid=opera&num=0&ie=utf-8&oe=utf-8」
- ie=Shift_JISのもの: 52件
「http://www.google.com/search?hl=ja&ie=Shift_JIS&q=grub+%8F%91%82%AB%95%FB&btnG=Google+%8C%9F%8D%F5&lr=lang_ja」
- それら以外のieがあるもの: 3件
「eucjp」「ISO-8859-1」「utf8」だが、
すべて検索語はASCIIである。
「http://www.google.com/search?lr=lang_ja&hl=ja&ie=eucjp&oe=eucjp&q=wol+Linux」
- それ以外: 84件
- URLエンコーディングでShift_JIS: 7件
「http://www.google.com/search?num=100&hl=ja&lr=lang_ja&q=TFTP+%83C%83%93%83X%83g%81%5B%83%8B+RedHat9」
- URLエンコーディングでASCII: 34件
「http://www.google.com/search?num=100&hl=ja&lr=lang_ja&q=WOL+linux」
- URLエンコーディングでEUC-JP: 1件
「http://www.google.com/search?q=redhat9+%A5%CD%A5%C3%A5%C8%A5%EF%A1%BC%A5%AF%A5%A4%A5%F3%A5%B9%A5%C8%A1%BC%A5%EB&hl=ja&btnG=Google+%B8%A1%BA%F7」
- URLエンコーディングでないもの: 42件
すべてShift_JIS
「http://www.google.com/search?num=50&lr=lang_ja&q=p2p%20\x8fC\x98_」
search.yahoo.co.jp
213件
すべてURLエンコーディングでEUC-JPかASCII
「http://search.yahoo.co.jp/bin/query?p=%a5%d6%a1%bc%a5%d3%a1%bc%a4%c8%a4%cf&hc=0&hs=0」
websearch.yahoo.co.jp
174
すべてURLエンコーディングでEUC-JPかASCII
「http://websearch.yahoo.co.jp/bin/query?p=%b2%c3%c6%a3%cd%a7%ce%a4&hc=0&hs=0」
search.msn.co.jp
34件
- URLエンコーディングでShift_JISかASCII: 10件
必ずcp=932が付く
「http://search.msn.co.jp/results.asp?FORM=msnh&v=1&RS=CHECKED&CY=ja&cp=932&q=%8B%7B%93%FC%81@%94%FC%98a」
- URLエンコーディングでUTF-8かASCII: 24件
「http://search.msn.co.jp/spresults.aspx?q=%E7%A8%B2%E7%94%B0%E5%81%A5%E5%BF%97&FORM=IE4」
cgi.search.biglobe.ne.jp
15件
すべてEUC-JPかASCII
「http://cgi.search.biglobe.ne.jp/cgi-bin/search-st_lp?q=%A5%D6%A1%BC%A5%D3%A1%BC%A4%C8%A4%CF&num=10&start=0」
web.archive.org
14件
「http://web.archive.org/web/20011213080848/http://tyche.pu-toyama.ac.jp/index.html」
こんなのも含めるべきか?
www.infoseek.co.jp
6件
すべてEUC-JP
「http://www.infoseek.co.jp/OTitles?svx=460100&nh=10&nc=1&col=OW&qt=%A5%D6%A1%BC%A5%D3%A1%BC%BE%DE+%B0%D5%CC%A3&qp=0」
search.nifty.com
6件
- URLエンコーディングでie=euc-jpだけど、Shift_JIS: 2件
「http://search.nifty.com/cgi-bin/search.cgi?lr=lang_ja&hl=ja&client=nifty&ie=euc-jp&oe=utf-8&output=xml_no_dtd&adsafe=medium&ad=w3&gl=ja&adtest=off&Text=p2p%20%91%E5%8Aw%81%40%8C%A4%8B%86&stpos=20&funcno=1&select=1」
- URLエンコーディングでie=は無く、Shift_JISかASCII: 4件
「http://search.nifty.com/cgi-bin/search.cgi?cflg=%8C%9F%8D%F5&Text=%95x%8ER%8C%A7%97%A7%91%E5%8Aw&select=2&Submit=%8C%9F%8D%F5」
search.goo.ne.jp
5件
すべてEUC-JPかASCII
「http://search.goo.ne.jp/web.jsp?MT=%CF%C0%CA%B8%B8%A1%BA%F7&SM=MC&DC=10&DE=2&FR=150&WTS=ntt&CK=1」
www.excite.co.jp
4件
すべてShift_JIS
「http://www.excite.co.jp/search.gw?search=%83%5C%83t%83g%81@%8DH%8Aw&look=zaurus_jp&lang=all&target=web&collection=web&start=0&showSummary=true&perPage=10&next=%8E%9F%82%CC%8C%8B%89%CA」
IPアドレスのもの
14件
10 216.239.57.104
3 216.239.33.104
3 216.239.39.104
4 216.239.53.104
1 216.239.41.104
すべてgoogleのキャッシュからの参照で、
URLエンコーディングのUTF-8。
すべてie=UTF-8が付く。
「http://216.239.39.104/search?q=cache:782jNxcM8rUJ:tyche.pu-toyama.ac.jp/~a-urasim/pxegrub.html+PXE%E3%81%A8%E3%81%AF&hl=ja&ie=UTF-8」
4 210.150.25.33
gooのキャッシュからの参照。
URLエンコーディングでEUC-JP。
その他
25件
2 www.google.co.in
両方ie=UTF-8でASCII
2 www.google.de
ie=ISO-8859-1とie=UTF-8で両方ASCII。
1 aolsearch.jp.aol.com EUC-JP
1 apple.excite.co.jp Shift_JIS
1 ocnsearch.goo.ne.jp EUC-JP
1 search.fresheye.com EUC-JP
1 search.jp.aol.com UTF-8
1 search.virgilio.it ASCII
1 search.yahoo.com ASCII(ei=UTF-8)
1 so-net.excite.co.jp ASCII(lang=jp)
1 www.dogpile.com 「http://www.dogpile.com/info.dogpl/search/web/pxegrub」
1 www.google.at ASCII(ie=UTF-8)
1 www.google.ca ASCII(ie=ISO-8859-1)
1 www.google.ch ASCII(ie=UTF-8)
1 www.google.co.th ASCII(ie=UTF-8)
1 www.google.com.au ASCII(ie=UTF-8)
1 www.google.com.br ASCII(ie=UTF-8)
1 www.google.com.tw ASCII(ie=UTF-8)
1 www.google.dk ASCII(ie=UTF-8)
1 www.google.fi ASCII(ie=UTF-8)
1 www.google.fr ASCII(ie=UTF-8)
1 www.google.it ASCII(ie=UTF-8)
1 www.google.nl ASCII(ie=UTF-8)