Web上でついにUnicodeがASCIIを越える

Mark Davisのブログの記事「Moving to Unicode 5.1」によると,Web上で使われる文字符号化の割合として,UTF-8が,ASCIIやISO-8859-1/CP-1252を越えたらしく,その様子がErik von der Poelが作成したグラフでわかる.
すでに,かなり前から既にOSやシステムの内部で用いる文字符号化はUnicode化されていたのだが,しばらくは外部との情報交換は以前としてShift-JISや既存の文字符号化を用いることが多かったし,未だにUnicode化されたことを気が付いていないユーザも多いだろう.しかし,少なくともWebに限れば,Unicode化されたシステムの普及により外部との情報交換もUnicodeでおこなうようになったことと,英語圏以外から発信される情報が増えていることが複合した結果だろう.まあ,文字符号化判定アルゴリズムや言語比率(Googleは文字符号化判定に加えて言語判定もおこなっている)がわからないと詳しいことは言えないのだが(たとえば,システムがUTF-8と宣言しても,US-ASCIIと同じ文字しか使っていない場合には,どちらにカウントされているかとか).
なお,彼が示したグラフを見ると,US-ASCIIが占める割合は2001年以降は単調現象であるが,ISO-8859-1/CP-1252は2005年あたりをピークに減少しているのが面白い.そのために,どちらもほぼ同時期でUnicodeに抜かれている.
ただし,次の記事の以下の文章は必ずしも正しくないことに注意して欲しい.
ウェブで利用される文字コード、UnicodeがASCIIを上回る--グーグルが明らかにCNET Japan

ASCIIと比べたときのUnicodeの短所としては、ローマ字を格納するのに2倍のメモリ容量を必要とする点が上げられる。これはUnicodeがより多くの文字記号に対応するため、文字をより多くのバイト数で表現するためである。

つまり,Unicodeという符号化文字集合(Character Encoding Set)の実際のメモリ表現は,どのような文字符号化スキーム(Character Encoding Scheme)を使用するかによってはじめて決定される.たとえば,UTF-16Unicode文字を16ビット単位の1〜2文字で表現する)ではASCII文字は2バイトだが,UTF-8(Unicode文字を8ビット単位の1〜4文字で表現する)では1バイトである.つまり,計算コストはまだしも,必ずしもメモリ容量的に不利であるとは限らないのだ.
追記:ちょうど今月の"Communications of the ACM"に"Web Searching in a Multilingual World"という少し関連する内容の解説記事が掲載されていた.この記事によると,2000年から2007年の間にラテン・アメリカのオンライン人口は577.3%,中東は920.2%になっているらしい.また,中国の登録ドメイン数は一年で137.5%になり,現在ではWeb上で2番目によく使われている言語になっているらしい.なお,アラビア語は22か国・2億8400万人で話され,世界で5番目によく使われている言語なのだが,Web上ではまだまだ少なく,わずか1%程度に過ぎないとか.