常用漢字表のUnicode補助文字問題

京大の安岡先生が常用漢字表Unicode補助文字(Unicode Supplementary Character)の領域に割り当てられている文字がレガシーなシステムでうまく扱えないことを問題にしている.
どうして常用漢字表を改定するハメになったのか(yasuokaの日記)
まあ,Shift-JISや日本語EUCを使って実装しているシステムで扱えないのは当然だが,Unicodeを使っているシステムでも正しく扱えるとは限らない.というのは,Unicode補助文字というのは,U+10000〜U+10FFFFの領域に符号化されており,UTF-16ではサロゲートペアを使って表現され,UTF-8では4バイトに符号化されるからだ.文字がU+0000〜U+FFFFだけにあることを前提に実装された古いシステムでは,何が起こるかわからない.この辺は,我々がJava言語に対しておこなった話が参考になるとおもう.
Java プラットフォームにおける補助文字のサポート
安岡先生の日本のサーチエンジンの調査結果によると,正しく扱えるのはUnicode Consortiumの偉い人達がごっそり移ったGoogleだけらしい(笑)
4バイトのUTF-8と検索サイト(yasuokaの日記)
我々が作業していたころも,はっきり言ってほとんどの日本人が他人事だった(爆)しかし,個人的見解としては,文字は使えるようになったらどんどん使われ,その流れを止めることはできないので,遅かれ早かれ既存のシステムが破綻するのは時間の問題だと思っている.それなら,2000年問題と同様に日本の情報産業が直面している重要な問題として,前向きに解決していく方がよいのではないだろうか?
現在のバージョンのMySQLが対応していなくても,それは今までこの手の問題を解決するために何度も行って来た方法を使う…つまり単にパッチを作って送って,日本人開発者みんなでプッシュすればよいのではないかと思っている.
MySQLの改定常用漢字表対応が危うい件(@檸檬の家)
蛇足だが,安岡先生はワープロの絵文字を調査中である.もし,手元に古いワープロのマニュアルがあれば,ぜひその絵文字部分をスキャンして安岡先生に送ってあげて欲しい.どうかよろしく!
ワープロの絵文字(yasuokaの日記)