[I18N] Java Modified UTF-8

最近Unicode MLで,Java Modified UTF-8の話題が出ている.


http://java.sun.com/j2se/1.5.0/docs/api/java/io/DataInput.html#modified-utf-8


うーん,彼らの言いたいこともわかるが,これはJSR-204で私が指摘して議論済だ.もちろん,UTF-8との互換性の欠如とか,Surrogate Pairが6バイトになってしまうという問題はあるのだが,そもそもこのクラスは一般のプログラムで直接使うことはありえないし,クラスファイルや直列化されたオブジェクトの互換性を保持するためには変更するわけにはいかない.


まだ使用されていないうちに変更してしまうという考えもあったが,すでにそれを前提にデータを作っているメーカーがあったので,もう変更することはできなかった.まったく違う名前に変える案もあったのだが,それも難しかった.とりあえず,NorbertやMarkが何も言わなければ,私も静観するとしよう.


なお,JSR-204のAPI設計に関する細かい話は,シンポジウム「文字情報処理のフロンティア: 過去・現在・未来」でも話したので,興味がある人は資料を見て頂きたい.


http://kura.hanazono.ac.jp/kanji/20040609symposium.report.html