2008-11-27

携帯の絵文字のUnicodeへの収録

I18N

先ほど，日本の携帯で使われている「絵文字」のUnicodeへの収録を検討していることと，そのためのデータがGoogleのブログで発表された．詳細は以下を見て頂きたい．
Emoji for Unicode: Open Source Data for the Encoding Proposal（Google Code）
Googleの日本語ブログでも，もうすぐ日本語訳（？）を公開するそうである（追記：公開された．）．この案は，将来的にISO/IEC JTC 1/SC 2に提案することになると思われる．
この提案で誤解して欲しくないことは，この提案は，既存の携帯の変更を伴わないことである．つまり，この提案は，例えばGmailのような複数の携帯キャリアの絵文字を扱わねばならないシステムを意図したものであり，従来私用領域（Private Use Area）に割り当てていた文字を正式に符号化すると共に，その相互変換のためのマッピングも定義する．これらのツール類やデータは無償で公開される予定である．
この作業で一番難しいのは，各キャリアの絵文字の対応付けであろう．これに関してはかなり苦労したようだが，基本的に一意に決定するのが難しく，現在同様な目的のために各社で使われている変換表も必ずしも同一ではない．日本では，直接仕事に影響がある開発者は多いので，ぜひレビューして，その結果を彼らにフィードバックして頂きたい．どうかよろしく．

2008-11-27

絵文字の符号化は何が難しいのか？

I18N

安岡先生から，さっそく「以前『ケータイの絵文字と文字コード』(情報管理, 2007年5月)を書いたときに、ざっと対応表を作りかけて、結局、挫折した覚えがあるんですけど…。だって、動く絵文字があるんですもの。」という素晴らしい的確な突っ込みが入った．実は，絵文字の符号化にはいくつかの難しい問題がある．それをざっと列挙してみよう．

各キャリアの絵文字はほぼ独立に開発されているので，必ずしも一対一対応していないし，冗長性があるし，round trip conversionが定義できない場合もある．同一キャリアに対してround trip conversionを定義するのは容易だが，キャリア間の変換を定義するのは難しい．
絵文字はUnicodeでは私用領域（Private Use Area）に割り当てられている．
絵文字はアニメーションするものがある（爆）
絵文字には色の区別がある．しかし，今まで標準化された文字集合には「色」という概念がない．
絵文字には丸や四角で囲まれた囲み文字が多い．これをUnicodeでどう扱うか？文字合成？
実はこっそり一般公開されていない絵文字も使われており，その中には企業の商標も含まれている．

なお，今回の試みの背景には，デコメールなどの技術の登場で今後は文字ではなく画像として扱えるようになったので，絵文字はすでにopen character setではなくなったという仮定がある．
Unicode Consortiumで現在携帯の絵文字について議論しているのは「The UTC Subcommittee on Encoding of Symbols」である．彼らがどのように対応しようとしてるかに興味がある人は，Googleが公開したページから辿れる，次の符号化方針のページを読んで頂きたい．
Emoji/ARIB Symbols Encoding Principles (Rough Draft)
この問題に彼らがどのように対処しようとしているかを理解しておけば，彼らのデータやコードを評価するのに役立つだろう．