絵文字の符号化は何が難しいのか?

安岡先生から,さっそく「以前『ケータイの絵文字と文字コード』(情報管理, 2007年5月)を書いたときに、ざっと対応表を作りかけて、結局、挫折した覚えがあるんですけど…。だって、動く絵文字があるんですもの。」という素晴らしい的確な突っ込みが入った.実は,絵文字の符号化にはいくつかの難しい問題がある.それをざっと列挙してみよう.

  1. 各キャリアの絵文字はほぼ独立に開発されているので,必ずしも一対一対応していないし,冗長性があるし,round trip conversionが定義できない場合もある.同一キャリアに対してround trip conversionを定義するのは容易だが,キャリア間の変換を定義するのは難しい.
  2. 絵文字はUnicodeでは私用領域(Private Use Area)に割り当てられている.
  3. 絵文字はアニメーションするものがある(爆)
  4. 絵文字には色の区別がある.しかし,今まで標準化された文字集合には「色」という概念がない.
  5. 絵文字には丸や四角で囲まれた囲み文字が多い.これをUnicodeでどう扱うか?文字合成?
  6. 実はこっそり一般公開されていない絵文字も使われており,その中には企業の商標も含まれている.

なお,今回の試みの背景には,デコメールなどの技術の登場で今後は文字ではなく画像として扱えるようになったので,絵文字はすでにopen character setではなくなったという仮定がある.
Unicode Consortiumで現在携帯の絵文字について議論しているのは「The UTC Subcommittee on Encoding of Symbols」である.彼らがどのように対応しようとしてるかに興味がある人は,Googleが公開したページから辿れる,次の符号化方針のページを読んで頂きたい.
Emoji/ARIB Symbols Encoding Principles (Rough Draft)
この問題に彼らがどのように対処しようとしているかを理解しておけば,彼らのデータやコードを評価するのに役立つだろう.