Appleのインターン募集

Appleの木田泰夫氏(私の義兄である)のブログによると,Appleインターンを募集しているそうである.
インターン募集(蕎麦処 ぱろある亭)
木田泰夫氏は,学生時代はファミコンテトリスの販売で有名なBPSというゲーム会社の初期のオリジナルゲーム(「ブラックオニキス」や「ファイヤークリスタル」の頃),PC-9801系のデモプログラムやTRON OSのデバイスドライバなどのプログラマとして活躍し,東大を卒業してAppleに入社してからはMaciPhoneのインプットメソッド(「ことえり」),日本語形態素解析エンジン,検索システム,フォント(「ヒラギノ」)など,Appleのプロダクトで「日本人にとって不可欠なほとんどすべての部分」の開発や,Unicode StandardのVariation Selector・絵文字などの仕様に関わった・関わっている著名な人物である.
現在(技術的に)面白い&サーバサイドで有力な企業と言えばGoogleだろうが,それに対して(コンセプト的に)面白い&コンシューマデバイスで有力な企業と言えばAppleだと思う.日本のメーカが特にソフトウェア分野においてじり貧な今,実力がある自然言語処理分野の学生は,ぜひ一度Appleインターンに応募してはどうだろうか?実際に就職するかどうかは別として,非常に貴重な体験になることは間違いない.
なお,彼はクパティーノ(=Apple本社)勤務だが,東京でインターンをすることも可能らしいので,英会話能力についてはなんとかなるのではないかと思う(もちろん,彼の傍らでインターンをした方が,はるかにエキサイティングだ!).
…もしかすると,君のアイデアが次期iPhone OSやMac OS Xに採用されるかも….

携帯の絵文字の符号化の提案のパブリックレビュー開始

以前にお伝えした携帯の絵文字の符号化の提案だが,ついに2009年2月のUTCミーティングに向けてのパブリックレビューを開始した.詳しくは,GoogleグループのMarkus Schererの次の投稿を見て頂きたい.
"Emoji: Public Review December 2008"Googleグループ "emoji4unicode"
コメントの〆切は2009年1月14日(水)である.この主なターゲットはUnicodeコンソーシアムメンバーなのだが,他にも絵文字の符号化に興味,関心,利害のある人々にぜひ積極的にフィードバックして欲しいそうである.ぜひ,日本のみなさんにも積極的にこの提案を評価・検討して頂くことをお願いしたい.フィードバック方法は,Googleグループの"emoji4unicode"に投稿して頂くだけでよい(できる限り全員が読める英語の方がよいが,関係者に日本人もいるのでどうしても難しければ日本語でもかまわないと思う).
なお,現在の絵文字表は以下の通りであり,そのチェックポイントもMarkusのメールに書かれている.
"Table for Working Draft Proposal for Encoding Emoji Symbols"
なお,ここで注目したいのは,次の一文である.

The Unicode/UTC Subcommittee on Encoding of Symbols is working on a proposal for the encoding of emoji symbols in the Unicode Standard and in ISO 10646, with active participation by Google, Apple, Microsoft and others.

つまり,実はこの提案やフォント作成などの実作業には,Googleに加えてAppleMicrosoftも積極的に関わっていることが示されている.

絵文字の符号化は何が難しいのか?

安岡先生から,さっそく「以前『ケータイの絵文字と文字コード』(情報管理, 2007年5月)を書いたときに、ざっと対応表を作りかけて、結局、挫折した覚えがあるんですけど…。だって、動く絵文字があるんですもの。」という素晴らしい的確な突っ込みが入った.実は,絵文字の符号化にはいくつかの難しい問題がある.それをざっと列挙してみよう.

  1. 各キャリアの絵文字はほぼ独立に開発されているので,必ずしも一対一対応していないし,冗長性があるし,round trip conversionが定義できない場合もある.同一キャリアに対してround trip conversionを定義するのは容易だが,キャリア間の変換を定義するのは難しい.
  2. 絵文字はUnicodeでは私用領域(Private Use Area)に割り当てられている.
  3. 絵文字はアニメーションするものがある(爆)
  4. 絵文字には色の区別がある.しかし,今まで標準化された文字集合には「色」という概念がない.
  5. 絵文字には丸や四角で囲まれた囲み文字が多い.これをUnicodeでどう扱うか?文字合成?
  6. 実はこっそり一般公開されていない絵文字も使われており,その中には企業の商標も含まれている.

なお,今回の試みの背景には,デコメールなどの技術の登場で今後は文字ではなく画像として扱えるようになったので,絵文字はすでにopen character setではなくなったという仮定がある.
Unicode Consortiumで現在携帯の絵文字について議論しているのは「The UTC Subcommittee on Encoding of Symbols」である.彼らがどのように対応しようとしてるかに興味がある人は,Googleが公開したページから辿れる,次の符号化方針のページを読んで頂きたい.
Emoji/ARIB Symbols Encoding Principles (Rough Draft)
この問題に彼らがどのように対処しようとしているかを理解しておけば,彼らのデータやコードを評価するのに役立つだろう.

携帯の絵文字のUnicodeへの収録

先ほど,日本の携帯で使われている「絵文字」のUnicodeへの収録を検討していることと,そのためのデータがGoogleのブログで発表された.詳細は以下を見て頂きたい.
Emoji for Unicode: Open Source Data for the Encoding ProposalGoogle Code)
Googleの日本語ブログでも,もうすぐ日本語訳(?)を公開するそうである(追記:公開された.).この案は,将来的にISO/IEC JTC 1/SC 2に提案することになると思われる.
この提案で誤解して欲しくないことは,この提案は,既存の携帯の変更を伴わないことである.つまり,この提案は,例えばGmailのような複数の携帯キャリアの絵文字を扱わねばならないシステムを意図したものであり,従来私用領域(Private Use Area)に割り当てていた文字を正式に符号化すると共に,その相互変換のためのマッピングも定義する.これらのツール類やデータは無償で公開される予定である.
この作業で一番難しいのは,各キャリアの絵文字の対応付けであろう.これに関してはかなり苦労したようだが,基本的に一意に決定するのが難しく,現在同様な目的のために各社で使われている変換表も必ずしも同一ではない.日本では,直接仕事に影響がある開発者は多いので,ぜひレビューして,その結果を彼らにフィードバックして頂きたい.どうかよろしく.

第5回 ネットワーク生態学シンポジウム発表募集

来年の3/9(月)〜10(火)に,沖縄国際大学でネットワーク生態学シンポジウムを開催する予定で,一般セッションとポスター発表を募集している.詳しくは次のページを観て頂きたい.
http://www.jaist.ac.jp/~yhayashi/7th_webology/
今回の特別セッションは次の3つである.

  1. 「ネットワーク組織におけるオープンソース的開発の可能性」では,瀧田佐登子氏(Netscape社を経て,現在Mozilla Japan代表理事)に,オープンソース開発における組織構造やダイナミクスを語って貰う予定である.
  2. 「いまインターネットで何がおこっているのか」では,NTT東日本のフレッツ網を運用管理している水越氏,マルチエージェントを用いた柔軟なインター ネット運用アーキテクチャを研究開発している明石氏,ルータ・ファイアーウォール・侵入検知システムを製造・販売しているジュニパーネットワークスの河野氏を招いて,現実のインターネットについてネットワーク科学的始点から議論してもらうと思っている.
  3. マーケティング・ネットワークと社会ネットワーク分析」では,クチコミマーケティングを中心とした,社会ネットワークを活用したマーケッティングについて講演してもらう.

どれも結構面白いと思うし,何しろ開催場所が沖縄なので,興味がある研究者はぜひ投稿・参加を検討して欲しい.発表申し込み〆切は12/31である.

第84回人工知能学会 知識ベースシステム研究会 (SIG-KBS)発表募集

来年の1/29(木)〜30(金)に,NTT武蔵野研究開発センターで,今年も「Web情報処理」というテーマで人工知能学会 知識ベースシステム研究会を開催する予定である.興味がある人は,昨年一昨年の様子も見て頂きたい.

今年の招待講演は,筑波大学の藤井敦准教授に,「情報爆発時代のツールとしての知識検索技術」という題名でお願いした.藤井先生は平成14年度の天才プログラマー/スーパークリエータであり,たとえば辞典検索システムCycloneを開発・公開している.最近私が感銘を受けたのは,WWW2008の次の論文であり,近年GoogleYahoo!Microsoftなどの企業が持っている実データを使わないとなかなか難関会議に論文が通らなくなりつつあるが,藤井先生はNTCIRのデータを使って,彼らに勝るとも劣らないレベルの研究をしている.

  • Atsushi Fujii. Modeling Anchor Text and Classifying Queries to Enhance Web Document Retrieval. Proceedings of the 17th International World Wide Web Conference (WWW2008), pp.337-346, April 2008.(PDF)

理論と実践を兼ね備えた研究者と議論できる機会を,ぜひ逃さないで頂きたい.
発表申し込みの〆切は11/28(金)である.関連分野の研究者がいたら,ぜひ投稿・参加を検討して欲しい.

JavaOneのプレゼンテーション資料

エキスパートグループのAlan BatemanとCarl QuinnがJavaOneでJSR-203・NIO.2に関して喋った時の資料が公開されている.
http://openjdk.java.net/projects/nio/presentations/TS-5686.pdf
なお,このセッションに関する次の記事も公開されているので,参考にして頂きたい.
徐々に明らかになる次期New I/Oの姿 - JavaOne 2008マイコミジャーナル
私は残念ながら行けなかった(泣)のだが,AlanのQ&Aに関する報告に基づいて,簡単にコメントしておく(他のエキスパートからの重要な補足があれば,後から追記する).

  • この資料ではMIMEタイプの扱いが書かれていないが,java.nio.filesystems.Files#probeContentType()メソッドが用意されている.
  • この資料には書かれていないが,例外はIOExceptionのサブクラスとして,より詳細に分類されている.
  • ZIPファイルプロバイダは用意される.ただし,サンプルorデモ程度の品質.
  • チャネルの多重化のためのAPIは有用だが,現時点の我々のスコープには入っていない.
  • Carl QuinnとKevin BourrillionはNIO.2の JDK6サポートに関するプロジェクトを立ち上げようとしているらしい.

なお,上記記事に「従来のNew I/O APIは、仕様を作ったエキスパートグループ自らが未完成のものだったと語っているようにあまり使い勝手のよいものとは言えず、それほど普及していないのが現状だ。」とあるが,JSR-51では最初に様々な事項について方針と優先度を検討して,それをいつ実現するかを決めた.つまり単なる「未完成」ではなく「計画的に段階的に策定していく」というアプローチをとったのである.
たとえば,我々がJSR-51で一番最初に話し合った問題に「Completion vs. readiness」という問題があり,これは,非同期I/Oをどのようなスタイルで実現するかということであった.結局,readinessスタイルのAPIを最初に設計したのだが,この理由はreadiness APIをベースにその上にcompletion APIを作るのは簡単だが,逆はできないからである.そこで,JSR-51ではまずreadinessスタイルのAPIとしてjava.nio.channels.Selectorクラスを用意して,JSR-203で新たにcompletionスタイルのAPIとしてFutureオブジェクトとCallbackを用意したのだ.