I18N

Unicode Standard 4.0翻訳打ち合わせ

ぎりぎりまで会社で論文を書き,タクシー+電車で共立出版へ.まだ未翻訳部分が残っているが,下訳はそろそろ終わりが見えてきた感じ(残りの二割は私(苦笑)).ただ,校正が地獄のような作業になると思われる.面白いのは,ほとんどみんながMac(iBook or…

漢字文献情報処理研究 第5号

漢字文献情報処理研究会が出している雑誌.http://www.jaet.gr.jp/以前に師さんに第4号を献本して頂いたのだが,あまりに面白くて,すぐバックナンバーを全部注文してしまったのだが,うっかりしているうちに最新号が出ていた(年一回).何がよいかというと…

人名用漢字

川端さんに無理を言って「東洋学へのコンピュータ利用第16回研究セミナー」の予稿集を送ってもらった(その代わりに,彼の部署の新人の研究テーマのアドバイザになっているのだ).これは,結構面白い発表ばかりなのだが,とりあえず今日話題にするのは,「…

桃井勝彦さん

どうも,Googleに転職したのではないか…という噂.桃井さんは,初期のころのNetscape Navigatorの愛用者だったが,その日本語処理のひどさを自分で直そうと,なんと自分からNetscape社に入社してしまったのだ.その後,国際化チームの主要なメンバーとして,…

XML日本語プロファイル改訂

改訂された.http://www.w3.org/Submission/2005/SUBM-japanese-xml-20050324/今回は私も正式に名前が入っている.しかし,2003年3月に提出したので,二年間も掛かったなんて,ちょっと問題だよなあ.

Norbertのblog

こ,こんなところに載ってしまいました…(苦笑)http://blogs.sun.com/roller/page/norbert/20050309#inventor_of_the_dukelele

Authoring Techniques for XHTML & HTML Internationalization: Specifying the lang?uage of content 1.0

ドラフトが更新された.http://www.w3.org/TR/i18n-html-tech-lang/

Language tags in HTML and XML

言語タグに関するドキュメントが更新された.言語タグに関する最新の議論が,反映された模様.http://www.w3.org/International/articles/language-tags/

Character Model for the World Wide Web 1.0: Fundamentals

W3Cから,勧告として公開された.http://www.w3.org/TR/charmodプレスリリースはここ.http://www.w3.org/2005/02/charmod-pressrelease

IDN問題

最近のIDN問題で,Unicode MLはここのところずっと議論が爆発中.さまざまな議論がおこなわれているだけでなく,ついにUnicode Consortiumも動き出しているらしい.しかし,JPRSは次のように声明を出している…が,これは現実のいくつかの問題を意図的あるい…

RFC3987 & RFC3986

"Internationalized Resource Identifiers (IRIs)"がRFC 3986に,Uniform Resource Identifier (URI): Generic Syntax)が,RFC3986になった. http://www.ietf.org/rfc/rfc3987 http://www.ietf.org/rfc/rfc3986

An Introduction to the Semantic Web -Considerations for building multilingual Semantic Web sites and applications-

セマンティックWebサイトやアプリケーションの多言語化の記事.アーキテクチャのさまざまなレベルで,異なる言語や文化に関する情報をどのように扱えばよいのかについて,ざっと述べている. http://www.multilingual.com/FMPro?-db=archives&-format=ourpub…

An Introduction to Multilingual Web Addresses

GEOワーキンググループが,"An Introduction to Multilingual Web Addresses"という記事を公開した. http://www.w3.org/International/articles/idn-and-iri/ な,なんだ,"http://ヒキワリ.ナットウ.ニホン"ってのは…(笑)

Unicode 4.1.0 Beta

Unicode 4.1.0のベータ版のレビューが1月31日で終了する.現在は,次のページから公開している. http://www.unicode.org/versions/Unicode4.1.0/

Internationalization Activity

W3CがInternationalization Activityを再立ち上げしたらしい. http://www.w3.org/International/ たとえば,以前はI18N Interest Groupはクローズドだったが,これが公開され,メーリングリストもwww-internationalと一本化されたようだ.

新トルコリラ

トルコでは1月からデノミネーションを実施し,100万トルコリラが1トルコリラになるように貨幣単位を切り替え,さらに1トルコリラより小さい単位としてクルシェ(kurus)を導入したらしい. Naoto Satoのblogに,Javaでこのデノミネーションにどのように対応…

I18N BOF at JavaOne 2005

Norbert Lidenbergが,彼のblogで,今年のJavaOneのBOFで何を聞きたいかについてのコメントを募集している. http://blogs.sun.com/roller/page/norbert/20050105 kyukaが英訳するので,日本語で書き込んでもかまわないとのこと.ただ,blogソフトウェアのRo…

Rob 'Commander' Pike

…で,以前紹介したUTF-8ヒストリー.この著者も,Rob Pike. http://www.cl.cam.ac.uk/~mgk25/ucs/utf-8-history.txt それにしても,'Commander'って格好いいな.私もミドルネームを付けようかな….

java.sun.comの日本語のドキュメントの扱い

うっかり見のがしていたが,Norbertのblogが更新されていた.今回は,英語以外のJavaドキュメントとその検索の話. http://blogs.sun.com/roller/page/norbert/20041203 実は,すでにjava.sun.comの検索では,英語以外も検索できるように拡張されている.し…

一太郎2005 & ATOK 2005 for Windows

XML MOJI MLの投稿によると,一太郎がExtension-Bに対応したらしい. http://www.ichitaro.com/2005/taro/toku01.html http://www.atok.com/2005/?i=&p=one

Arial Unicode MS

Unicode MLで,WindowsにArial Unicode MSと呼ばれる,Unicodeの多くの文字を含んでいるフォントがあり,これがなぜ継続開発されないのか?という質問があり,MSとAppleのエンジニアが次のように回答していたので,書き留めておく. 現在のUnicodeの収録文字…

Unicodeの正規化

kyuka様のリクエストにより,Unicodeの正規化の話を(遅れてすみません).真面目に書くと論文になってしまいそうなので,ほんのさわりだけだが. Unicodeは,ある文字を表すUnicode文字シーケンスがユニークに決まるとは限らない.たとえば,アクセント付き…

HTMLのNumeric character references

HTMLには,文字をコードポイントで表す数値文字参照(numeric character references)がある.昨日の飲み会で,Tさんから,NTT DoCoMoの絵文字(ここですでにピンとくる人がいるだろう(苦笑))を数値実体参照で記述すると,あるプロダクトではUTF-8シーケン…

小形克宏の「文字の海、ビットの舟」特別編2

今回は,「 JIS X 0213の改正は、文字コードにどんな未来をもたらすか(9) 改正の影響:フォントデザインを変更しないアップルコンピュータの真意(上)」である. http://internet.watch.impress.co.jp/www/column/ogata/sp26.htm 日本語の文字は,情報処…

組織票の是非

java.sun.comのBug DatabaseのTop 25 RFE(機能拡張要求)を見ている人はいるだろうか?実は,今ダントツで一位なのは,"Provide documentation in Chinese"であり,今日の時点で1447票. http://bugs.sun.com/bugdatabase/top25_rfes.do 5.0の開発時点はどう…

文字化け (mojibake)は世界共通?

Norbertのblogに,blogs.sun.comの文字化けの問題の話が書いてあるが,題名からして"Mojibake on blogs.sun.com",そして本文中にも日本語で「文字化け」という言葉が踊っている.もうmojibakeは世界共通の言葉になったのかもしれない! http://blogs.sun.co…

Java Modified UTF-8その後

みんな勝手なことを言って盛り上がっていたが,ついに大御所のNobert LindenbergとMark Davisが出てきた. Norbertは,コメントに注意書きを入れるのは良いアイデアだが,deprecatedにはしないと発言. Markは,この話は毎年繰り返されるとうんざりした出だ…

UTF-8 History

Unicode MLで,まだJava Modified UTF-8の議論は続いているのだが,その中にUTF-8の発展の歴史に関する情報があったので,紹介しておこう. http://www.cl.cam.ac.uk/~mgk25/ucs/utf-8-history.txt 今ではPlan 9はどうなっているのだろうと思ったが,まだ結…

Norbertのblog

Javaの国際化のテクニカルリードのNorbert Lindenbergが,"Multilingual Font Rendering"というタイトルでblogを更新していた.http://blogs.sun.com/roller/page/norbert/20041108 いわゆる文字化けの一種である「文字が豆腐になる」=「指定されたフォント…

文字符号化検出と言語検出

ちょうどW3Cのwww-international MLで,character encoding detectionとlanguage detectionの話が出ていた. たとえば,WebのHTMLファイルを処理しようとしても,必ずしもどのような文字符号化なのか,どのような言語なのかが明示されているわけではなく,し…