漢字文献情報処理研究 第5号

漢字文献情報処理研究会が出している雑誌.

http://www.jaet.gr.jp/

以前に師さんに第4号を献本して頂いたのだが,あまりに面白くて,すぐバックナンバーを全部注文してしまったのだが,うっかりしているうちに最新号が出ていた(年一回).

何がよいかというと,一つは計算機技術者からはよくわからない,人文学者から見た実際の多言語テキスト処理の例が豊富に出ていることだ.つまり,この書籍は,計算機技術者と人文学者…これはアルゴリズムと実例とも言い換えられるかもしれないが…の間に位置する貴重な情報なのだ.また,WebブラウザMS Officeなどで文字(例えば,漢字拡張Bとか)がうまく処理できるかどうかも,常に調査している点でも貴重である.

ただし,私の会社でこの雑誌を読んでいるのは,この雑誌に執筆していてISO/IEC 10646の標準化委員でもあるK氏と私くらいじゃないかと思う(苦笑)

今回の特集の一つは,WikiWeblogUnicode対応させたり,中国語の小説や授業の資料を掲載したりするのだからすごい.こういうのを,しっかりやられているのも見ると感動する.

もう一つは,N-gramによる漢字文献の分析だが,以前にも書いたようにテキストの統計解析は多くの可能性を秘めているが,ここに掲載されている記事でも,K特性値によって儒家墨家などの額は学派別の特徴を導き出されるのが面白い.最近のWired Newsにあった,ある本に特徴的な表現を統計的に抽出(こちらは英語なので,単語ないしはフレーズ単位)するのと同じ着眼点で,より有効な応用も考えられそうである.

http://hotwired.goo.ne.jp/news/business/story/20050511102.html