第87回 知識ベースシステム研究会 (SIG-KBS) 参加について

1/29(金)に開催する研究会について,電話やメールで何件か問い合わせを頂いたので,FAQとしてまとめておく.

  • 参加登録は不要.当日会場に直接来た時に,参加表に記入してもらうだけです.
  • 参加費は無料.
  • 資料費は1,500円(人工知能学会の学生会員は無料).ただし,購入義務なし.招待講演の内容は収録されていない.正直な話35部しかないし,もし不要なら購入しないでください(苦笑)

招待講演に関してだが,Googleの日本のおける講演は今までは完全にエンジニアリング側に偏ったインフラや技術の話がほどんどだったが,今回はそのインフラや技術をアナリストが実際にどのように使っているかという,エンジニアリングとマーケティングの両方に関わる話だそうで,かなり興味深いと思う.同じ社内のエンジニアもよく知らない話なので,当日はGoogleの中の人も何人か参加するそうだ.
なお,特に懇親会はしないが,もし我々と一緒に呑みに行きたいという人がいれば,こっそりメールやコメントやTwitterで教えておいてくれるとよいかも(笑)

第87回 知識ベースシステム研究会 (SIG-KBS) 参加者募集

先日論文投稿をお願いした第87回 知識ベースシステム研究会だが,1/29(金)にNTT武蔵野研究開発センターで開催する.直前に発表が2件キャンセルされて8件になったので,一日開催に変更したが,お許し願いたい.
プログラムは以下を見て頂きたい.今回は「Web情報処理」特集であり,なかなか興味深い発表が集まったと思っている.
第87回 知識ベースシステム研究会 (SIG-KBS) プログラム
なお,先日お知らせしたように,今回はグーグルの内田誠氏による招待講演がある.

題名:「Google Marketingにおけるコンピューターサイエンスと統計学
講演者:内田誠(グーグル)
概要:
Googleには,Quantitative Marketingと呼ばれる,マーケティングのためのデータ分析を専門とするチームがあります.このチームは,メンバーのほとんどがコンピューターサイエンスもしくは数学・統計学のいずれか,もしくは両方をバックグラウンドとしており,様々なデータ分析のために,最新の計算機科学に基づくGoogleの計算機インフラを存分に利用するとともに,専門的な統計学の手法を活用することで,複雑なリサーチプロジェクトに取り組んでいます.この講演では,Googleマーケティングファンクションにおける”製品を作らないエンジニア・リサーチャー集団”としての役割と活動を,日常的に活用している技術や手法,課題などを中心として,いくつかの実際のプロジェクトの例を交えながら紹介します.

Quantitative Marketingは,広告主を増やすB2Bと,サービスのユーザベースを増やすB2Cがあり,それぞれかなり雰囲気が違うそうだが,内田氏は後者で,計算機科学の学位取得者だが,数学や統計学の学位取得者の中に混じって仕事をしている.このような「製品を作らないエンジニア・リサーチャー集団」の話をするのは,少なくとも日本では初めてではないかと思う.データマイニングの研究者や,企業でサービスを運用している技術者まで,さまざまな人に有用だろう.
なお,人工知能学会の研究会の参加費は無料で,資料の購入は必須ではない(そもそも部数があまり用意されていないし,彼の講演資料は掲載されていないので,招待講演だけの人は購入してくれない方が助かる),つまり無料で参加できるし,企業の人達の参加を考えて,講演時間を夕方に設定した.興味がある人はぜひ参加を検討して頂きたい.
なお,もし聞きたいことがあれば,コメントに書き込んでくれれば彼に伝えます.

常用漢字表のUnicode補助文字問題

京大の安岡先生が常用漢字表Unicode補助文字(Unicode Supplementary Character)の領域に割り当てられている文字がレガシーなシステムでうまく扱えないことを問題にしている.
どうして常用漢字表を改定するハメになったのか(yasuokaの日記)
まあ,Shift-JISや日本語EUCを使って実装しているシステムで扱えないのは当然だが,Unicodeを使っているシステムでも正しく扱えるとは限らない.というのは,Unicode補助文字というのは,U+10000〜U+10FFFFの領域に符号化されており,UTF-16ではサロゲートペアを使って表現され,UTF-8では4バイトに符号化されるからだ.文字がU+0000〜U+FFFFだけにあることを前提に実装された古いシステムでは,何が起こるかわからない.この辺は,我々がJava言語に対しておこなった話が参考になるとおもう.
Java プラットフォームにおける補助文字のサポート
安岡先生の日本のサーチエンジンの調査結果によると,正しく扱えるのはUnicode Consortiumの偉い人達がごっそり移ったGoogleだけらしい(笑)
4バイトのUTF-8と検索サイト(yasuokaの日記)
我々が作業していたころも,はっきり言ってほとんどの日本人が他人事だった(爆)しかし,個人的見解としては,文字は使えるようになったらどんどん使われ,その流れを止めることはできないので,遅かれ早かれ既存のシステムが破綻するのは時間の問題だと思っている.それなら,2000年問題と同様に日本の情報産業が直面している重要な問題として,前向きに解決していく方がよいのではないだろうか?
現在のバージョンのMySQLが対応していなくても,それは今までこの手の問題を解決するために何度も行って来た方法を使う…つまり単にパッチを作って送って,日本人開発者みんなでプッシュすればよいのではないかと思っている.
MySQLの改定常用漢字表対応が危うい件(@檸檬の家)
蛇足だが,安岡先生はワープロの絵文字を調査中である.もし,手元に古いワープロのマニュアルがあれば,ぜひその絵文字部分をスキャンして安岡先生に送ってあげて欲しい.どうかよろしく!
ワープロの絵文字(yasuokaの日記)

ことえりユーザ辞書からGoogle辞書への変換

ことえりのユーザ辞書からGoogle日本語入力の辞書フォーマットに変換するプログラムを作ってみた.使い方は以下の通り.

% javac DicConverter.java
% java DicConverter ことえりの辞書.txt Googleの辞書.txt

注意点は以下の通り.

  • ことえりのユーザ辞書は,ことえり単語登録を起動して,「テキストに書き出す…」メニューを選んでほしい.このときにテキスト形式はUnicodeにすること.
  • Google日本語入力では,「辞書ツール…」メニューで辞書ツールを起動して,「新規辞書にインポート…」または「選択した辞書にインポート…」を選んで欲しい.この時に,フォーマットはGoogleエンコードUTF-8にすること.
  • 品詞のマッピングは完全ではない.たとえば,「名詞」は「固有名詞」,「人名」は「姓」,「名」という指定もできるので,あとから適時変更して欲しい.

以下がソースコードだ.

import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.io.PrintWriter;
import java.util.HashMap;
import java.util.Map;
import java.util.Scanner;

public class DicConverter {
	Map<String, String> map;
	
	public DicConverter() {
		map = new HashMap<String, String>();
		map.put("普通名詞", "名詞");
		map.put("サ変名詞", "名詞サ変");
		map.put("人名", "人名");
		map.put("地名", "地名");
		map.put("形容詞", "名詞");
		map.put("形容動詞", "名詞形動");
		map.put("数字列接尾語", "助数詞");
		map.put("無品詞", "記号");
	}
	
	public void convert(String file1, String file2) throws IOException {
		Scanner scanner = new Scanner(new File(file1), "UTF-16").useDelimiter("\\s*,\\s*|\\r");
		PrintWriter writer = new PrintWriter(new OutputStreamWriter(new FileOutputStream(file2), "UTF-8"));
		while (scanner.hasNext())
			writer.format("%s\t%s\t%s\n", strip(scanner.next()), strip(scanner.next()), map.get(strip(scanner.next())));
		scanner.close();
		writer.close();
	}
	
	String strip(String s) {
		if (s.charAt(0) == '"' && s.charAt(s.length() - 1) == '"')
			return s.substring(1, s.length() - 1);
		return s;
	}
	
	public static void main(String[] args) throws IOException {
		new DicConverter().convert(args[0], args[1]);
	}
}

「「絵文字の議論は、これでいいのだろうか。」へのお答え」へのコメント

小形克宏氏は,残念ながら山本太郎氏が「絵文字の議論は、これでいいのだろうか。」で言いたかった真意を誤解しているように見える.
「絵文字の議論は、これでいいのだろうか。」へのお答え(もじのなまえ)
山本氏の指摘にもあるように,実は小形氏の発言の「攻撃的な」姿勢と事実と異なる推測は,すでにいろいろなところで問題にされている.例えば,GoogleUnicodeコンソーシアムは,本当に「世界征服を目論む陰謀組織」なのだろうか?(笑)
この原因は,小形氏が今回の事情を勘違いしていることにあると思っている.いつかは直接の関係者から真実が知らされると思っていたし,今まで得られた情報を分析すれば容易に気が付くだろうとも思っていたが,さしつかえないと思う程度まで事情を書くことにする.
今回の提案の大元は,Gmailの携帯絵文字対応である.これは,日本のキャリアや日本の携帯ユーザからの要望を受けて,Google Japanがおこなった仕事である.
モバイル Gmail が携帯絵文字に対応しましたGoogle Japan Blog)
この成果を,他の人も使えるようにしようという話が持ち上がり,日本人エンジニアがGoogleの20%ルールで始めたのである.この際に絵文字の標準化の話が持ち上がりUnicodeコンソーシアム関係者に協力してもらったり,同様にソフトバンクからiPhoneの絵文字サポートの強い要求を受けていたアップルがソフトバンクの絵文字を中心とした独自の提案を持ち寄って擦り合せたりしたのである.この辺の事情はGoogle Japan Blogにも書かれている(関係者の貢献をはっきりさせるためだろう)ので,公開されている情報だけで推測がついた人は多いだろう.
絵文字のユニコード符号化: 符号化提案用のオープンソースデータGoogle Japan Blog)
絵文字の Unicode 符号化に関するアップデートGoogle Japan Blog)
冷静になって考えて頂ければ,結局は日本のユーザとキャリアの要望を受けて,日本人エンジニア達が中心となって作業をおこなっていることがわかるはずだ.たとえば,「Google絵文字符号化グループ」にいるエンジニアは誰だろうか?別に「Google」や「Apple」,「Unicode Consortium」という組織名がついたからといって,何も変わらない.標準化の目的は,よりよい仕様を作ることであって,勝ち負けではない.その辺は勘違いしないで頂きたいと思う.
今回は小形氏はGoogleの公式窓口にしかコンタクトせず,実際に作業を行っているエンジニアにインタビューしたいという要望は出さなかったために,彼らとしては何も説明することはできなかったと聞いている.しかし,GoogleUnicodeコンソーシアム陰謀説(笑)を信じずに,普通に取材を申し込めば,もっと詳しい事情を説明してくれたはずだ.
なお,これは強調しておきたいが,今回の小形氏らの貢献を私個人は高く評価している.彼らが指摘した問題が生じたWG2ダブリン会議におけるアイルランド・ドイツ提案は,単なるグリフの違い以上に,携帯絵文字サポートの互換性を阻害するものであった.そもそも,携帯絵文字のサポートと互換性が目的のレガシーな提案だったはずなのに,それを他の目的に使いたい人達のためにそれが阻害されてしまっては,そもそも何のために提案したのかわからなくなるし,少なくとも致命的な問題は今後の会議の流れで訂正されなければいけないと考えられていた.
そのために必要なのは,携帯絵文字を使う日本人による強い必要性と問題点の主張であり,それがないと日本代表としても強い態度に出れないのだ.そういう点で,今回の提案は非常に有用だったと思う.
最後に,そもそも上記のような経緯なので,山本氏が心配している携帯電話キャリア各社のコードとUnicodeマッピングは提供されるだろう.一部でWG2で議論したいという意見もあるようだが,個人的には従来通りUnicodeコンソーシアムから提供した方が作業が早いと思っている.

第87回 知識ベースシステム研究会 (SIG-KBS) 発表募集

来年の1/28(木)〜29(金)に,NTT武蔵野研究開発センターで,今年も「Web情報処理」というテーマで人工知能学会 知識ベースシステム研究会を開催する.
第87回 知識ベースシステム研究会 (SIG-KBS) 発表募集
今年の招待講演はグーグルの内田誠氏にお願いする予定だ.彼は東大で学位を取得してからグーグルに入社し,現在マーケティング部門でグーグルのサービスのユーザベースを増やすための統計的な分析をおこなっているそうである.今回のような話はまだ前例がなく,外で話せないような情報も多いこともあって,これからじっくり具体的な講演内容を詰めて行くことになるが,たぶん他では聞けないような貴重な話が聞けるのではないかと思う.資料の掲載はおこなわない予定なので,興味がある人はぜひ参加して頂きたい.
発表申し込みの〆切は12/11(金)である.関連分野の研究者がいたら,ぜひ投稿・参加を検討して頂きたい.

第84回人工知能学会 知識ベースシステム研究会 (SIG-KBS)参加者募集

先日論文投稿をお願いした84回人工知能学会 知識ベースシステム研究会 (SIG-KBS)だが,1/29(木)〜30(金)に開催するので,発表内容や筑波大学の藤井敦先生の招待講演「情報爆発時代のツールとしての知識検索技術」に興味がある人は,ぜひ参加して頂きたい.詳しいことは以前の記事当日のプログラムを見て頂きたい.
この研究会は事前登録不要,参加費無料である.資料代が1,500円(学生会員は無料)だが,特に購入する義務はない(実は,予稿集が沢山売れすぎると赤字が出てしまうという話なので,こちらとしても押しつけるつもりはない(苦笑))会場が駅から遠いのがちょっとアレだが,藤井敦先生の講演はWebの情報探索の新しい形に興味ある人は要チェックで,私も非常に楽しみである.