WebFountain - Cafe Babe

良かったのはIBMのDr. Daniel GruhlのWebFountainについての招待講演．いきなり期末試験で，覚えるのが大変という話で始まる点が掴みがうまい．

アノテーションに関してはUIMA (Unstructured Information Management Architecture)を用いている．

収集は2ダースのマシンで一日に500万ページ．アプリケーションは50台．

アーキテクチャとしては，データを収集・分類する層，関係を見つけ出す層，パターンやトレンドを見つけ出す層，さらに深い洞察をする層（Visionと書いてあった？）に分類されるらしい．

プログラムとしては，per-page miner, cross-page miner, extension minerというように階層化されるらしい．

やっていることは，人間関係，企業関係のネットワーク構造の抽出，噂の抽出，別名検出，テンプレート検出，トピック分離，メッセージ伝播，情報の陳腐化など．

ということは，やっていることは私の周囲と一緒だが，総研究者数が300名ということで勝てないなあ．