WebFountain

良かったのはIBMのDr. Daniel GruhlのWebFountainについての招待講演.いきなり期末試験で,覚えるのが大変という話で始まる点が掴みがうまい.

http://www.almaden.ibm.com/webfountain/

アノテーションに関してはUIMA (Unstructured Information Management Architecture)を用いている.

http://www.research.ibm.com/UIMA/

収集は2ダースのマシンで一日に500万ページ.アプリケーションは50台.

アーキテクチャとしては,データを収集・分類する層,関係を見つけ出す層,パターンやトレンドを見つけ出す層,さらに深い洞察をする層(Visionと書いてあった?)に分類されるらしい.

プログラムとしては,per-page miner, cross-page miner, extension minerというように階層化されるらしい.

やっていることは,人間関係,企業関係のネットワーク構造の抽出,噂の抽出,別名検出,テンプレート検出,トピック分離,メッセージ伝播,情報の陳腐化など.

ということは,やっていることは私の周囲と一緒だが,総研究者数が300名ということで勝てないなあ.