WebFountain
良かったのはIBMのDr. Daniel GruhlのWebFountainについての招待講演.いきなり期末試験で,覚えるのが大変という話で始まる点が掴みがうまい.
http://www.almaden.ibm.com/webfountain/
アノテーションに関してはUIMA (Unstructured Information Management Architecture)を用いている.
http://www.research.ibm.com/UIMA/
収集は2ダースのマシンで一日に500万ページ.アプリケーションは50台.
アーキテクチャとしては,データを収集・分類する層,関係を見つけ出す層,パターンやトレンドを見つけ出す層,さらに深い洞察をする層(Visionと書いてあった?)に分類されるらしい.
プログラムとしては,per-page miner, cross-page miner, extension minerというように階層化されるらしい.
やっていることは,人間関係,企業関係のネットワーク構造の抽出,噂の抽出,別名検出,テンプレート検出,トピック分離,メッセージ伝播,情報の陳腐化など.
ということは,やっていることは私の周囲と一緒だが,総研究者数が300名ということで勝てないなあ.