Nutch on MapReduce

不覚.NutchにMapReduceが実装されていた.

http://wiki.apache.org/nutch-data/attachments/Presentations/attachments/oscon05.pdf

追記:次のPDFファイルもある.
http://wiki.apache.org/nutch-data/attachments/Presentations/attachments/mapred.pdf

Doug CuttingのO'Reilly Open Source Conventionで発表したとのこと.

http://conferences.oreillynet.com/os2005/

次がGoogleの原論文.

http://labs.google.com/papers/mapreduce-osdi04.pdf

オリジナルに対するNutchにおける拡張は次の4点.

  1. 出力を複数のファイルに分割可能
  2. 入力値の型の混在
  3. 非同期Map
  4. 値による分割

ボトルネックは,ディスクでもネットワークでもCPUでもなく,スケジューリングだそうだ(さもありなん).この点では,もしかするとGlobal Work Queue(残念ながら論文が入手できないので,実体はよくわからない)というスケジューリング用ソフトを開発しているGoogleの方に一日の長があるかも.

Nutch 0.7がリリースされるまでは,次のブランチから入手できるらしい.

https://svn.apache.org/repos/asf/lucene/nutch/branches/mapred/

実は,今の仕事が一段落したら自分で実装しようと思っていたくらいなのだ.胸がわくわくする.