Nutch on MapReduce
不覚.NutchにMapReduceが実装されていた.
http://wiki.apache.org/nutch-data/attachments/Presentations/attachments/oscon05.pdf
追記:次のPDFファイルもある.
http://wiki.apache.org/nutch-data/attachments/Presentations/attachments/mapred.pdf
Doug CuttingのO'Reilly Open Source Conventionで発表したとのこと.
http://conferences.oreillynet.com/os2005/
次がGoogleの原論文.
http://labs.google.com/papers/mapreduce-osdi04.pdf
オリジナルに対するNutchにおける拡張は次の4点.
- 出力を複数のファイルに分割可能
- 入力値の型の混在
- 非同期Map
- 値による分割
ボトルネックは,ディスクでもネットワークでもCPUでもなく,スケジューリングだそうだ(さもありなん).この点では,もしかするとGlobal Work Queue(残念ながら論文が入手できないので,実体はよくわからない)というスケジューリング用ソフトを開発しているGoogleの方に一日の長があるかも.
Nutch 0.7がリリースされるまでは,次のブランチから入手できるらしい.
https://svn.apache.org/repos/asf/lucene/nutch/branches/mapred/
実は,今の仕事が一段落したら自分で実装しようと思っていたくらいなのだ.胸がわくわくする.