星期四, 一月 22, 2009

纠正一篇关于hadoop的流传甚广的文章的重要错误

原文在这里: http://www.infoq.com/cn/articles/hadoop-process-develop
用搜索引擎一搜有很多转载。

其中提到:
没有配置RecordReader,所以默认采用line的实现,key就是行号,value就是行内容。  这个解释是错误的。 正确的是:key是该行开头在文件中的偏移位置(offset),value是该行的内容。 

没有评论: