0%

数据清洗

数据清洗

数据清洗又称为ETL,在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序,不需要运行Reducer程序

当不需要reduce时,需要将reduceTask个数设为0,job.setNumReduceTasks(0)