数据清洗 发表于 2020-12-20 更新于 2024-03-06 分类于 hadoop 阅读次数: Valine: 本文字数: 152 阅读时长 ≈ 1 分钟 数据清洗数据清洗又称为ETL,在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序,不需要运行Reducer程序 当不需要reduce时,需要将reduceTask个数设为0,job.setNumReduceTasks(0) 相关文章 Bigtable GFS 性能调优 日志聚集 三种运行模式 欢迎关注我的其它发布渠道 公众号 掘金 CSDN 思否 简书