Join操作
就像SQL中的join操作,很多时候数据不是一个表就可以完美地解决的,需要同时获取多个表的数据,在hadoop中也一样,可能会获取不同文件或者不同表的数据来进行组合
Map端的主要工作:为来自不同表或文件的key/value,打标签以区别不同来源的记录,然后用连接字段作为key,其余部分和新加的标签作为value,最后进行输出
Reduce端的主要工作:在Reduce端以连接字段作为key的分组已经完成,我们只需要在每一个分组当中将那些来源于不同文件的记录(在Map阶段已经打标签)分开,最后进行合并就ok了