当前位置:电脑爱好者_服务器_ Tag标签:MapReduce 多输出 hadoop

Hadoop MapReduce多输出详细介绍

时间:2021-02-04日来源: 作者:

多输出

FileOutputFormat及其子类产生的文件放在输出目录下。每个reducer一个文件并且文件由分区号命名：part-r-00000，part-r-00001，等等。有时可能要对输出的文件名进行控制或让每个reducer输出多个文件。MapReduce为此提供了MultipleOutputFormat类。

MultipleOutputFormat类可以将数据写到多个文件，这些文件的名称源于输出的键和值或者任意字符串。这允许每个reducer（或者只有map作业的mapper）创建多个文件。采用name-r-nnnnn形式的文件名用于map输出，name-r-nnnnn形式的文件名用于reduce输出，其中name是由程序设定的任意名字，nnnnn是一个指名块号的整数（从0开始）。块号保证从不同块（mapper或者reducer）写的输出在相同名字情况下不会冲突。

1. 重定义输出文件名

我们可以对输出的文件名进行控制。考虑这样一个需求：按男女性别来区分度假订单数据。这需要运行一个作业，作业的输出是男女各一个文件，此文件包含男女性别的所有数据记录。

这个需求可以使用MultipleOutputs来实现：

在生成输出的reduce中，在setup()方法中构造一个MultipleOutputs的实例并将它赋予一个实例变量。在reduce()方法中使用MultipleOutputs实例来写输出，而不是context。write()方法作用于键，值和名字。这里使用的是性别作为名字，因此最后产生的输出名称的形式为sex-r-nnnnn：

我们可以看到在输出文件中不仅有我们想要的输出文件类型，还有part-r-nnnnn形式的文件，但是文件内没有信息，这是程序默认的输出文件。所以我们在指定输出文件名称时（name-r-nnnnn），不要指定name为part，因为它已经被使用为默认值了。

2. 多目录输出

在MultipleOutputs的write()方法中指定的基本路径相对于输出路径进行解释，因为它可以包含文件路径分隔符（/），创建任意深度的子目录。例如，我们改动上面的需求：按男女性别来区分度假订单数据，不同性别数据位于不同子目录（例如：sex=f/part-r-00000）。

后产生的输出名称的形式为sex=f/part-r-nnnnn或者sex=m/part-r-nnnnn：

3. 延迟输出

FileOutputFormat的子类会产生输出文件(part-r-nnnnn)，即使文件是空的，也会产生。我们有时候不想要这些空的文件，我们可以使用LazyOutputFormat进行处理。它是一个封装输出格式，可以指定分区第一条记录输出时才真正创建文件。要使用它，用JobConf和相关输出格式作为参数来调用setOutputFormatClass()方法即可：

再次检查一下我们的输出文件（第一个例子）：

感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

Hadoop SSH免密码登录以及失败解决方案	基于 ZooKeeper 搭建 Hadoop 高可用集群的教程图解
Hadoop计数器的应用以及数据清洗	浅谈七种常见的Hadoop和Spark项目案例
hadoop重新格式化HDFS步骤解析	hadoop格式化HDFS出现错误解决办法
Hadoop中namenode和secondarynamenode工作机制讲解	阿里云服务器搭建hadoop集群补充

双至强cpu 32g内存服务器做了阵列1更换一个坏的	配置Memcache服务器并实现主从复制功能（repcache
KB967723补丁造成的MYSQL在Win2003上频繁连接不上的问	rsync同步时出现rsync: failed to set times on “xxxx”:
戴尔R510_R410_R610_R710等所有服务器安装win2003解决办	解析服务器常见错误代码500、501、502、503、504、
服务器技术是什么？有什么用？	Web容器？中间件？Web服务器？傻傻搞不清，一文
服务器维护清单中的7个步骤	web服务器配置（图文详解）
什么是云帮手？云服务器运维管理工具云帮手有	采用分段排查法诊断服务器性能
重新塑造数据中心服务器	图文讲解如何使用Nginx反向代理、负载均衡
服务器12种基本故障及排查方法	DHCP服务是什么_如何使用DHCP服务？
RPC服务器不可用怎么办？解决RPC服务器不可用的	解决RPC服务器不可用Windows time服务无法启动

免备案云服务器快吗？使用海外云服务器好不好	云服务器优点有哪些？云服务器缺点你知道吗？
云主机租用要注意的事项?	云服务器设置ftp服务器配置怎么操作？
云服务器搭建难不难？企业云服务器搭建流程	云服务器好用吗？企业用云服务器可靠吗？
阿里云服务器快速配置php环境的方法	欧洲云服务器和VPS有哪些区别？
视频云服务器的配置一般怎么选？	购买真正的云服务器，这几个方面要小心
阿里云申请云盾免费SSL证书(https)	阿里云ECS云服务器如何开放8080端口
阿里云服务器实现域名解析步骤(小白教程)	腾讯云服务器怎么安装安卓模拟器可以安装安卓
解决阿里云ssh远程连接短时间就会断掉的问题	阿里云添加的安全组端口以及添加后无法访问问
阿里云ECS实例设置用户root密码和远程连接的方法	阿里云服务器VNC无法连接及黑屏的原因

Hadoop MapReduce多输出详细介绍

微信公众号推荐

相关推荐