当前位置:电脑爱好者_服务器_ Tag标签:累加器 Spark

Spark自定义累加器的使用实例详解

时间:2021-02-04日来源: 作者:

（accumulator）是中提供的一种分布式的变量机制，其原理类似于mapreduce，即分布式的改变，然后聚合这些改变。累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数。

累加器简单使用

Spark内置的提供了Long和Double类型的累加器。下面是一个简单的使用示例，在这个例子中我们在过滤掉RDD中奇数的同时进行计数，最后计算剩下整数的和。

结果为：

sum: 20
accum: 5

这是结果正常的情况，但是在使用累加器的过程中如果对于spark的执行过程理解的不够深入就会遇到两类典型的错误：少加（或者没加）、多加。

自定义累加器

自定义累加器类型的功能在1.X版本中就已经提供了，但是使用起来比较麻烦，在2.0版本后，累加器的易用性有了较大的改进，而且官方还提供了一个新的抽象类：AccumulatorV2来提供更加友好的自定义类型累加器的实现方式。官方同时给出了一个实现的示例：CollectionAccumulator类，这个类允许以集合的形式收集spark应用执行过程中的一些信息。例如，我们可以用这个类收集Spark处理数据时的一些细节，当然，由于累加器的值最终要汇聚到driver端，为了避免 driver端的outofmemory问题，需要对收集的信息的规模要加以控制，不宜过大。

继承AccumulatorV2类，并复写它的所有方法

方法介绍

value方法：获取累加器中的值

merge方法：该方法特别重要，一定要写对，这个方法是各个task的累加器进行合并的方法（下面介绍执行流程中将要用到）

iszero方法：判断是否为初始值

reset方法：重置累加器中的值

copy方法：拷贝累加器

spark中累加器的执行流程：

首先有几个task，spark engine就调用copy方法拷贝几个累加器（不注册的），然后在各个task中进行累加（注意在此过程中，被最初注册的累加器的值是不变的），执行最后将调用merge方法和各个task的结果累计器进行合并（此时被注册的累加器是初始值）

总结

以上就是本文关于Spark自定义累加器的使用实例详解的全部内容，希望对大家有所帮助。有什么问题可以随时留言，小编会及时回复大家的。

原文链接：http://www.cnblogs.com/zhangweilun/p/6684776.html

Spark入门简介	Spark的广播变量和累加器使用方法代码示例
Spark Graphx计算指定节点的N度关系节点源码	浅谈七种常见的Hadoop和Spark项目案例

推荐文章

双至强cpu 32g内存服务器做了阵列1更换一个坏的	配置Memcache服务器并实现主从复制功能（repcache
KB967723补丁造成的MYSQL在Win2003上频繁连接不上的问	rsync同步时出现rsync: failed to set times on “xxxx”:
戴尔R510_R410_R610_R710等所有服务器安装win2003解决办	解析服务器常见错误代码500、501、502、503、504、
服务器技术是什么？有什么用？	Web容器？中间件？Web服务器？傻傻搞不清，一文
服务器维护清单中的7个步骤	web服务器配置（图文详解）
什么是云帮手？云服务器运维管理工具云帮手有	采用分段排查法诊断服务器性能
重新塑造数据中心服务器	图文讲解如何使用Nginx反向代理、负载均衡
服务器12种基本故障及排查方法	DHCP服务是什么_如何使用DHCP服务？
RPC服务器不可用怎么办？解决RPC服务器不可用的	解决RPC服务器不可用Windows time服务无法启动

热门文章

免备案云服务器快吗？使用海外云服务器好不好	云服务器优点有哪些？云服务器缺点你知道吗？
云主机租用要注意的事项?	云服务器设置ftp服务器配置怎么操作？
云服务器搭建难不难？企业云服务器搭建流程	云服务器好用吗？企业用云服务器可靠吗？
阿里云服务器快速配置php环境的方法	欧洲云服务器和VPS有哪些区别？
视频云服务器的配置一般怎么选？	购买真正的云服务器，这几个方面要小心
阿里云申请云盾免费SSL证书(https)	阿里云ECS云服务器如何开放8080端口
阿里云服务器实现域名解析步骤(小白教程)	腾讯云服务器怎么安装安卓模拟器可以安装安卓
解决阿里云ssh远程连接短时间就会断掉的问题	阿里云添加的安全组端口以及添加后无法访问问
阿里云ECS实例设置用户root密码和远程连接的方法	阿里云服务器VNC无法连接及黑屏的原因

Spark自定义累加器的使用实例详解

微信公众号推荐

相关推荐