Hadoop计数器的应用以及数据清洗

Hadoop计数器的应用以及数据清洗

数据清洗(ETL)

在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序,不需要运行Reduce程序。

1.需求

去除日志中字段长度小于等于11的日志。

(1)输入数据

web.log

(2)期望输出数据

每行字段长度都大于11

2.需求分析

需要在Map阶段对输入的数据根据规则进行过滤清洗。

3.实现代码

(1)编写LogMapper类

(2)编写LogDriver类

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对服务器之家的支持。如果你想了解更多相关内容请查看下面相关链接

原文链接:https://blog.csdn.net/qq_43193797/article/details/86141048



相关文章
推荐文章
热门文章

微信公众号推荐

相关推荐