ITPUX技术网

交流 . 资讯 . 分享
Make progress together!
Linux操作系统下Oracle11g R2 RAC 安装配置教程
Oracle数据库培训-备份恢复-性能优化-集群容灾
Oracle数据库DBA高级工程师培训视频

Hadoop实战培训教程10_Hadoop集群环境搭建配置_MapReduce初级案例

内容发布:风哥| 发布时间:2015-3-7 19:13:25
Hadoop实战培训教程10_hadoop集群环境搭建配置_MapReduce初级案例

1、数据去重
   "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义筛选统计大数据集上的数据种类个数从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。
1.1 实例描述
  对数据文件中的数据进行去重。数据文件中的每行都是一个数据。
 

Hadoop实战培训教程10_Hadoop集群环境搭建配置_MapReduce初级案例

Hadoop实战培训教程10_Hadoop集群环境搭建配置_MapReduce初级案例
1.2 设计思路
  数据去重最终目标是让原始数据出现次数超过一次数据输出文件只出现一次。我们自然而然会想到将同一个数据的所有记录都交给一台reduce机器,无论这个数据出现多少次,只要在最终结果中输出一次就可以了。具体就是reduce的输入应该以数据作为key,而对value-list则没有要求。当reduce接收到一个<key,value-list>时就直接将key复制到输出的key中,并将value设置成空值
  在MapReduce流程中,map的输出<key,value>经过shuffle过程聚集成<key,value-list>后会交给reduce。所以从设计好的reduce输入可以反推出map的输出key应为数据,value任意。继续反推,map输出数据的key为数据,而在这个实例中每个数据代表输入文件中的一行内容,所以map阶段要完成的任务就是在采用Hadoop默认的作业输入方式之后,将value设置为key,并直接输出(输出中的value任意)。map中的结果经过shuffle过程之后交给reduce。reduce阶段不会管每个key有多少个value,它直接将输入的key复制为输出的key,并输出就可以了(输出中的value被设置成空了)。

Hadoop实战培训教程10_Hadoop集群环境搭建配置_MapReduce初级案例.pdf

1.53 MB, 下载次数: 18, 下载积分: IT币 -1

Hadoop实战培训教程10_Hadoop集群环境搭建配置_MapReduce初级案例



上一篇:Hadoop实战培训教程09_Hadoop集群环境搭建配置_HDFS配置与维护
下一篇:Hadoop实战培训教程11_Hadoop集群环境搭建配置_MySQL数据库介绍
专业提供Oracle数据库服务、主机、存储、备份、中间件等相关技术支持服务,QQ号:176140749
关注ITPUX技术网微信公众号itpux_com  ,了解本站最新技术资料的分享.

欢迎加QQ群,提供超多高质量Oracle/Unix/Linux技术文档与视频教程的下载。

Oracle/MySQL/Linux群1-4:199479729   158277749   336282998   189070296   
Oracle/MySQL/Linux群5-8:150201289   244609803   522261684   522651731
备注:请勿重复加群,另请注明 from itpux

加群分享视频教程部分如下:

1、公开课视频:Oracle云数据库工程师职业发展前景讲解(免费)
http://edu.51cto.com/course/course_id-8614.html

2、51CTO学院Oracle数据库高级工程师培训(高薪就业.课程介绍)
http://edu.51cto.com/px/train/131?xiaotu

3、Oracle DBA数据库高级工程师培训视频课程1.1(系列78套+七大阶段+上千案例)
套餐视频地址: http://edu.51cto.com/topic/1121.html
回复

使用道具 举报

内容发布:leiyz| 发布时间:2017-6-2 10:58:47
好动系,值得好好学习
回复 支持 反对

使用道具 举报

1框架
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表