大数据运营技术与工具：大规模数据分析的微积分-慧聪商情网

本篇文章1752字，读完约4分钟

内容摘要

Mapreduce是一个离线计算框架，是典型的大数据分析技术之一。它以大数据块为运算单元，先用映射的方式进行数据划分(微分)，然后对集合中的数据进行约简(积分)。

大数据运营技术与工具：大规模数据分析的微积分

大规模数据分析演算

“主机+磁盘阵列”的系统结构实现了计算能力和存储能力的分离，适用于数据访问次数多、单个数据量小的事务型应用。

然而，在大数据时代，海量数据(pb+)被处理。“主机+磁盘阵列”的系统架构会消耗大量主机集群和磁盘阵列之间的网络带宽，大大降低了系统的处理效率，不能满足大数据时代的要求。

大数据运营技术与工具：大规模数据分析的微积分

为了解决大规模数据的处理效率问题，需要开放不同的思维模式。

例如，您能否将数据存储在主机内部，并减少数据访问的外部io(输入和输出)，而不是主机外部的磁盘阵列？

举另一个例子，我们可以使用大数据块作为访问单元来减少数据访问的数量，而不是使用小数据字节作为单个数据访问单元吗？

围绕上述问题和思路，谷歌公司提出了gfs、mapreduce、bigtable等大规模分布式数据处理方案，以解决互联网上大规模数据的存储和快速检索问题。

Gfs以大数据块为单位存储数据，而mapreduce相当于一个基于gfs的数据分析引擎，它根据分析需求处理大数据块，其处理思想类似于高等数学中的微积分。

mapreduce的数据处理过程如图8-3-4所示:

8-3-4简化数据处理过程

从图8-3-4可以看出，输入文件1到输入文件3是文件形式的原始数据，原始数据经过映射、排序和归约三个子过程，最终输出满足统计要求的结果文件。

为了更直观地看到mapreduce的数据处理过程，以电信运营商的海量互联网记录统计为例，从时间和地理维度统计一定时期内的互联网数据流。

移动用户在互联网上记录的原始数据如下:

以上五条在线记录作为原始数据源，我们的目标是按日期统计在线流量。

为简单起见，在互联网记录的样本数据中，仅保留本案例所需的互联网流量(最左边的8位数列)、互联网日期(中间的列)和代码(最右边的列)。

如果第1条和第2条中的在线记录作为输入文件1的内容，则第3条和第4条中的在线记录作为输入文件2的内容，第5条中的在线记录作为输入文件3的内容，如下所示:

大数据运营技术与工具：大规模数据分析的微积分

首先，映射三个输入文件，从输入文件的指定位置提取键值对到不同的映射集作为排序输入。

本例中的日期是“关键”，本例中的值是互联网流量，如下所示:

提取的键值对包括五个，如下所示:

这些键值对通过排序操作放入相应的组中，分组结果如下:

排序操作的结果再次成为reduce的输入，其中reduce1的输入是sort1，reduce2的输入是sort2。事实上，reduce是一个求和运算。根据预编译的reduce程序，需要对多个值求和。结果如下:

大数据运营技术与工具：大规模数据分析的微积分

以上是mapreduce的输出结果，可以描述为:

2013年12月23日，总流量为92，583，701字节(约92.58兆字节)，2013年12月24日，总流量为79，233，468字节(约79.23兆字节)。

以上是通过映射、排序和归约操作从多个文件对mapreduce进行统计分析的一般过程。

以上只是分析原理的一个简单例子。在mapreduce的实际运行环境中，会有大量的输入文件。由于大量的输入文件分布在不同的主机设备上，分割后的大文件不需要在主机外的磁盘阵列上访问，解决了大文件传输造成的网络带宽占用大的问题。

大数据运营技术与工具：大规模数据分析的微积分

在大规模分布式计算环境中，映射、排序和约简操作通常在不同的主机上完成，通过并行执行多个任务，它们之间不存在相关性依赖，从而大大提高了大规模数据分析的整体效率。

大数据运营技术与工具：大规模数据分析的微积分

Mapreduce是一种典型的大数据分析技术，总体实现思路并不复杂，但在hadoop开源框架下的mapreduce中仍然存在很多问题。为了克服这些缺点，许多软件在此基础上进行了改进和完善，如:

大数据运营技术与工具：大规模数据分析的微积分

#卡珊德拉；，这是一个由#facebook开发并开放的分布式nosql数据库软件。

#开源分布式文件系统ceph(支持对象存储)；

#cleversafe的分散存储网络将元数据分散到集群中；

#ibm的gpfs(general parallel files system)；)；

#emc公司的isilon、mapr文件系统、netapp公司的hadoop开放方案等。

标题：大数据运营技术与工具：大规模数据分析的微积分

地址：http://www.hcsbodzyz.com/hcxw/284.html

大数据运营技术与工具：大规模数据分析的微积分

慧聪商情网推荐资讯

芜湖全国首盏“智慧路灯”助推智慧城市

邯郸名中医研修班报名

稳中求进深耕终端-共谋儿童学习桌市场新发展

曹操帮忙全面上线为绿色无锡提速

飞行准备 | 深蓝航天星云一号火箭一子级三机并联全时序动力系统系列试车圆满

海底小纵队儿童智能电话手表孩子们的“心”伙伴

有了这块技嘉主板团战遇上猪队友也不怕了

不再烦恼，教你如何避开选购ESD静电监控系统厂家的常见误区_佰斯特POUSTO

CSHIA2019联想阿木谈SIoT场景智能时代全生命周期服务

舌尖上海导演周涛唱响国货之光

慧聪商情网热文榜

国内首款HMO特医食品问世 ——怡贝深敏&怡贝深度！宜品特医引领婴幼儿

美洽AI客服实现跨境营销自动化的注意事项

探索苏黎世：湖光山色与现代都市的和谐交响

playing basketball是什么意思_playing baseball的意思

与君同行爱系西藏，君乐宝驰援震区捐赠逾40000罐/提乳制品

pm的汉语是什么意思_

马尔代夫旅游注意事项：入境、天气、住宿及费用全攻略

我们产品在网上低价乱价销售如何管控

融智兴科技携全系列RFID标签参展2025中国国际标签展

小红书SEO对于企业营销的重要意义分析

慧聪商情网最新发布

慧聪商情网介绍