专注收集记录技术开发学习笔记、技术难点、解决方案
网站信息搜索 >> 请输入关键词:
您当前的位置: 首页 > 行业应用

MapReduce: Simplified Data Processing on Large Clusters(撮要翻译)

发布时间:2010-06-06 18:56:02 文章来源:www.iduyao.cn 采编人员:星星草
MapReduce: Simplified Data Processing on Large Clusters(摘要翻译)
摘要原文如下:

MapReduce: Simplified Data Processing on Large Clusters

MapReduce is a programming model and an associ-
ated implementation for processing and generating large
data sets. Users specify a map function that processes a
key/value pair to generate a set of intermediate key/value
pairs, and a reduce function that merges all intermediate
values associated with the same intermediate key. Many
real world tasks are expressible in this model, as shown
in the paper.

Programs written in this functional style are automati-
cally parallelized and executed on a large cluster of com-
modity machines. The run-time system takes care of the
details of partitioning the input data, scheduling the pro-
gram's execution across a set of machines, handling ma-
chine failures, and managing the required inter-machine
communication. This allows programmers without any
experience with parallel and distributed systems to eas-
ily utilize the resources of a large distributed system.
Our implementation of MapReduce runs on a large
cluster of commodity machines and is highly scalable:
a typical MapReduce computation processes many ter-
abytes of data on thousands of machines. Programmers
find the system easy to use: hundreds of MapReduce pro-
grams have been implemented and upwards of one thou-
sand MapReduce jobs are executed on Google's clusters
every day.

译文如下:


     MapReduce: 大型集群上的简化数据处理
  MapReduce是一个编程模型,也是一个用于处理和生成大型数据集的相关实现。用户指定一个map函数,该函数用于将key/value这样的值处理成为一个“中间”的key/value数据结构,同时一个reduce函数将所有的“中间”的value合并到同一个相关“中间”的key上。很多现实中的工作可以套用这个模型,就像这个论文中所说的。
  使用这种函数式风格编写的程序会很自然地实现并行和运行在一个大型集群的商用机器上。那些运行时系统任务关心关于输入数据分区的细节,如何在一群机器上对执行的程序进行调度,处理机器故障和管理所需机器间的通信。这允许程序员即使没有任何并行和分布式系统的经验也可以轻松的利用一个大型分布式系统的资源。我们的MapReduce运行于一个大型的商用机器集群并实现高度的扩展性:一个典型的MapReduce计算(应用)部署在成千上万台机器(集群)上处理许多TB级的数据。程序员们发觉那个系统是很容易使用的:成百上千个MapReduce程序已经实现,而且每天还有一千以上的MapReduce任务已经在Google的集群上运行。

参考文献:
http://www.cs.toronto.edu/~demke/2227S.12/Papers/mapreduce-osdi04.pdf
友情提示:
信息收集于互联网,如果您发现错误或造成侵权,请及时通知本站更正或删除,具体联系方式见页面底部联系我们,谢谢。

其他相似内容:

  • 《松本行弘的程序全世界》之面向对象

    《松本行弘的程序世界》之面向对象 最近读《SICP》把脑细胞搞死大半,还没看完2章,而且看得也是一知半解,实在是受不了了,...

  • GroovyHelp 3.2.7 GA公布

    GroovyHelp 3.2.7 GA发布 GroovyHelp简介   GroovyHelp是一款Javadoc及Groovydoc搜索查阅软件,它能够帮助Java开发人员以...

  • Velocity在Roller中的使用

    Velocity在Roller中的应用 Velocity是java世界中出现比较早,也比较成熟的、性能比较好的、应用也比较广泛的模板框架。   所...

  • Rpc远程调用框架的设计与兑现(2)

    Rpc远程调用框架的设计与实现(2) 接上: 3   基于Json的前后端数据交互 3.1   轻量级的数据交换形式 3.1.1    什么是Jso...

  • excel 单元格的锁定 以及 JXL的兑现方式

    excel 单元格的锁定 以及 JXL的实现方式 在使用excel表格时,有些列是不希望用户可以修改的,诸如审计日志里面确定的部分,而审计...

  • 仓秤跟散料秤:java连接opc Server

    仓秤和散料秤:java连接opc Server 这三篇都是之前写好的,一直没发。 这次一起发出来吧。   java连接硬件很痛苦,特别是对我这...

  • Rpc远程调用框架的设计与兑现(1)

    Rpc远程调用框架的设计与实现(1) Rpc远程调用框架的设计与实现 1     Rpc远程调用框架设计概述 1.1   研究背景 1.1.1...

  • 集合中的线程安全有关问题

    集合中的线程安全问题 一、why? Java中常用的集合框架推荐使用的三个实现:HashSet\ArrayList\HashMap都是线程不安全的.如...

  • Java定时任务的兑现

    Java定时任务的实现 本例依据Java自身提供的接口实现,通过监听器(Listener)和定时器(Timer)定时执行某个任务(Task)。 MyListener: ...

  • java中log日记的使用

    java中log日志的使用 一、介绍  Log4j是Apache的一个开放源代码项目,通过使用Log4j,我们可以控制日志信息输送的目的地是控...

热门推荐: