hadoop下怎么计算MapReduce过程中需要的缓冲区大小

本篇内容介绍了“hadoop下怎么计算MapReduce过程中需要的缓冲区大小”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

成都创新互联长期为上1000+客户提供的网站建设服务，团队从业经验10年，关注不同地域、不同群体，并针对不同对象提供差异化的产品和服务；打造开放共赢平台，与合作伙伴共同营造健康的互联网生态环境。为平山企业提供专业的成都网站制作、网站建设，平山网站改版等技术服务。拥有十年丰富建站经验和众多成功案例,为您定制开发。

在Map阶段，map函数会产生中间数据输出并保存在内存缓冲区中（缓冲区大小由io.sort.mb参数指定）。一旦达到占用阈值（默认是80%），缓冲区的内容就会写入本地磁盘，这也就是所谓的溢写（spill）。

缓冲区内会存储溢写记录的元数据（每条数据元数据长度为16字节）和溢写记录。

分配给元数据的空间由参数io.sort.record.percent指定，默认5%，其余分配给溢写记录使用。

要确定缓冲区所需的内存空间，需要计算溢写记录和元数据分别所占空间大小。

具体计算方法如下：

hadoop下怎么计算MapReduce过程中需要的缓冲区大小

Record length = Map output bytes / Map output records = 68022178 / 472293 = 144bytes
Spilled Records Size = Spilled Records * Record length = 144 * 472293 = 68022178 = 64M
Metadata Size = Metadata length * Spilled Records = 16 * 472293 = 7556688 = 7M

io.sort.record.percent = 16 / (16 + 144) = 0.1

io.sort.mb = Metadata size + Spilled Records size = 64 + 7 = 71M

“hadoop下怎么计算MapReduce过程中需要的缓冲区大小”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注创新互联网站，小编将为大家输出更多高质量的实用文章！

网站题目：hadoop下怎么计算MapReduce过程中需要的缓冲区大小
文章位置：http://lszwz.com/article/ijjess.html

其他资讯

售后响应及时

7×24小时客服热线

数据备份

更安全、更高效、更稳定

价格公道精准

项目经理精准报价不弄虚作假

合作无风险

重合同讲信誉，无效全额退款

乐山小谭建站工作室是一家专注从事于高品质视觉体验及互联网设计开发，乐山网站建设，乐山网站设计，乐山网页设计，乐山网站制作，品牌网站建设，营销网站建设，集团网站建设，企业网站建设，外贸网站建设，响应式网站建设，小程序开发，微信开发，企业形象设计，企业宣传视频等服务，小谭建站位于乐山市龙岗区大运软件小镇，小谭建站拥有经验丰富的高级网站建设工程师和一流的网页高端设计人员，具备各种规模与类型网站建设的雄厚实力，在网站建设领域树立了自己独特的设计风格。

友情链接交换友情链接

德阳东方电机技改成都app开发腾讯云免备案空间成都劢可为正泰动物吉安网站建设堡垒主机网站解决方案腾讯免备案主机安防网站建设方案

Copyright © 2022 青羊区小谭信息技术咨询服务工作室乐山建站工作室 All Rights Reserved 蜀ICP备2021004003号-25

Copyright © 2022 青羊区小谭信息技术咨询服务工作室乐山建站工作室

蜀ICP备2021004003号-25