17、MapReduce的分区Partition介绍-摩杜云开发者社区

17、MapReduce的分区Partition介绍

TEZNKK3IfmPf 2023年11月12日 14 0

hadoop mapreduce 大数据

本文介绍MR的分区Partition。
本文分为2个部分，即介绍与示例。
前提依赖：hadoop环境可正常使用。

1、数据分区

当MapReduce中有多个reduce task执行的时候，此时map task的输出就会面临一个问题：究竟将自己的输出数据交给哪一个reducetask来处理？这就是数据分区（partition）

17、MapReduce的分区Partition介绍

默认情况下，MapReduce是只有一个reducetask来进行数据的处理。这就使得不管输入的数据量多大，最终的结果都是输出到一个文件中
当改变reducetask个数的时候，作为maptask就会涉及到分区的问题，即：MapTask输出的结果如何分配给各个ReduceTask来处理
Map的数量由数据文件大小决定，即map的数量=数据文件大小（M）/128M。

2、Partition默认规则

MapReduce默认分区规则是HashPartitioner。分区的结果和map输出的key有关[（key.hashCode() & Integer.MAX_VALUE） % numReduceTasks]。
reducetask个数的改变导致了数据分区的产生，而不是有数据分区导致了reduce task个数改变。
数据分区的核心是分区规则。即如何分配数据给各个reducetask。默认的规则可以保证只要map阶段输出的key一样，数据就一定可以分区到同一个reducetask，但是不能保证数据平均分区。
reducetask个数的改变还会导致输出结果文件不再是一个整体，而是输出到多个文件中

3、分区使用

改变ReduceTask个数
在MapReduce中，通过Job提供的方法，可以修改reducetask的个数。默认情况下不设置，reducetask个数为1。

job.setNumReduceTasks(6)

设置完后，输出的文件个数

17、MapReduce的分区Partition介绍

当数据分区数量>reduceTask 时，会出现异常错误
当数据分区数量=reduceTask 时，程序正常运行
当数据分区数量<reduceTask 时，程序正常运行，会出现输出文件大小为0的文件，为0的即是多出的reduceTask，即没有数据需要汇聚
通过修改不同reducetask个数值，得出输出结果文件的个数和reduce task个数是一种对等关系

二、示例

具体事例参考mapreduce的基本使用示例中的分区

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇： HummerRisk 使用教程：资源态势下一篇： uint8_t数据类型

分享：

最后一次编辑于 2023年11月12日 0

暂无评论

推荐阅读

java161-同步代码块

TEZNKK3IfmPf 2023年11月14日 12 0 0 大数据

ES分布式搜索-索引库操作

TEZNKK3IfmPf 2024年03月22日 38 0 0 分布式 elasticsearch 大数据

hbase 1.2 api 工具类

TEZNKK3IfmPf 2023年11月15日 38 0 0 apache hadoop java

java162-同步对象锁

TEZNKK3IfmPf 2023年11月14日 13 0 0 System 大数据

es安装及使用

TEZNKK3IfmPf 25天前 13 0 0 搜索引擎 elasticsearch 大数据

C#编程-18：遍历某一路径下所有文件和文件夹

TEZNKK3IfmPf 2023年11月15日 14 0 0 linux python java 大数据 Android

hadoop 2.2 hdfs 操作例子

TEZNKK3IfmPf 2023年11月15日 13 0 0 apache hadoop java

ElasticSearch - 基础概念，以及和 mysql 的对比

TEZNKK3IfmPf 2024年03月29日 63 0 0 elasticsearch 大数据

HBase client api例子集合-1

TEZNKK3IfmPf 2023年11月15日 21 0 0 apache hadoop java

从hadoop2.2，HBase0.96 mapreduce操作

TEZNKK3IfmPf 2023年11月15日 13 0 0 apache hadoop mapreduce

hbase client api 例子-2

TEZNKK3IfmPf 2023年11月15日 17 0 0 apache hadoop

ElasticSearch - 基于 JavaRestClient 查询文档（match、精确、复合查询，以及排序、分页、高亮）

TEZNKK3IfmPf 2024年03月29日 29 0 0 elasticsearch 大数据

Flink大数据实时计算系列-案例初体验：OrderTimeoutWithoutCep

TEZNKK3IfmPf 2024年03月29日 73 0 0 大数据

Hive面试题

TEZNKK3IfmPf 25天前 26 0 0 hadoop Hive

elasticsearch操作（语句方式）

TEZNKK3IfmPf 25天前 23 0 0 搜索引擎 elasticsearch 大数据

ElasticSearch - 基于 JavaRestClient 操作索引库和文档

TEZNKK3IfmPf 2024年03月29日 17 0 0 elasticsearch 大数据

Storm超实用教程详解-附示例

TEZNKK3IfmPf 2024年03月29日 52 0 0 java 大数据

java163-同步方法锁

TEZNKK3IfmPf 2023年11月15日 15 0 0 System 大数据

Java中Scanner类的使用

TEZNKK3IfmPf 2023年11月15日 18 0 0 python java 大数据

TEZNKK3IfmPf

作者其他文章更多

wireshark ssl 解密处理

2024-05-17

IntelliJ IDEA 的 Maven 如何设置自动下载源代码和文档

2024-05-17

Confluence 6 升级自定义的站点和空间获得你的自定义布局

2024-05-17

IntelliJ IDEA 如何添加编译参数

2024-05-17

IntelliJ IDEA 如何快速查看提交代码的对比

2024-05-17

Spring Boot 2.4 Command-line 自动完成

2024-05-17

fusionjs uber开源的通用web插件化开发框架

2024-05-17

Confluence 6 找到未使用的空间

2024-05-17

Spring AMQP 发送消息到 RabbitMQ 收到 x-queue-type 错误

2024-05-17

Package 打包上传到中央仓库的时候提示 SCM URL missing

2024-05-17

最新推荐更多

轻便高效的音频分类神经网络

2024-05-20

如何将 Win10 企业版转换为专业版

2024-05-17

揭秘海外机房服务：为何它成为全球化时代的“必备神器”

2024-05-17

Docker 必知必会2----跟我来一步步执行基本操作

2024-05-17

半导体分立器件基础知识讲解

2024-05-17

全双工与半双工技术解析及其应用场景

2024-05-17

使用Git bash切换Gitee、GitHub多个Git账号

2024-05-17

一种利用光电容积描记（PPG）信号和深度学习模型对高血压分类的新方法

2024-05-17

帆软报表开发新手教程

2024-05-17

Docker 必知必会3----使用自己制作的镜像

2024-05-17

利用深度循环神经网络对心电图降噪

2024-05-17

咳嗽检测深度神经网络算法

2024-05-17

基础带宽产品怎么选？手把手教学

2024-05-17

wireshark ssl 解密处理

2024-05-17

IntelliJ IDEA 的 Maven 如何设置自动下载源代码和文档

2024-05-17

Confluence 6 升级自定义的站点和空间获得你的自定义布局

2024-05-17

IntelliJ IDEA 如何添加编译参数

2024-05-17

IntelliJ IDEA 如何快速查看提交代码的对比

2024-05-17

Spring Boot 2.4 Command-line 自动完成

2024-05-17

fusionjs uber开源的通用web插件化开发框架

2024-05-17