大数据Spark “蘑菇云”行动第94课：Hive性能调优之Mapper和Reducer设置、队列设置和并行执行、JVM重用和动态分区、Join调优-摩杜云开发者社区

大数据Spark “蘑菇云”行动第94课：Hive性能调优之Mapper和Reducer设置、队列设置和并行执行、JVM重用和动态分区、Join调优

TEZNKK3IfmPf 2023年11月14日 15 0

Hive jvm 大数据

大数据Spark “蘑菇云”行动第94课：Hive性能调优之Mapper和Reducer设置、队列设置和并行执行、JVM重用和动态分区、Join调优

hive> show databases;
use default;
show tables;
select * from employeesforhaving;

hive> EXPLAIN select * from employeesforhaving;//HIVE的stage类似spark的stage

hive> EXPLAIN select * from employeesforhaving where>10000;
hive> use hivestudy;
show tables;
hive> EXPLAIN select * from users join ratings on users.usrid =ratings.userid;
hive> EXPLAIN EXTENDED select * from users join ratings on users.usrid =ratings.userid;

在现在的hive底层中运行mapper和reducer的时候，mapper的个数由splits的个数确定，reduce的个数默认是1个；

设置HIVE的reduce的个数3个；

hive> set mapred.reduce.tasks =3 ;

hive> set mapred.queue.name=default ;
hive> set mapred.queue.name=hive ;

hive在默认情况只会在同一时间执行一个stage，但是我们可以通过设置hive.exec.parallel为true来让可以并行执行的stage并行化，从而更好的利用集群的计算资源。

JVM的重用在hive性能优化中非常重要，mapred.job.reuse.jvm.num.tasks =10 ，也就是这个jvm可以运行10个任务，例如运行10个mapper；
如果小文件比较多的话，会对性能有1倍左右的提高；

动态分区提高空间的有效利用率
set.hive.exec.dynamic.partition =true ;
set.hive.exec.dynamic.partition.mode =nonstrict;

hive的join操作一般问题都是数据倾斜，尤其是在小表（该小表又比较大）和大表关联的情况下，如果小表比较大，可以通过设置
参数，对小表进行broadscast；但是，问题来了，小表比较大进行广播会产生OOM，网络传输小表的时候也是一个非常大的开销，
例如，小表是1000万条记录，而大表是10亿条记录，小表和大表进行join，怎么办了，如可先进行map端的reduce操作。

hive的解决方案和spark的解决方案完全一样。

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇：大数据Spark “蘑菇云”行动第91课：Hive中Index和Bucket案例实战及存储类型rcfile实战详解下一篇： java并发之同步辅助类semaphore

分享：

最后一次编辑于 2023年11月14日 0

暂无评论

推荐阅读

vue课程65 使用vue-filter定义全局过滤器

TEZNKK3IfmPf 17天前 32 0 0 字符串 vue 大数据

IDEA实用教程（五）——配置IDEA的JVM内存值

TEZNKK3IfmPf 17天前 25 0 0 IDEA jvm

JVM（四）排查工具使用

TEZNKK3IfmPf 2024年05月31日 18 0 0 线程 jvm 虚拟机

es安装及使用

TEZNKK3IfmPf 2024年04月26日 32 0 0 搜索引擎 elasticsearch 大数据

Java基础深化和提高 ---- 反射技术

TEZNKK3IfmPf 2024年04月12日 40 0 0 反射 jvm

JVM系列（一）内存区域分布

TEZNKK3IfmPf 2024年05月31日 18 0 0 线程 jvm

深入理解synchronized背后的原理

TEZNKK3IfmPf 2024年03月30日 59 0 0 java synchronized jvm

Java - 多进程编程（对比线程、API 操作）

TEZNKK3IfmPf 2024年03月30日 72 0 0 java jvm 开发语言

ElasticSearch - 基础概念，以及和 mysql 的对比

TEZNKK3IfmPf 2024年03月29日 104 0 0 elasticsearch 大数据

JVM系列---【如何确定FullGC的频率?】

TEZNKK3IfmPf 2024年04月19日 36 0 0 jvm

ElasticSearch - 基于 JavaRestClient 查询文档（match、精确、复合查询，以及排序、分页、高亮）

TEZNKK3IfmPf 2024年03月29日 43 0 0 elasticsearch 大数据

java139-多个catch块

TEZNKK3IfmPf 17天前 46 0 0 java sql 大数据

面试害怕考到JVM? 看这一篇就够了~

TEZNKK3IfmPf 2024年03月30日 67 0 0 jvm 内存

Java-技术专区-JVM调优常用参数

TEZNKK3IfmPf 2024年03月30日 117 0 0 java jvm

90 网站点击流数据分析案例（工作流调度）

TEZNKK3IfmPf 2024年04月26日 49 0 0 xml Hive

Hive面试题

TEZNKK3IfmPf 2024年04月26日 62 0 0 hadoop Hive

elasticsearch操作（语句方式）

TEZNKK3IfmPf 2024年04月26日 38 0 0 搜索引擎 elasticsearch 大数据

JVM虚拟机及它的主要组成部分

TEZNKK3IfmPf 2024年04月19日 43 0 0 字节 java jvm

JVM系列一：JVM内存组成及分配

TEZNKK3IfmPf 2024年04月19日 39 0 0 jvm 内存

JVM系列二:GC策略&内存申请、对象衰老

TEZNKK3IfmPf 2024年04月19日 24 0 0 jvm GC 内存

TEZNKK3IfmPf

作者其他文章更多

使用代码获得所有适用于创建的transaction type

2024-06-14

C/C++ realloc()函数解析

2024-06-14

生成一个文件保存在指定的文件夹中思路 python

2024-06-14

Windows 10封装中出现“无法验证你的Windows安装”错误解决方法

2024-06-14

109-修改返回体的内容RestControllerAdvice

2024-06-14

C/C++ 判断进程是否存在

2024-06-14

使用面向对象重构之-使用接口完成行为抽象

2024-06-14

使用面向对象重构之-把抽象控制在一处：提高内聚性

2024-06-14

重操旧业障碍多

2024-06-14

关于关闭自动装配

2024-06-14

最新推荐更多

使用代码获得所有适用于创建的transaction type

2024-06-14

C/C++ realloc()函数解析

2024-06-14

生成一个文件保存在指定的文件夹中思路 python

2024-06-14

Windows 10封装中出现“无法验证你的Windows安装”错误解决方法

2024-06-14

109-修改返回体的内容RestControllerAdvice

2024-06-14

C/C++ 判断进程是否存在

2024-06-14

使用面向对象重构之-使用接口完成行为抽象

2024-06-14

使用面向对象重构之-把抽象控制在一处：提高内聚性

2024-06-14

重操旧业障碍多

2024-06-14

关于关闭自动装配

2024-06-14

使用面向对象重构之-从过程式设计到面向对象

2024-06-14

nodejs部署神器pm2的使用体验

2024-06-14

java虚拟机启动过程解析

2024-06-14

mysql-忘记密码时重置操作

2024-06-14

Callable和runnable的区别

2024-06-14

python的粘包和分包

2024-06-14

tftp文件服务（udp端口：69）

2024-06-14

C语言反汇编 - 流程控制与循环结构

2024-06-14

python-列表包字典-根据字典的某一个键的值来进行排序

2024-06-14

使用面向对象重构之-使用接口抽象完成不同维度的扩展

2024-06-14