sql优化基本-摩杜云开发者社区

sql优化基本

pzUzxJ5N3Nk5 2023年11月13日 20 0

hive 数仓 hive 数据 spark 数仓 spark 数据

对于数据开发的各种数据库，网上都有各自对应的优化方法，在用的时候可以再搜索查找，一般来说对数仓专门优化的时候，可想而知资源有多紧张，这在架构部署之初完全可以避免的。

在hive使用的过程中优化配置要多一些，但在使用测试的时候，个人经验，常用几种

切换执行引擎tez
set hive.execution.engine=tez; 

加载本地
set hive.exec.mode.local.auto=true;

设置并行：
set hive.exec.parallel=true;
set hive.exec.parallel.thread.number=8;

集群部署后，一般默认是mapreduce，现在部署hadoop集群一般都有安装tez和spark，切换执行引擎是tez后，执行效率起码要比mapreduce快一倍。切换spark引擎后，在hive中使用效果不明显，在sparksql使用居多。

设置本地加载参数，限制是小文件，如果是大文件就不能设置，以免增加IO开销。

其他关于sql优化的感受：

对于数据库的各种优化操作，知道即可，在面试的时候用得上。

1、在工作中一定养成良好的习惯，

2、在上线脚本中，表关联最好不要超过三个，多建临时表。字面意思的空间换时间。因为在结果表发现数据出问题、丢数据等，排查定位都效率下降。

3、上线脚本中，少炫技，用最简单直接的sql开发数据，就比如在hive中，写with语句就好比先创建视图，后面语句中表多次关联的时候，就相当于每次都扫描，多创建一次临时表就可以避免的操作。

数据开发脚本过程，可以说在日常维护中接触是最多的，代码整齐简洁，保持一点强迫症反而是好事。除非自己是一个劲加工数据，不用维护。否则，当数据出现问题，当过程冗长复杂，当看到别人写的sql 是一坨一坨的时候，真的想打人。

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇：哈药盖中盖“盖了帽了-健步挑战赛”召开，让运动化身亲情纽带下一篇：连锁餐饮品牌如何落地 CJO 理念，实现精细化用户运营

分享：

最后一次编辑于 2023年11月13日 0

暂无评论

推荐阅读

hive reflect取数组中最大的

sElzGQA8fX6P 2023年12月23日 84 0 0 hive 字段 hive 数组字段数组

统计每小时数据的处理

KRe60ogUm4le 2024年05月17日 59 0 0 数据数组

大数据篇（二） Spark运行环境

KRe60ogUm4le 2024年05月31日 37 0 0 大数据 Kubernetes spark

hive查询多个表的数据条数

uBACcm3oHgm7 2023年12月23日 66 0 0 hive 加载数据加载数据数据数据 hive

截止今天学习大数据技术的笔记

KRe60ogUm4le 2024年04月26日 55 0 0 hive Hadoop kafka

hive select 字段别名

sElzGQA8fX6P 2023年12月23日 129 0 0 hive 示例代码字段示例代码 hive 字段

最终一致性和实时一致性是什么？在架构设计中，我们应该选择哪种方式？

KRe60ogUm4le 2024年05月03日 48 0 0 Service 数据

hive on spark 怎么配置

529IrGbiySY6 2023年12月23日 75 0 0 hive 执行引擎 spark hive spark 执行引擎

从纯函数讲起，一窥最深刻的函子 Monad

KRe60ogUm4le 2024年04月26日 49 0 0 javascript 数据

hive sql转置函数

AyUM17vPJ7Nd 2023年12月23日 47 0 0 hive 转置数据数据 hive 转置

大数据篇（五） Spark SQL简介

KRe60ogUm4le 2024年05月31日 33 0 0 大数据 java spark

hive查询锁表

DnO2EFaOOFqd 2023年12月23日 47 0 0 hive 锁表 sql sql 锁表 hive

【大数据篇】Spark运行时架构详解

KRe60ogUm4le 2024年05月31日 33 0 0 大数据架构 spark

hive sql 多表 join

7YynnRRFCsyP 2023年12月23日 45 0 0 hive sql sql hive 多表多表

hive的rename语法

eiYoUGgFNvQA 2023年12月23日 48 0 0 hive 重命名 hive 数据库重命名数据库

lightdash 对于数据访问的处理

KRe60ogUm4le 2024年05月31日 33 0 0 sql 数据

给定一个正数数组arr长度为n、正数x、正数y。

KRe60ogUm4le 2024年05月17日 45 0 0 数据数组算法

高频数据采集请求如何不影响主业务（7）

KRe60ogUm4le 2024年05月03日 47 0 0 数据 kafka

pzUzxJ5N3Nk5

作者其他文章更多

hive基本操作

2023-11-13

sql优化基本

2023-11-13

最新推荐更多

【Leetcode】排序+双指针-16

2024-05-31

【.net 深呼吸】设置序列化中的最大数据量

2024-05-31

【Leetcode】python哈希表

2024-05-31

【Leetcode】链表-21，23

2024-05-31

vue再读20-表格案例--处理无数据的时候的渲染

2024-05-31

你被请来给一个要举办高尔夫比赛的树林砍树，树林由一个 m x n 的矩阵表示，在这个矩阵中： 0 表示障碍，无法触碰 1 表示地面，可以行走比 1 大的数表示有树的单元格

2024-05-31

假设有一个源源吐出不同球的机器，只有装下10个球的袋子，每一个吐出的球，要么放入袋子，要么永远扔掉。

2024-05-31

比jsonpath 更方便的json 数据查询JMESPath 使用

2024-05-31

已知一棵二叉树上所有的值都不一样，给定这棵二叉树的头节点head，给定一个整型数组arr，arr里放着不同的值，每个值一定在树上返回数组里所有值的最低公共祖先。

2024-05-31

给定一个数组arr，给定一个值v。求子数组平均值小于等于v的最长子数组长度。

2024-05-31

线性回归api深度介绍

2024-05-31

给定一个单链表的头节点head，请判断该链表是否为回文结构。

2024-05-31

力扣546，移除盒子。给出一些不同颜色的盒子，盒子的颜色由数字表示，即不同的数字表示不同的颜色。你将经过若干轮操作去去掉盒子，直到所有的盒子都去掉为止。

2024-05-31

给定一个数组arr，长度为N ＞ 1，从中间切一刀，保证左部分和右部分都有数字，一共有N-1种切法，如此多的切法中，每一种都有:绝对值(左部分最大值 – 右部分最大值)。

2024-05-31

【算法】哨兵思想 -- 待进一步总结

2024-05-31

给定两个可能有环也可能无环的单链表，头节点head1和head2。请实现一个函数，如果两个链表相交，请返回相交的第一个节点。如果不相交，返回null。

2024-05-31

数据统计之日分类商品访问量

2024-05-31

稀疏数组搜索

2024-05-31

魔术索引（返回索引值最小的一个）

2024-05-31

求表达式 f(n)结果末尾0的个数

2024-05-31