Hive学习路线-Hive中的分桶-摩杜云开发者社区

Hive学习路线-Hive中的分桶

yXrgnj2AQg6w 2023年11月27日 30 0

字段字段数据 hive 数据 hive

八、Hive中的分桶

分区：将文件切割成多个子目录

select * from partition(k=v) ;//减少数据量

分桶：将文件切割成多个小文件

采集数据，按照桶采集 //减少数据量

桶中数据的join操作，效率更高 //减少数据量

原理：

MR中：按照key的hash值对reducetask个数求模

Hive中：按照分桶字段的hash值对分桶的个数求模

分桶：

方便抽样（采用数据）

提高join的查询效率

案例：

1. 创建表，设置分桶字段 create table cluster_tb(id int ,name string) clustered by(id) into 4 buckets row format delimited fields terminated by ','; 创建普通表： create table cluster_tb2(id int ,name string) row format delimited fields terminated by ','; load data local inpath '/home/zhangsan/cluster.txt' into table cluster_tb2; 2. 配置属性 set hive.enforce.bucketing=true set mapreduce.job.reduces=-1 3. 使用子查询的方式，将数据添加到cluster_tb中 insert into table cluster_tb select id,name from cluster_tb2 cluster by(id);

数据的采集：

select * from tbName tablesample (bucket startNum out of sizeNum on colName) //从startNum开始抽取数据，采取bucketSize/sizeNum的数据

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇：前端学习笔记202308学习笔记第七拾玖天-weakMap之2 下一篇：无涯教程-Linux - 引用机制

分享：

最后一次编辑于 2023年11月27日 0

暂无评论

推荐阅读

Google PWA永久包领先者 | 【永不掉包】安卓应用代上架方案

google pwa 2024年04月23日 94 0 0 数据数据数据数据

静态代理IP是否支持HTTP和HTTPS？

Smartproxy 2024年05月06日 80 0 0 linux 数据 python 数据 Java linux 数据 python 数据

关于ISP解答

Smartproxy 2024年04月19日 56 0 0 linux 数据 java 数据 Java MySQL资讯 linux 数据数据

谷歌新增APP上架渠道: Google PWA，附带ROI增强功能，优于Google Play和APK方式，进入Google PWA是王道！

google pwa 2024年04月19日 100 0 0 数据数据数据数据

安卓上架永久包解决方案| 免审核，免抽佣，极速上架，google wpa让你一次搞定应用上架

google pwa 2024年04月16日 100 0 1 数据数据数据数据

新客户免费上架安卓pwa app永久包，google pwa让您的Android飞速上架！

google pwa 2024年04月15日 184 0 4 数据数据数据数据

海外APP上架不再难，新客户免费上架Google PWA APP永久包

google pwa 2024年04月22日 80 0 0 数据数据数据数据

高性价比的海外IP代理,-Smart Proxy

Smartproxy 2024年04月15日 217 0 2 linux 数据 python java 数据 Java linux 数据 python 数据

选择使用海外IP还是国外IP代理？海外动态住宅代理的使用规则

Smartproxy 2024年04月29日 58 0 0 linux 数据 python java 数据 Java linux 数据 python 数据

使用代理http时出现503服务不可用的原因是什么？

Smartproxy 2024年04月26日 73 0 0 linux 数据 java 数据 MySQL资讯 redis linux 数据数据

代理http中的代理池对于爬虫业务有多重要？

Smartproxy 25天前 77 0 0 数据 python java 数据 Java redis 数据 python 数据

代理IP速度变慢的原因是什么，要如何解决？

Smartproxy 2024年05月09日 120 0 0 linux 数据数据 linux 数据数据

Google PWA APP永久包，免审核，0佣金，谷歌app上架包成功！

google pwa 2024年04月17日 98 0 1 数据数据数据数据

建立HTTP代理IP池的技术和工具支持

Smartproxy 2024年05月09日 217 0 0 数据 java 数据 Java 数据数据

Google WPA APP上架永久包，极速pwa安装，免审核，0佣金，无下架风险！

google pwa 2024年04月18日 211 0 0 数据数据数据数据

选择使用海外IP还是国外IP代理？海外动态住宅代理的使用规则

Smartproxy 2024年04月17日 84 0 0 数据 java 数据数据数据

短效http代理ip和动态http代理有什么联系？

Smartproxy 2024年05月10日 114 0 0 linux 数据 python 数据 Java linux 数据 python 数据

选择使用海外IP还是国外IP代理？海外动态住宅代理的使用规则

Smartproxy 2024年04月18日 84 0 0 linux 数据 python 数据 Java linux 数据 python 数据

Socks5代理IP：保障跨境电商的网络安全

Smartproxy 2024年05月10日 120 0 0 数据 python java 数据 Java 信息系统数据 python 数据

多号管理为什么要用http代理中的独享IP代理服务？

Smartproxy 2024年04月29日 78 0 0 数据 python java 数据 Java 数据 python 数据

yXrgnj2AQg6w

作者其他文章更多

Hive学习路线-Hive中的分桶

2023-11-27

Hive学习路线-优化

2023-11-26

ZIP压缩与解压命令

2023-11-25

ZIP压缩与解压命令

2023-11-25

POSIX：可移植操作系统接口

2023-11-24

使用python进行打开谷歌浏览器并且进行关键字搜索

2023-11-22

运算符和表达式

2023-11-20

C枚举类型

2023-11-19

C常量和变量

2023-11-18

C#数据类型、变量规范、常量和枚举

2023-11-17

最新推荐更多

Spring Boot —— 集成 MyBatis-Plus

2024-05-20

keycloak~作为第三方登录的对接标准

2024-05-20

【日记】母亲生日，我在跟数字人民币 Battle（612 字）

2024-05-18

FFmpeg开发笔记（二十一）Windows环境给FFmpeg集成AVS3解码器

2024-05-18

Qt学习第二篇（基本小组件的使用）

2024-05-18

全网首一份！你最需要的PPTP MS-CHAP V2 挑战响应编程模拟计算教程！代码基于RFC2759，附全部源码！

2024-05-18

Python 潮流周刊#51：用 Python 绘制美观的图表

2024-05-18

Django测试与持续集成：从入门到精通

2024-05-18

自研WPF插件系统(沙箱运行及热插拔)

2024-05-18

记一次asp.net 8 服务器爆满的解决过程

2024-05-18

非常全能WinForm 开发框架 - ReaLTaiizor

2024-05-18

C#反射

2024-05-18

net core jwt的基本原理和实现

2024-05-18

VUE3/JAVA 操作系统开发日志[day 1]

2024-05-18

Nginx R31 doc 官方文档-01-nginx 如何安装

2024-05-18

2024 年 5 月 8 日周三晴热（471 字）

2024-05-17

2024 年 5 月 9 日周四阴常（137 字）

2024-05-17

2024 年 5 月 10 日周五阴凉（1025 字）

2024-05-17

lua~基本语法

2024-05-17

2024 年 5 月 12 日母亲节周日晴常（197 字）

2024-05-17