hive 列式-摩杜云开发者社区

hive 列式

MvB0DW3BzXHQ 2023年11月30日 25 0

列式存储 hive hive 外部表列式存储外部表

实现Hive列式存储的步骤

概述

Hive是一种基于Hadoop的数据仓库基础架构工具，用于处理大规模结构化数据。Hive采用的是基于MapReduce的方式进行数据处理，而Hive列式存储则是一种优化技术，可以提高查询性能和数据压缩比。本文将教你如何实现Hive的列式存储。

流程

flowchart TD
    A(创建外部表) --> B(创建内部表)
    B --> C(导入数据)
    C --> D(开启列式存储)

详细步骤

1. 创建外部表

首先，我们需要创建一个外部表来引用数据文件，外部表不会将数据移动到Hive仓库目录中，而是直接指向数据文件所在的位置。

CREATE EXTERNAL TABLE external_table (
  column1 datatype1,
  column2 datatype2,
  ...
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LOCATION '/path/to/data';

在上述代码中，你需要根据实际情况修改表名、列名、数据类型和数据文件的位置。

2. 创建内部表

接下来，我们需要创建一个内部表，该表将用于存储列式存储的数据。

CREATE TABLE internal_table (
  column1 datatype1,
  column2 datatype2,
  ...
)
STORED AS ORC;

在上述代码中，你需要根据实际情况修改表名、列名和数据类型。

3. 导入数据

接下来，我们需要将外部表中的数据导入到内部表中。

INSERT INTO TABLE internal_table SELECT * FROM external_table;

在上述代码中，我们使用INSERT INTO语句将外部表的数据插入到内部表中。

4. 开启列式存储

最后，我们需要开启列式存储，以便Hive能够使用列式存储的优化技术。

SET hive.exec.compress.output=true;
SET hive.exec.compress.intermediate=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;

在上述代码中，我们通过设置Hive的配置来启用压缩和列式存储。

至此，我们已经完成了Hive列式存储的实现。

希望上述步骤能够帮助到你，如果还有其他问题，请随时提问。

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇： hive 动态分区 load加载数据下一篇： hive 日期格式转换成时间戳

分享：

最后一次编辑于 2023年11月30日 0

暂无评论

推荐阅读

hive reflect取数组中最大的

sElzGQA8fX6P 2023年12月23日 84 0 0 hive 字段 hive 数组字段数组

hadoop 上传表数据

RicJUpRJV7So 2023年12月23日 27 0 0 外部表上传 Hadoop 上传 Hadoop 外部表

hive查询多个表的数据条数

uBACcm3oHgm7 2023年12月23日 67 0 0 hive 加载数据加载数据数据数据 hive

截止今天学习大数据技术的笔记

KRe60ogUm4le 2024年04月26日 58 0 0 hive Hadoop kafka

hive select 字段别名

sElzGQA8fX6P 2023年12月23日 130 0 0 hive 示例代码字段示例代码 hive 字段

hive input

0noBQ6yUPIt9 2023年12月23日 47 0 0 hive hive HDFS 外部表 HDFS 外部表

hive on spark 怎么配置

529IrGbiySY6 2023年12月23日 76 0 0 hive 执行引擎 spark hive spark 执行引擎

hive sql转置函数

AyUM17vPJ7Nd 2023年12月23日 48 0 0 hive 转置数据数据 hive 转置

hive 一次添加多个字段

67PT2pJOaiwq 2023年12月23日 137 0 0 hive 字段 Hadoop hive hadoop 字段

hive查询锁表

DnO2EFaOOFqd 2023年12月23日 48 0 0 hive 锁表 sql sql 锁表 hive

hive sql 多表 join

7YynnRRFCsyP 2023年12月23日 46 0 0 hive sql sql hive 多表多表

hive的rename语法

eiYoUGgFNvQA 2023年12月23日 49 0 0 hive 重命名 hive 数据库重命名数据库

MvB0DW3BzXHQ

作者其他文章更多

androidstuio module aar自定义名字

2023-12-23

android LinearLayout 换行

2023-12-23

Android 开关 Switch使用

2023-12-23

python dataframe获取行数

2023-12-23

java中double取出后两位数据

2023-12-22

python绘制圆柱温度图

2023-12-22

java 注释显示url

2023-12-22

java 设置 Field 的值

2023-12-22

anaconda安装python库报错

2023-12-19

Java用base64加密

2023-12-19

最新推荐更多

【Leetcode】排序+双指针-16

2024-05-31

【.net 深呼吸】设置序列化中的最大数据量

2024-05-31

【Leetcode】python哈希表

2024-05-31

【Leetcode】链表-21，23

2024-05-31

vue再读20-表格案例--处理无数据的时候的渲染

2024-05-31

你被请来给一个要举办高尔夫比赛的树林砍树，树林由一个 m x n 的矩阵表示，在这个矩阵中： 0 表示障碍，无法触碰 1 表示地面，可以行走比 1 大的数表示有树的单元格

2024-05-31

假设有一个源源吐出不同球的机器，只有装下10个球的袋子，每一个吐出的球，要么放入袋子，要么永远扔掉。

2024-05-31

比jsonpath 更方便的json 数据查询JMESPath 使用

2024-05-31

已知一棵二叉树上所有的值都不一样，给定这棵二叉树的头节点head，给定一个整型数组arr，arr里放着不同的值，每个值一定在树上返回数组里所有值的最低公共祖先。

2024-05-31

给定一个数组arr，给定一个值v。求子数组平均值小于等于v的最长子数组长度。

2024-05-31

线性回归api深度介绍

2024-05-31

给定一个单链表的头节点head，请判断该链表是否为回文结构。

2024-05-31

力扣546，移除盒子。给出一些不同颜色的盒子，盒子的颜色由数字表示，即不同的数字表示不同的颜色。你将经过若干轮操作去去掉盒子，直到所有的盒子都去掉为止。

2024-05-31

给定一个数组arr，长度为N ＞ 1，从中间切一刀，保证左部分和右部分都有数字，一共有N-1种切法，如此多的切法中，每一种都有:绝对值(左部分最大值 – 右部分最大值)。

2024-05-31

【算法】哨兵思想 -- 待进一步总结

2024-05-31

给定两个可能有环也可能无环的单链表，头节点head1和head2。请实现一个函数，如果两个链表相交，请返回相交的第一个节点。如果不相交，返回null。

2024-05-31

数据统计之日分类商品访问量

2024-05-31

稀疏数组搜索

2024-05-31

魔术索引（返回索引值最小的一个）

2024-05-31

求表达式 f(n)结果末尾0的个数

2024-05-31