第01章SparkSQL简介和常用语句2 1.1表2 1.1.1什么是SparkSQL中的表2 1.1.2内部表和外部表2 1.1.3视图3 1.1.4查看表描述3 1.2分区和分桶3 1.2.1什么是SparkSQL的分区(partition)3 1.2.2什么是SparkSQL的分桶(bucket)4 1.3写入数据5 1.3.1通过create写入数据5 1.3.2通过insert覆盖写入数据5 1.3.3通过insert覆盖写入静态分区数据6 1.3.4通过insert覆盖写入动态分区数据7 1.3.5永远不要用insert追加写入数据7 第01章SparkSQL简介和常用语句 Spa...

  jOqYTgEXfJbg   2023年11月02日   51   0   0 HDFS数据sql数据SQLHDFS

目录 第02章存储和压缩格式2 2.1存储和压缩格式对比2 2.2查询效果测试3 2.3查询效果测试带shuffle3 第02章存储和压缩格式 存储和压缩格式简介 SparkSQL表存储的数据量都特别大,因此存储格式要考虑查询性能写入性能和存储成本。而orc存储格式是一种列式存储,在查询写入时比较快,而存储成本也比较低。 这是我们在1T(未压缩)规模上做的存储和查询性能测试。 2.1存储和压缩格式对比 文件存储格式\文件压缩格式 None(GB) Snappy(GB) Gzip(GB) Lzo(GB) Text(行式存储) 1843.2 431.0 210.8 387....

目录 第03章处理数据基础模型2 3.1SparkUI介绍2 3.1.1Jobs选项卡2 3.1.2Stages选项卡3 3.1.3Environment选项卡4 3.1.4SQL/DataFrame选项卡4 3.2map阶段5 3.3reduce阶段6 3.4commit阶段6 第03章处理数据基础模型 SparkSQL处理数据基础模型简介 我们要想写出性能很好的SparkSQL,那么我们必须掌握SparkSQL是如何处理数据的。虽然SparkSQL处理数据是非常复杂的,不过我们也能从中归纳出一种简单通用模型,那就是map阶段—>reduce阶段—>commit阶段。 3.1Sp...

  jOqYTgEXfJbg   2023年11月02日   25   0   0 选项卡数据sql选项卡数据SQL

目录 第04章SparkSQL常用参数2 4.1AQE优化控制2 4.2SHUFFLE分区个数控制3 4.3SHUFFLE输入大小控制3 4.4TASK内存参数3 4.5TASK同时运行个数3 4.6其它REDUCE阶段相关参数4 4.7如何预估每个REDUCE任务处理的数据量6 第04章SparkSQL常用参数 4.1AQE优化控制 通过设置spark.sql.adaptive.enabled参数,可以开启reduce合并功能。比如有500个map,每个map过滤后只有1M数据,每个reduce应该处理128M数据,那么只需要4个reduce就能处理数据,执行速度更快,而且还合并了小文件。 ...

  jOqYTgEXfJbg   2023年11月02日   37   0   0 运行时间sqlsparksparkSQL运行时间

目录 5.1实现自定义UDF2 5.2实现自定义UDTF3 5.3实现自定义UDAF4 5.4解析JSON数据6 5.4.1解析OBJECT数据6 5.4.2解析ARRAY数据7 5.4.3禁止使用get_json_object函数8 第05章自定义函数和JSON数据解析 自定义函数简介 有一些sql很难处理的逻辑,我们可以使用自定义函数去处理。比如对一个字符串加密、对字符串解密、解析json,调用外部服务等。 5.1实现自定义UDF UDF就是一进一出的函数,类似于SparkSQL中的round(四舍五入)函数。 输入是一行数据的某一个字段,转为某一个值。 先引入jar包 <depen...

  jOqYTgEXfJbg   2023年11月02日   40   0   0 hive数据JSONhiveJSON数据

目录 第06章基于TPC-DS进行性能测试2 6.1搭建TPC-DS环境2 6.1.1下载项目2 6.1.2准备JAVA编译环境2 6.1.3准备本地编译环境2 6.1.4编译项目4 6.1.5生产测试数据和表4 6.2进行TPC-DS测试5 6.2.1编写提交脚本5 6.2.2运行脚本进行TPC-DS测试6 6.35T数据规模下SPARK2/SPARK3性能测试结果6 第06章基于TPC-DS进行性能测试 TPC-DS简介 TPC-DS采用星型、雪花型等多维数据模式。它包含7张事实表,17张纬度表平均每张表含有18列。其工作负载包含99个SQL查询,覆盖SQL99和2003的核心部分以及OL...

  jOqYTgEXfJbg   2023年11月02日   51   0   0 hivehivesqlsparksparkSQL
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~