摩杜云开发者社区-摩杜云

大数据

大数据计算与存储标签描述

文章 | Hudi 在 vivo 湖仓一体的落地实践

作者：vivo互联网大数据团队XuYu 在增效降本的大背景下，vivo大数据基础团队引入Hudi组件为公司业务部门湖仓加速的场景进行赋能。主要应用在流批同源、实时链路优化及宽表拼接等业务场景。一、Hudi基础能力及相关概念介绍 1.1流批同源能力与Hive不同，Hudi数据在Spark/Flink写入后，下游可以继续使用Spark/Flink引擎以流读的形式实时读取数据。同一份Hudi数据源既可以批读也支持流读。 Flink、Hive、Spark的流转批架构： Hudi流批同源架构： 1.2COW和MOR的概念 Hudi支持COW（CopyOnWrite）和MOR（MergeOnR...

1e1eAFDdY2vd 2023年12月23日 16 0 0 效率提升数据湖大数据计算与存储大数据计算与存储数据湖效率提升