大数据
大数据计算与存储 标签描述

作者:vivo互联网大数据团队XuYu 在增效降本的大背景下,vivo大数据基础团队引入Hudi组件为公司业务部门湖仓加速的场景进行赋能。主要应用在流批同源、实时链路优化及宽表拼接等业务场景。 一、Hudi基础能力及相关概念介绍 1.1流批同源能力 与Hive不同,Hudi数据在Spark/Flink写入后,下游可以继续使用Spark/Flink引擎以流读的形式实时读取数据。同一份Hudi数据源既可以批读也支持流读。 Flink、Hive、Spark的流转批架构: Hudi流批同源架构: 1.2COW和MOR的概念 Hudi支持COW(CopyOnWrite)和MOR(MergeOnR...