后端开发
etl 标签描述

前段时间,在做数据治理工作的时候遇到一个问题,ETL抽取数据至了一张没有主键的表,由于ETL源头数据问题,造成了我们的无主键目标表出现了大量的重复数据。不要轻易想着我拿手删吧删吧来处理。整体目标表大概几个亿数据,重复数据高达五六千万。这里讲解一个用Kettle来处理的方案! 整体的实现思路如下: 输入数据源 基于重复字段数据排序 重复字段条件处理,即合理判定重复数据 数据源输出 场景描述 一、场景描述: 比较庞大的数据中,想要根据一个或者多个字段判别是否位重复数据的去重复操作。 本案例以mysql为案例描述 创造一个id带有重复的数据测试 输入 一、数据源输入菜单中的【...