Kettle基于字段去除重复记录操作过程
  9OVhFvwkhDei 2023年12月13日 36 0


前段时间,在做数据治理工作的时候遇到一个问题,ETL抽取数据至了一张没有主键的表,由于ETL源头数据问题,造成了我们的无主键目标表出现了大量的重复数据。不要轻易想着我拿手删吧删吧来处理。整体目标表大概几个亿数据,重复数据高达五六千万。
这里讲解一个用Kettle来处理的方案!

整体的实现思路如下:

  1. 输入数据源
  2. 基于重复字段数据排序
  3. 重复字段条件处理,即合理判定重复数据
  4. 数据源输出


场景描述



一、场景描述:


比较庞大的数据中,想要根据一个或者多个字段判别是否位重复 数据的去重复操作。


本案例以mysql为案例描述

创造一个id带有重复的数据测试

Kettle基于字段去除重复记录操作过程_java


输入



一、数据源输入 菜单中的【输入】【表输入】设定自己的数据源方案


Kettle基于字段去除重复记录操作过程_数据_02



排序



二、根据去重字段排序【转换】【排序记录】设定字段(去重复字段)排序


Kettle基于字段去除重复记录操作过程_etl_03



去重复



三、去重复操作 【转换】【去除重复记录】设定字段


Kettle基于字段去除重复记录操作过程_Data_04


输出



四、处理后的数据输出至新表 【输出】【表输出】


Kettle基于字段去除重复记录操作过程_Data_05



执行方案



五、开始方案


Kettle基于字段去除重复记录操作过程_Data_06


注意
<1> 如果新表尚未建立,在设定好表输出后的新表名字后,点击【SQL】按钮,即可建立新的空表。如果数据庞大,在建表后,方案开始执行之前,记得 提前把需要的索引先建立出来。

<2>该操作,相当于把源数据,清洗冲洗输出一遍,需保证自己的磁盘空间够用。

看一下 我们的最终成功:

Kettle基于字段去除重复记录操作过程_数据_07

  • 至此结束

延伸:


关于kettle


数据集成及BI分析套件Pentaho的开源ETL组件
Kettle最早是一个开源的ETL工具,全称为KDE Extraction, Transportation, Transformation and Loading Environment。在2006年,Pentaho公司收购了Kettle项目,原Kettle项目发起人Matt Casters加入了Pentaho团队,成为Pentaho套件数据集成架构师 [1] ;从此,Kettle成为企业级数据集成及商业智能套件Pentaho的主要组成部分,Kettle亦重命名为Pentaho Data Integration [1-2] 。Pentaho公司于2015年被Hitachi Data Systems收购。 [3] (Hitachi Data Systems于2017年改名为Hitachi Vantara [4] )
Pentaho Data Integration以Java开发,支持跨平台运行,其特性包括:支持100%无编码、拖拽方式开发ETL数据管道;可对接包括传统数据库、文件、大数据平台、接口、流数据等数据源;支持ETL数据管道加入机器学习算法。
Pentaho Data Integration分为商业版与开源版,开源版的截止2021年1月的累计下载量达836万,其中19%来自中国 [5] 。在中国,一般人仍习惯把Pentaho Data Integration的开源版称为Kettle。


产生背景


广泛利用内部数据(例如:ERP、CRM、POS、设备数据、日志)以及外部数据(行业数据、宏观经济数据、社交媒体、评论)来对现有业务做各样分析以及对未来做预测,最终以数据驱动业务,已经是任何组织赖以生存的必要手段。然后,要使有价值的数据分析在组织内各层级管理人员的手机、Pad以及大屏呈现之前,数据必须先从各个源头进行抽取(Extract),加载(Load)至数据湖(Data Lake),然后需要对在大数据存储里(例如: Hadoop,S3,MongoDB)的数据各类加工,包括清洗(Cleanse)、把来自不同来源、不同格式的数据混合(Blend)、转换(Transform),再把数据按照分析需求进行建模(Modeling)和聚合(Aggregation),或者在数据挖掘之前进行数据预备和特征工程(Data Preparation & Feature Engineering),最终数据被加载至数据仓库或数据集市中。整个过程比30年前刚出现ETL的概念已经复杂了许多;再加上组织需要处理除了结构化数据(例如:传统关系型数据库),还包括非结构化数据(例如:日志、客户评论、图片),同时,各组织已不满足于T+1的滞后分析而纷纷对数据进行更有价值的实时或近实时数据分析(real-time or near-real-time analysis),导致数据集成(Data Integration)的复杂度大大提高。作为全球累计下载量超过835万,源于开源的数据集成平台 [5] ,Pentaho Data Integration平均每半年一次大版本升级,以应对数据集成不断变化的需求。


发展历程



Kettle最早是一个开源的ETL工具,全称为KDE Extraction, Transportation, Transformation and Loading Environment。在2006年,Pentaho公司收购了Kettle项目,原Kettle项目发起人Matt Casters加入了Pentaho团队,成为Pentaho套件数据集成架构师 [1] ,从此,Kettle成为企业级数据集成及商业智能套件Pentaho的主要组成部分,Kettle亦重命名为Pentaho Data Integration [1-2] 。Pentaho公司于2015年被Hitachi Data Systems收购。 [3] (Hitachi Data Systems于2017年改名为Hitachi Vantara [4] )



主要功能


Pentaho Data Integration作为一个端对端的数据集成平台,可以对多种数据源进行抽取(Extraction)、加载(Loading)、数据落湖(Data Lake Injection)、对数据进行各种清洗(Cleaning)、转换(Transformation)、混合(Blending),并支持多维联机分析处理(OLAP)和数据挖掘(Data mining)。部分特色功能包括:
无代码拖拽式构建数据管道
Pentaho采用拖拽组件、连线、配置的方式来构建数据管道,透过超过200个不同的组件 [6] ,用户可以在不编写一句代码就能轻松完成对数据源读取,对数据进行关联、过滤、格式转换、计算、统计、建模、挖掘、输出到不同的数据目标。极大程度地降低开发技术门槛和有效减低开发和维护成本。
多数据源对接
关系型数据库支持类型包括:AS/400, DB2, Google BigQuery, Greenplum, Hive, Impala, MS SQL Server, MySQL, Oracle, PostgreSQL, SAP, Snowflake, SparkSQL, Sybase, Teradata, Vertica等 [7] 。大数据源支持包括:Avro, Cassanddra, HBase, HDFS, MongoDB, ORC, Parquet, Splunk等。文件格式支持包括:CSV, TXT, JSON, Excel, XML等。流数据支持包括:AMQP, JMS, Kafka, Kinesis, MQTT, 其他数据源对接包括:HL7, S3, SAS, Salesforce, HCP, REST等。
数据管道可视化
Pentaho Data Integration支持用户在数据管道任何一个步骤对当前数据进行查看(Examine),并可以在线以表格和图表(例如:柱状图、饼图等)输出步骤的数据,甚至可以支持不落地直接把任何一个步骤的数据以JDBC的方式提供给第三方应用访问 [8] 。
模板化开发数据管道
在数据抽取的过程中,ETL工程师通常要从众多不同的数据源把数据抽取到数仓的ODS层,或者到Hadoop的HDFS,整个过程的数据转换逻辑比较简单,但往往因为数据源很多而导致大量低价值重复开发工作,为了有效节省开发的时间和成本,Pentaho Data Integration提供了一个叫MDI的功能,MDI全称是Metadata Injection元数据注入,用户可以透过MDI把数据转换模板化,然后把像数据表名、文件路径、分隔符、字符集等等这些变量放在一个表或者文件里,然后利用MDI把这些变量注入数据转换模板,Pentaho Data Integration就能够自动生成所需要的数据转换了 [9] 。这个功能为很多客户节省了大量的开发时间。
可视化计划任务
Pentaho Data Integration提供可视化方式配置任务计划(Schedule),用户可透过Spoon或网页端的Pentaho User Console来配置和维护任务具体的执行时间、间隔、所使用的参数值、以及具体运行的服务器节点。用户亦可以透过Spoon或Pentaho User Console查看任务计划列表 [10] ;当然,用户也可以透过Spoon或Pentaho User Console对任务执行情况进行实时监控。
深度Hadoop支持
Pentaho Data Integration针对Hadoop主流厂家预置专用的对接插件,支持的Hadoop版本包括Cloudera, Hortonworks, AWS EMR, Google Dataproc等,用户除了可以透过插件轻松对接Hadoop集群的数据源(HDFS, Hive, HBase, Impala等)Pentaho还提供与Kerberos、Sentry和Ranger等Hadoop企业级安全机制对接,以满足企业安全要求;另外,Pentaho Data Integration的Pentaho MapReduce提供用户以无编码方式定义MapReduce任务;同时,用户亦可以在作业中执行Sqoop、Pig、MapReduce、Oozie和Spark任务。 [11]
数据任务下压Spark集群
对于很多使用Hadoop的企业,往往因为数据量大,考虑到性能,会以脚本的方式来在集群里直接进行数据转换,我们一般叫这个做ELT(Extract-Load-Transform),就是先把数据加载到Hadoop,再在Hadoop集群里进行转换。为了让用户仍然能够透过Pentaho Data Integration简单的拖拽方式构建数据转换管道,同时又可以让数据在集群里进行In-Cluster转换,Pentaho提供了把数据转换任务下压到Spark来执行的AEL(Adaptive Execution Layer)功能,搭建好的数据管道会被AEL转成Spark任务来执行 [12] ,这样数据就不需要离开集群,而是在集群里透过Spark强大的分布式处理能力来进行处理。
数据挖掘与机器学习支持
最新版的Pentaho9.1预置了超过20种数据挖掘算法类的转换步骤,用户可以轻松把把机器学习集成到数据管道里,用来做数据模型训练和进行预测分析。预置算法包括:决策树、深度学习、线性回归、逻辑回归、Naive贝尔斯、随机森林等等,用户也可以利用Pentaho Data Integration作数据预备,然后把数据以dataframe的方式输入到Python或R中进行模型训练或预测。

  • ETL
    ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
    ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETL是BI(商业智能)项目重要的一个环节。

技巧:灵活掌握Kettle的转化组件

  • 总结:
    ETL强大,Kettle也很强大!


【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年12月13日 0

暂无评论

推荐阅读
  2Vtxr3XfwhHq   2024年05月17日   38   0   0 Java
  8s1LUHPryisj   2024年05月17日   35   0   0 Java
  aRSRdgycpgWt   2024年05月17日   38   0   0 Java
9OVhFvwkhDei