近日,ApacheSeaTunnel正式发布2.3.2版本。此时距离上一版本2.3.1发布已有两个多月,期间我们收集并根据用户和开发者的反馈,在2.3.2版本中对SeaTunnelZetaEngine进行了Bug修复,提高了引擎的稳定性和使用效率。 此外,新版本还对Connector-V2中的连接器进行了功能和性能优化,同时SQLTransfrom支持了自定义UDF函数,ZetaEngine也提供了通过RestAPI的方式进行集群的监控和查询操作。 本文将为大家介绍ApacheSeaTunnel2.3.2版本更新内容具体情况。 ReleaseNote:https://github....

  NCZdV8CZSb34   2023年11月01日   34   0   0 大数据

作者|刘广东,ApacheSeaTunnelCommitter 背景 目前,现有的图书搜索解决方案(例如公共图书馆使用的解决方案)十分依赖于关键词匹配,而不是对书名实际内容的语义理解。因此会导致搜索结果并不能很好地满足我们的需求,甚至与我们期待的结果大相径庭。这是因为仅仅依靠关键词匹配是不够的,因为它无法实现语义理解,也就无法理解搜索者真正的意图。 那么,有更好的方法可以让我们更加准确、高效地进行图书搜索吗?答案是有!本文中,我将介绍如何结合使用ApacheSeaTunnel、Milvus和OpenAI进行相似度搜索,实现对整个书名的语义理解,从而让搜索结果更加精准。 使用训练有素的模型来表...

  NCZdV8CZSb34   2023年11月01日   55   0   0 大数据

采访嘉宾|郭炜、高俊编辑|Tina 北京时间2023年6月1日,全球最大的开源软件基金会ApacheSoftwareFoundation(以下简称ASF)正式宣布ApacheSeaTunnel毕业成为Apache顶级项目(TLP,TopLevelProject)。 ApacheSeaTunnel于2021年10月申请加入Apache孵化器,不到2个月,便以“全票通过”的优秀表现正式成为Apache孵化器项目。2023年5月17日,Apache董事会通过ApacheSeaTunnel毕业决议,结束了为期18个月的孵化,正式确定ApacheSeaTunnel成为Apache顶级项目。 这是首个由国...

  NCZdV8CZSb34   2023年11月01日   20   0   0 大数据

版本说明: SeaTunnel:apache-seatunnel-2.3.2-SNAPHOT 引擎说明: Flink:1.16.2 Zeta:官方自带 前言 近些时间,我们正好接手一个数据集成项目,数据上游方是给我们投递到Kafka,我们一开始的技术选型是SpringBoot+Flink对上游数据进行加工处理(下文简称:方案一),由于测试不到位,后来到线上,发现数据写入效率完全不符合预期。后来将目光转到开源项目SeaTunnel上面,发现Source支持Kafka,于是开始研究测试,开发环境测试了500w+数据,发现效率在10000/s左右。果断放弃方案一,采取SeaTunnel对数据进...

  NCZdV8CZSb34   2023年11月01日   282   0   0 大数据

个人简介 王海林白鲸开源研发工程师 GitHubID:hailin0 做过性能监控、数据开发平台等,目前聚焦在数据集成同步及其周边生态的研发 问:作为白鲸开源的一员,您为社区做出过哪些贡献?具体方案(代码类)和贡献事迹有哪些? 最开始参与到社区,主要是贡献一些连接器插件以及修复bug,随着对项目加深了解之后,我发现E2E存在一些问题,随即推动了E2E规范化。之后又梳理了SeaTunnel对日志框架的依赖,改造了日志框架集成。随着继续深入同步引擎,我开始投入到支持CDC连接器开发中支持CDC读写、DDL变更捕获解析等功能 问:当初与ApacheSeaTunnel结缘,背后有什么故事吗? 因...

  NCZdV8CZSb34   2023年11月01日   62   0   0 大数据

作者|郭炜 策划|凌敏 前言 下面是一段利用Co-Pilot辅助开发的小视频,这是ApacheSeaTunnel开发者日常开发流程中的一小部分。如果你还没有用过Co-Pilot、ChatGPT或者私有化大模型帮助你辅助开发的话,未来的5年,你可能很快就要被行业所淘汰。因为这些善于使用AIGC辅助编程的人可以10倍于你的速度开发相应的代码,而你没有这个技能。我并不是危言耸听,读完此文,我相信你对AIGC研发提升研发效率会有全新的认知。 https://www.youtube.com/watch?v=-pBmwLZZtIw 大模型颠覆传统初级程序员的培训和辅导过程,让技术和经验“平权” 过去,初...

  NCZdV8CZSb34   2023年11月01日   70   0   0 大数据

时隔两个月,ApacheSeaTunnel终于迎来大版本更新。此次发布的2.3.3版本在功能和性能上均有较大优化改进,其中大家期待已久的CDCSchemaevolution(DDL变更同步)、主键Split拆分、JDBCSink自动建表功能、SeaTunnelZeta引擎支持作业配置支持变量替换和传参等都是更新的亮点。这些功能和优化使得ApacheSeaTunnel具备了更强大的数据同步能力,大幅提升了SeaTunnel的性能。本文将详细介绍本次更新的具体情况。 CDC相关更新 支持Schemaevolution 关于CDC方面的重要更新,是在架构层面支持了Schemaevolution...

  NCZdV8CZSb34   2023年11月01日   89   0   0 大数据

提到数据处理,经常有人把它简称为“ETL”。但仔细说来,数据处理经历了ETL、ELT、XXETL(例如,ReverseETL、Zero-ETL)到现在流行的EtLT架构几次更迭。目前大家使用大数据Hadoop时代,主要都是ELT方式,也就是加载到Hadoop里进行处理,但是实时数据仓库、数据湖的流行,这个ELT已经过时了,EtLT才是实时数据加载到数据湖和实时数据仓库的标准架构。 本文主要讲解下几个架构出现的原因和擅长的场景及优缺点,以及为什么EtLT逐步取代了ETL、ELT这些常见架构,成为全球主流数据处理架构,并给出开源实践方法。 ETL时代(1990-2015) 在数据仓库早期时代,数...

  NCZdV8CZSb34   2023年11月01日   80   0   0 大数据

ApacheSeaTunnel是一个非常易于使用的、超高性能的分布式数据集成平台,支持海量数据的实时同步。每天可稳定高效同步数百亿数据,已被近百家企业投入生产使用。 现在的版本不支持通过jtds的方式链接sqlserver,我们来自己写代码来实现它,并把代码提交给apacheseatunnel。 1.下载源代码 1.首先从远端仓库https://github.com/apache/seatunnelfork一份代码到自己的仓库中 2.远端仓库中目前有超过30个分支: dev:日常开发分支 其他分支:发布版本分支 3.把自己仓库clone到本地 gitclonegit@github.c...

  NCZdV8CZSb34   2023年11月01日   271   0   0 大数据

S3File是一个用于管理AmazonS3(SimpleStorageService)的Python模块。当前,ApacheSeaTunnel已经支持S3FileSinkConnector,为了更好地使用这个Connector,有必要看一下这篇使用文档指南。 描述 将数据输出到AWSS3文件系统。 提示: 如果您使用的是Spark/Flink,在使用此连接器之前,必须确保您的Spark/Flink集群已经集成了Hadoop。Hadoop2.x版本已通过测试。 如果您使用的是SeaTunnelEngine,它会在您下载和安装SeaTunnelEngine时自动集成HadoopJAR包。您可以在...

  NCZdV8CZSb34   2023年11月01日   49   0   0 大数据

一直以来,大数据量一直是爆炸性增长,每天几十TB的数据增量已经非常常见,但云存储相对来说还是不便宜的。众多云上的大数据用户特别希望可以非常简单快速的将文件移动到更实惠的S3、OSS上进行保存,这篇文章就来介绍如何使用SeaTunnel来进行到OSS的数据同步。 首先简要介绍一下ApacheSeaTunnel,SeaTunnel专注于数据集成和数据同步,主要解决以下问题: 数据源多样:常用的数据源有数百种,版本不兼容。随着新技术的出现,出现了更多的数据源。用户很难找到能够全面快速支持这些数据源的工具。 复杂同步场景:数据同步需要支持离线-全量同步、离线-增量同步、CDC、实时同步、全库同步等...

  NCZdV8CZSb34   2023年11月01日   359   0   0 大数据
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~