简述 CloudCanal最近对于全周期数据流动进行了初步探索,打通了Hive目标端的实时同步,为实时数仓的构建提供了支持,这篇文章简要做下分享。 基于临时表的增量合并方式 基于HDFS文件写入方式 临时表统一Schema 任务级的临时表 基于临时表的增量合并方式 Hive目标端写入方式和Doris相似,需要在目标表上额外添加一个__op(0:UPSERT,1:DELETE)字段作为标记位,实际写入时会先将源端的变更先写入临时表,最终合并到实际表中。 CloudCanal的设计核心在于,每个同步表对应两张临时表,通过交替合并的方式,确保在一张临时表进行合并时,另一张能够接收新变更,从而提升...

  XgtXSjEGGEq8   2024年03月01日   65   0   0 大数据

简介 CloudCanal推出跨互联网安全数据同步方案之后,有一些商业客户落地,效果良好,不过客户也反馈了一些改进和新需求,其中最大的一个需求即双向同步防循环。 近期CloudCanal版本支持了这个特性,整体方案进一步升级,最大特点包括: 两端数据库完全不开放公网端口 两端数据库可双向同步,无循环 两端数据库元数据可映射 具备传输安全和鉴权 不依赖消息等软件 技术点 防循环 我们复用了CloudCanal处理MySQL双向同步防循环逻辑,写入对端时,SQL自动带上/ccw/标记。 再打开MySQLbinlog_rows_query_log_events参数,将binlogDML事件顺序...

  XgtXSjEGGEq8   2024年01月19日   14   0   0 大数据

简述 Debezium是一个开源的数据订阅工具,主要功能为捕获数据库变更事件发送到Kafka。 CloudCanal近期实现了从Kafka消费Debezium格式数据,将其同步到StarRocks、Doris、Elasticsearch、MongoDB、ClickHouse等12种数据库和数仓,补全其数据到达能力。 本文将先简单介绍该项技术实现的背景,再通过MySQL->Kafka->Starrocks示例展示此功能。 为什么要消费Debezium格式数据 高流行度 Debezium是一个高质量、被大量项目集成的开源项目,社区用户活跃,官方维护积极,修复bug、增加新特性,不断更...

  XgtXSjEGGEq8   2023年12月23日   25   0   0 数据库数据mysqlMySQL数据库数据

简述 SAPHANA是由SAP开发的一款内存列式数据库,具有预测分析、空间数据处理、文本分析、文本搜索、流分析、图形数据处理等高级分析功能。 HANA内存列式数据库特性,即启动后可以把所有数据载入内存,相比传统基于硬盘的数据库,性能提升1010,000倍。 HANA一般内置在SAPERP系统中提供服务,在制造业应用广泛。 现如今企业尝试建立统一数据分析平台,SAPHANA保存了ERP相关数据,如何实时同步HANA数据到数据平台成为困扰企业的一个难题。 CloudCanal最新版本已支持HANA作为源端迁移同步数据到StarRocks来构建实时数仓,本文简要介绍使用CloudCanal快速构建一...

简述 ApacheDoris是一个现代化的MPP分析型数据库产品,仅需亚秒级响应时间即可获得查询结果,能有效地支持实时数据分析。本文主要介绍如何使用CloudCanal快速构建一条稳定高效运行的PostgreSQL到Doris数据同步链路。 技术点 基于StreamLoad的导入方式 Doris提供了多种导入方式。CloudCanal采用了StreamLoad的方式进行导入,源端的消息会转成字节流,最后会以Batch的形式通过HTTP协议发往Doris。相比直接通过SQL写入的方式,StreamLoad方式会有更好的性能,写入的数据直接经FE转发给BE处理。如果直接采用SQL写入,在FE侧,会...

  XgtXSjEGGEq8   2023年11月01日   51   0   0 其他数据库

简述 CloudCanal除了提供最核心的数据迁移和同步能力以外,还提供数据校验和数据订正两种非常实用的能力。这两种功能为用户保障数据迁移同步链路的数据质量提供了非常大的便利性。例如对端数据库因为各种原因产生一些异常写入导致的数据不一致或者丢失,用户均可以使用CloudCanal提供的数据校验和数据订正能力来基于同步链路的源端数据来恢复数据,使得对端数据库中相比源端丢失或者不一致的数据得到恢复。 技术点 基于校验结果的针对性订正 执行完CloudCanal的校验任务后,在运行任务的机器上会生成一个文件compre_rs.log用于记录校验的结果信息。日志路径为/logs/cloudcanal/...

  XgtXSjEGGEq8   2023年11月01日   72   0   0 其他数据库

简述 SQLServer是一个值得信赖的老牌数据库系统,自从1988年由Microsoft、Sybase和Ashton-Tate三家公司共同推出之后就一直不断迭代更新。而如今我们提到SQLServer通常是指Microsoft从SQLServer2000之后的版本。至今SQLServer家族已经非常繁茂涵盖了云上(AzureSQLServer)、IoT设备(边缘SQLServer)、以及经典版本(本地SQLServer)。 实现SQLServer作为源端的实时数据同步,一般都会用到它的CDC功能,这个功能是从2008版本才开始支持。因此本文主要也是基于SQLServer2008版本介绍如何使用...

  XgtXSjEGGEq8   2023年11月01日   45   0   0 其他数据库

简述 本文主要介绍如何使用CloudCanal构建一条MySQL到Greenplum/PostgreSQL的数据同步链路。 支持版本 源端MySQL支持的版本为:5.6、5.7、8.X对端PostgreSQL支持的版本为:8.4、9.0、9.1、9.2、9.39.4、9.5、9.6、10.X、11.X、12.X、13.X、14.X、15.X、16.X、17.X对端Greenplum支持的版本为:6.X 技术点 流程自动化&功能丰富 支持创建结构迁移、全量迁移、增量同步、数据校验、数据订正类型的任务。结构迁移、全量迁移和增量同步可作为一个任务的多个阶段自动化进行。 新增表自动迁移同步 C...

  XgtXSjEGGEq8   2023年11月01日   53   0   0 其他数据库

简介 CloudCanal实现的基于Kafka构建安全的跨互联网数据同步方案被客户用于生产后,又出现了新的需求,主要集中在方案能否更加轻量化和可控性上,简而言之,去掉Kafka中转,直接在CloudCanal中实现跨网络安全互通。本篇文章即介绍CloudCanal实现的更加轻量化方案,特点包括 无消息等独立软件依赖 两端数据库完全不开放公网端口 两端数据库元数据可映射 基于HTTPS传输 具备用户名密码鉴权机制 支持多种数据库异构互通 技术点 Tunnel数据源 去掉消息依赖的跨互联网数据库互通,我们是通过一个虚拟的数据源Tunnel实现。Tunnel数据源本身并不是实体数据库,而是一组...

  XgtXSjEGGEq8   2023年11月01日   61   0   0 其他数据库

简述 CloudCanal当前最新版本已经支持源端Oracle、SqlServer等主流传统数据库作为源端迁移同步数据到StarRocks来构建实时数仓。本文简要介绍如何快速构建一条Oracle->StarRocks数据链路。 技术要点 基于StreamLoad的导入方式 CloudCanal采用了StreamLoad的方式进行导入,源端的消息会转成字节流,最后会以批量发送的形式通过HTTP协议发往StarRocks。CloudCanal默认采用json格式来进行StreamLoad导入,如果用户内容特殊字符较少,也可以开启csv格式导入,分隔符可以通过参数columnSeparator...

  XgtXSjEGGEq8   2023年11月01日   56   0   0 其他数据库

简介 CloudCanal实现了对OnlineDDL工具如GH-OST和PT-OSC的支持,保证了对端实时同步源端的OnlineDDL操作。 本文以MySQL->MySQL同步链路使用GH-OST为例,介绍CloudCanal是如何支持实时同步GH-OST产生的DDL的。 OnlineDDL技术背景 市面上常用的两款MySQLOnlineDDL工具分别是GH-OST和PT-OSC,CloudCanal对他们都做了兼容处理使得用户可以实时同步OnlineDDL工具产生的DDL。下面简单介绍下他们的工作流程,以便于读者理解后续章节的内容。 OnlineDDL工具PT-OSC原理 PT-OSC...

  XgtXSjEGGEq8   2023年11月01日   68   0   0 其他数据库

简述 本篇文章主要介绍如何使用CloudCanal构建一条Oracle到PostgreSQL的数据同步链路 技术要点 缩小的数据库权限要求 CloudCanal对Oracle数据库的高权限要求,主要来自两个面向DBA的操作,自动构建字典和自动切换归档日志,这两个操作主要是让用户使用更加自动化和便利,但是问题也比较明显,对数据库运维标准严苛的客户来说,这些权限对于我们的客户是没有的,所以新版本CloudCanal,通过参数配置,支持了关闭自动字典构建能力(默认打开)和关闭自动切换归档日志能力(默认关闭) 多版本schema以支持位点回拉 对于关系型数据库同步工具而言,增量数据本身往往和元数据分离...

  XgtXSjEGGEq8   2023年11月01日   40   0   0 其他数据库

简述 Db2是一款具有悠久历史的关系型数据库,由IBM公司开发和维护,广泛应用于金融级业务场景。 CloudCanal近期提供了Db2为源端的数据迁移同步功能,用户可以便利地将Db2中数据实时同步到其他数据库,实现数据更广泛、更实时的应用。 功能介绍 目标数据库和能力 目标端数据源 结构迁移 数据初始化 增量同步 数据校验 数据订正 MySQL 支持 支持 支持 支持 支持 TiDB 支持 支持 支持 支持 支持 Kafka 支持 支持 StarRocks 支持 支持 支持 支持 支持 Db2源端特色能力 基于CDC技术的数据同步 Db2源端同步能力是基于...

  XgtXSjEGGEq8   2023年11月01日   100   0   0 其他数据库

简述 CloudCanal去年支持OceanBase数据迁移同步能力后,随着使用用户增多以及问题反馈,近期对该能力进行了一轮较大规模的优化。 本篇文章简要介绍这些优化点,以及未来该能力的演进方向。 优化点 大幅提升同步性能 CloudCanal目前使用OceanBaseLogProxy做增量数据订阅,使用方式相对简单明了。 @Override publicvoidnotify(LogMessagemessage){ try{ ParsedEntryentry=msgConvertor.convertMsgToEntry(message); if(entrynull){ return; } ...

  XgtXSjEGGEq8   2023年11月01日   47   0   0 其他数据库

简述 本文主要介绍CloudCanal如何做Redis双向同步并防循环,方案特点包括: 支持Redis单节点、主备、分片集群 支持数据初始化防循环 支持防循环辅助指令超时或永不超时设置 技术点 防循环事件 CloudCanalRedis双向同步采用辅助指令进行循环判定,当收到正常指令,计算其hash值,构建辅助指令key,反向查询辅助指令是否存在,如果存在则为循环,过滤即可。 对于辅助指令对端写入以及源端查询,CloudCanal进行了批量和多线程优化,同步性能得到有效提升。 防循环兼容分片集群、单节点、主备节点任意组合之间的数据迁移同步。 单任务多节点事件订阅 Redis集群普遍具备多个...

  XgtXSjEGGEq8   2023年11月01日   45   0   0 其他数据库

简述 本文主要介绍使用CloudCanal做数据迁移同步时如何对特定数据做脱敏处理。 技术点 自定义代码 CloudCanal允许用户上传业务代码到数据任务中,完成数据迁移、同步过程中数据处理的目的。 数据同步脱敏也是基于自定义代码实现,具备以下特点: 脱敏范围灵活,可选择任何一个或多个表字段 脱敏算法可依赖外部算法包 脱敏逻辑和策略可自定义 操作示例 脱敏代码开发 数据脱敏逻辑开发。Gitee上完整代码 代码打包 代码包位置 安装CloudCanal 下载、安装并激活CloudCanal私有部署版本 任务创建 任务管理>创建任务 选择源和目标数据库 选择增量同步,并勾选数...

  XgtXSjEGGEq8   2023年11月01日   88   0   0 MySQL

简介 CloudCanal近期发布了GaussDBforMySQL和OpenGauss为对端的数据迁移同步链路。 对于新兴国产数据库GaussDB,我们也是第一次落地其相关的数据迁移同步能力,故从比较简单的对端作为切入点,逐步熟悉并延伸其相关数据生态。 本文以MySQL到OpenGauss数据迁移同步为案例,简要介绍技术背景以及快速使用案例。 技术点 MySQL和PostgreSQL生态 GaussDBforMySQL和OpenGauss分别是MySQL和PostgreSQL生态的产物,所以对于数据迁移同步的场景,也是分开处理的。 这些处理技术的差异点包括: Schema结构 元数据获取方式...

  XgtXSjEGGEq8   2023年11月01日   71   0   0 MySQL

简述 SAPHANA是由SAP开发的一款内存列式数据库,具有预测分析、空间数据处理、文本分析、文本搜索、流分析、图形数据处理等高级分析功能。 HANA内存列式数据库特性,即启动后可以把所有数据载入内存,相比传统基于硬盘的数据库,性能提升1010,000倍。 HANA一般内置在SAPERP系统中提供服务,在制造业应用广泛。 现如今企业尝试建立统一数据分析平台,SAPHANA保存了ERP相关数据,如何实时同步HANA数据到数据平台成为困扰企业的一个难题。 CloudCanal最新版本已支持HANA作为源端迁移同步数据到StarRocks来构建实时数仓,本文简要介绍使用CloudCanal快速构建一...

  XgtXSjEGGEq8   2023年11月01日   24   0   0 Oracle
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~