1背景介绍 在日常数据研发工作中,我们会遇到如下常见场景问题,其一为:数据测试人员要对产出多表的一致性进行检测,其二为:数据对账体系,如资金流和订单数据要保持一致,其三为:数据模型迁移过程中,要对迁移前后的数据进行对比,其四为:数据存储在不同库中,例如A存储到ODPS,B存储到ADB,其中AB库中数据必须要保持一致。 如上述4种常见问题,我们需要一套能界面交互(勾选或低代码交互)、离线核对、实时核对、通知告警等全流程闭环的解决方案。 如果没有上述完整的解决方案和平台,我们需要手动写SQL去对比,每个人对于一致性的指标会有所不同,而且也没有评估标准,更为难的是如果存在不同源之间的对比,涉及到代码...

  7uk9nQQzKLJb   2023年11月02日   37   0   0

1数据探针产生的背景 在数据开发和接入的过程中,数据开发人员接到一个需求或者一条新的业务线可能需要搭建数仓,做数据处理,然后提供一些指标数据给到需求方,如果是你这边会怎么开始呢? 直接开干?抽表,清洗,分层,建模? 然后发现做完之后,怎么数据各种不对,取不到想要的数据,比如说:业务上说明明一个字段为空比例非常少(1%以内),但是加工出来的数据问题非常多?比如说:空值占比接近30%,然后报表显示的结果就各种问题,然后又往上排查发现,原来是别人提供的数据,或者采集的数据有问题 所以一上来开干,这就是瞎搞。啥也不知道不了解的情况下,对数据源一无所知的情况下,是谁给你勇气直接开干的?干完之后返工成本更...

1背景&现状 在大数据领域也已经工作了多年,无论所待过的大公司还是小公司,都会遇到集群升级迁移过程中据搬迁等相关工作,经常会碰到搬迁之后,搬迁的数据是不是能对的上呢?两边数据究竟是不是一致的呢?如果不一致,那又有哪些差异呢?能不能更快地找到差异解决问题呢? 之前经常每个开发的同学自己写一些SQL脚本进行去比对的,而且也没有一个评估标准。这样的话效率比较低下。 其实在《阿里巴巴大数据之路》这本其实有提到这样一个平台,但是由于没有对外使用,所以书中介绍比较简单。因此根据以往的工作经历,开发了一个大数据比对平台,用来辅助验证数据,命名为dataCompare。 主要解决如下几个问题: (1)...

  7uk9nQQzKLJb   2023年11月02日   25   0   0 大数据SQL大数据sql数据数据

1目前当前版本实现了如下功能: (1)低代码简单配置完成数据比对核心功能 (2)数据量级比对、数据一致性比对 2系统功能演示 2.1系统主页(系统功能和技术栈介绍) 2.2数据库配置信息页面(目前已经实现了MySQL、Hive) 2.3job配置信息页面(选择数据源和表以及主键和对比字段) 对比结果页面展示(量级对比、一致性对比) 3后续开发计划: (1)差异case发现 (2)数据指针探测----枚举值探测、范围探测、数值探测、主键取模探测 (3)数据比对任务定时自动调度 (4)对比结果自动发送邮件报告 4具体代码参考 https://github.com/zhugezifang/d...

1前言: 最近在研究大数据的一些组件和数据库,本来是要调研下presto怎么用的,结果发现presto因为facebook的关系,导致presto核心开发成员离开, 重新开始创建了trino,个人感觉trino发展会更好,因为他们也是为了创建一个完全开源的环境才离开facebook,没有那么多商业上的私心,会更加专注和用心经营。 trino基本上和presto一致,毕竟是核心开发是同一帮人,所以就研究下trino的使用看看。trino是2020年才创办的,时间也不是很长,相关的资料和presto相比,要少很多,基本上就是看官网和代码来尝试(不过其实看presto的资料其实也一样)。 2简介: ...

  7uk9nQQzKLJb   2023年11月02日   67   0   0 官网数据源mysql数据源MySQL官网

1概述 由于我们安装的greenplum数据库版本为6.2.1,安装的记录过程请点击查看,所以官方推荐的安装GPCC版本为6.0.0,需要结合自身版本来进行安装,不同版本之间有一些不一样,所以本篇博客只是结合自身来记录我们所安装的步骤 2执行gpperfmon_install命令 必须是gpadmin超级用户执行,提供master的连接端口,并提供将要创建的gpmon超级用户的密码,切换为gpadmin用户 sugpadmin gpperfmon_install--enable--passwordgpmon--port5432 此命令的功能大致是: 创建greenplum监控用数据库(gpp...

  7uk9nQQzKLJb   2023年11月02日   38   0   0 ci数据库bashbash数据库ci

1.概述     doris支持通过腾讯云bos、阿里云oss、hdfs实现备份与恢复,但是我们公司doris部署在线下机房,如采用oss/bos,大数据备份与恢复比较慢,会占用一定的带宽,如采用hdfs,担心小文件太多影响现有的hadoop集群。为了保险起见,而且能够达到快速的备份恢复,我们实现自主搭建一套minio对象存储。 2.目的 当FE元数据发生损坏无法恢复时,我们能快速的从minio恢复,内网带宽拉满 当需要升级doris时,我们可以搭建一个测试集群,从minio快速copy数据测试 3.实现 3.1.单机多磁盘minio搭建 1)下载安...

  7uk9nQQzKLJb   2023年11月02日   45   0   0 SQLAWSsqlmysqlMySQLAWS
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~