摩杜云开发者社区-摩杜云

Spark中的闭包引用和广播变量

闭包引用概念所有编程语言都有闭包的概念，闭包就是在一个函数中引用了函数外的变量。 Spark中，普通的变量是在Driver程序中创建的，RDD的计算是在分布式集群中的task程序上进行的。因此，当分布式算子的函数引用了外部的变量时，Driver会把该变量序列化后通过网络发送给每一个task（只针对普通对象）。 spark中所谓"闭包引用"，只是看起来类似各种编程语言中的闭包。而本质上就是对某个对象进行序列化+复制，即Driver把分布式算子中引用的外部变量序列化后，发送给每个task来使用。在闭包函数内对外部变量进行修改，闭包外的变量的并不会改变。因为在闭包函数内的修改，只是在task...

fpnGa3tZblZa 18天前 28 0 0 大数据

OLAP开源引擎对比之历史概述

前言 OLAP概念诞生于1993年，工具则出现在更早以前，有史可查的第一款OLAP工具是1975年问世的Express，后来走进千家万户的Excel也可归为此类，所以虽然很多数据人可能没听过OLAP，但完全没打过交道的应该很少。这个概念主要是在大数据圈里流传，而在大数据领域里，目前主流的OLAP开源引擎都诞生于2006年以后，那一年hadoop横空出世，而后大数据分析的各种方法论和引擎也随之兴起。本系列主要介绍Hive、SparkSQL、Presto、Kylin、Impala、Druid、Clickhouse、Greenplum、StarRocks，并不代表全部，但确实是国内大数据分析领...

fpnGa3tZblZa 23天前 17 0 0 大数据

数据问题排查思路

1、背景数据开发、数据仓库工作和业务系统开发工作很大的一个不同是，业务系统功能开发一旦完成并通过测试，一般就可以比较稳定地长期运行，因为它的输入是相对稳定的。但是数据仓库开发加工的数据模型、数据指标和分析结论，却很难保持稳定。因为输入数据每天都在源源不断产生，很难保证数据没有大的波动，而输入的不稳定，就可能会引发数据问题。另外，由于指标数量众多，数据处理和加工分析的流程很长，中间环节出现纰漏也在所难免。当然，这里说的数据问题，不一定是真有问题，但是出现大的波动，也总要排查一轮心里才比较安心，才敢相信这是合理的波动。有时候数据出现问题并不一定真的存在问题，可能只是看起来有问题，实际上就是一种...

fpnGa3tZblZa 2023年11月01日 27 0 0 大数据

数据漂移问题及解决方案

什么是数据漂移？数据漂移是ODS数据的一个顽疾，通常指ODS表的同一个业务日期数据中包含前一天或后一天凌晨附近的数据或者丢失当天的变更数据。实际场景公司主营互联网金融业务，因此有了一张数据量庞大的申请人信息记录表。这张表里的时间字段非常多，因为整个业务场景涉及到好几段流程：客户提交申请贷款请求→我们接受申请贷款请求→进入决策引擎→决策引擎调用第三方数据系统→决策引擎返回结果报告→匹配发送记录和返回报告→反馈给客户发送结果可见每一段子流程（子域）里都会有相应的时间字段。选择使用客户的提交申请时间来做分区字段，也是为了贴近客户的实际体验。即某一天的申请记录明细就应该是那一天客户提交给我...

fpnGa3tZblZa 2023年11月01日 269 0 0 大数据