摩杜云开发者社区-摩杜云

文章 | kafka重置偏移量

背景某些时候，kafka上游生产者生产的消息有错误，或者下游消费者并不需要消费某部分的数据，这时候，通常有两个解决方案，一种是对数据做不解析处理，直接略过。另一种就是暂时关掉kafka的消费者组，等到生产者正常后再进行消费，但由于kafka本身是默认断点续传的，此时就需要我们先重置kafka中当前kafka组的offset。解决方案更改消费者组由于kafka对某topic中offset的管理是以组的形式来进行的，因此，在新建或更改消费者组后，对于offset的管理也会重新开始，策略取决于配置的auto.offset.reset参数在重启动时指定起始offset 在再次启动时，通过配置...

Edr6hbnMs86O 2024年03月22日 50 0 0 大数据

文章 | 【客户案例】白鲸开源WhaleStudio助力某证券公司打造全面数据解决方案：探析DataOps平台革新与应用

背景近年来随着国际形势的变化，信创产业成为我国国家战略的一部分。一直以来，一直以来，全球ICT产业底层标准、架构、产品、生态等要素均由国外公司或机构制定和控制，使我国ICT产业乃至广大用户面临被卡脖子、数据泄露、信息安全等诸多风险，尤其是2018年以来，中兴、华为等公司的遭遇成为鲜活的实例。为了应对这种局面，我国将信创产业纳入国家战略，提出了“2+8”发展体系，志在摆脱对国外ICT产业的依赖，此即信创产业产生的背景。国家《“十四五”国家信息规划》指出，信息化进入加快数字化发展、建设数字中国的新阶段。加快数字化发展、建设数字中国，是顺应新发展阶段形势变化、抢抓信息革命机遇、构筑国家竞争新优...

sFKdtsnoEZdx 2024年03月22日 67 0 0 大数据

文章 | 解密数仓的SQL ON ANYWHERE技术

本文分享自华为云社区《GaussDBDWS的SQLONANYWHERE技术解密》，作者：tooooooooooomy。 1.前言适用版本：【8.1.1（及以上）】查询分析是大数据要解决的核心问题之一，虽然大数据相关的处理引擎组件种类繁多，并提供了丰富的接口供用户使用，但相对传统数据库用户来说，SQL语言依然是使用最简单、最广泛和方便的一种接口。如果能在一个客户端中使用SQL语句操作不同的大数据组件，将极大提升使用各种大数据组件的效率。 2.什么是SQLOnAnywhere GaussDB(DWS)的SQLOnAnywhere，主要指对大数据的文件系统和与其他异构数据库的访问和交互，构筑...

YqbaJkf98QJO 2024年04月03日 59 0 0 大数据

文章 | 发现数据异常波动怎么办？别慌，指标监控和归因分析来帮你

企业搭建完善、全面的指标体系是企业用数据指导业务经营决策的第一步。但是做完指标之后，对指标的监控，经常被大家忽视。当指标发生了异常波动（上升或下降），需要企业能够及时发现，并快速找到背后真实的原因，才能针对性地制定相应策略，否则就是盲打，原地打转。指标异常波动的具体场景，比如： ·企业关键词的搜索流量突然降低了，是什么原因？ ·3月的GMV数字比2月下降了40%，应该如何分析？ ·最近某个品类的订单数猛增，为什么？那么，本文将详细介绍如何建立完善的指标异常监控及其对应归因分析机制，让大家今后在遇到此类问题时，能够快速从数据中发现业务问题与机会，提升业务推进速度。基于统计分析检测指标异常 ...

b5JnreLK4zaN 2024年03月28日 79 0 0 大数据

文章 | hive窗口分析函数使用详解系列一

1.综述 Hive的聚合函数衍生的窗口函数在我们进行数据处理和数据分析过程中起到了很大的作用在Hive中，窗口函数允许你在结果集的行上进行计算，这些计算不会影响你查询的结果集的行数。 Hive提供的窗口和分析函数可以分为聚合函数类窗口函数，分组排序类窗口函数，偏移量计算类窗口函数。本节主要介绍聚合函数类窗口函数的常见使用场景。 1.1.常见聚合类开窗函数 count()over(); sum()over(); max()over(); min()over(); avg()over(); 1.2.分析函数语法分析函数over(partitionby列名orderby列名rowsbetwe...

Ku3edDmxXuM9 2024年04月08日 47 0 0 大数据

文章 | 海豚调度任务类型Apache SeaTunnel部署指南

ApacheDolphinScheduler已支持ApacheSeaTunnel任务类型，本文介绍了SeaTunnel任务类型如何创建，任务参数，以及任务样例。一、ApacheSeaTunnel SeaTunnel任务类型，用于创建并执行SeaTunnel类型任务。worker执行该任务的时候，会通过start-seatunnel-spark.sh、start-seatunnel-flink.sh和seatunnel.sh命令解析config文件。二、创建任务点击项目管理->项目名称->工作流定义，点击“创建工作流”按钮，进入DAG编辑页面；拖动工具栏的任务节点到画板中...

sFKdtsnoEZdx 2024年04月02日 58 0 0 大数据

文章 | # Apache SeaTunnel 究竟是什么？

作者|ShawnGordon 翻译|DebraChen 原文链接|WhattheHeckisApacheSeaTunnel? 我在2023年初开始注意到ApacheSeaTunnel的相关讨论，一直低调地关注着。该项目始于2017年，最初名为Waterdrop，在ApacheDolphinScheduler的创建者的贡献下发展起来，后者支持SeaTunnel作为任务插件。我最初对于SeaTunnel是什么以及为什么我会关心它感到困惑。这意味着我将在至少能回答我的这些问题的层面上，对ApacheSeaTunnel有一个深度的介绍。那么，让我们开始吧。什么是SeaTunnel？ Apache...

NCZdV8CZSb34 2024年03月29日 48 0 0 大数据

文章 | 天翼云入选“2023年度数据要素价值创新标杆示范案例”！

近日，由新一代信息技术产业研究院、赛迪未来产业研究中心共同主办，中国电子学会区块链分会、至顶科技联合承办的“2024未来信息技术大会暨首届数据要素创新发展论坛”于北京成功举办。大会公布了“2023年度数据要素价值创新标杆示范案例”评选结果，天翼云“海南省数据产品超市公共数据资源开发利用平台”与“福州市公共数据要素流通平台”获此殊荣，为推动数据要素市场化配置、助力数据要素价值释放树立了行业标杆。   天翼云相关专家出席会议并分享了天翼云加速向智能云全面升级，在智算服务体系建设、数据要素平台技术创新方面的实践和成果。今年，“人工智能+”首次写入政府工作报告，全面驱动产业数智化升级。...

1H97ZBKLEqYv 2024年04月16日 38 0 0 大数据

文章 | 2024 开源数据工程生态系统全景图

作者|ALIREZASADEGHI 翻译|DebraChen 简介虽然生成式人工智能和ChatGPT带来的沸沸扬扬的炒作令科技界为之一振，但在数据工程领域，2023年仍然是一个令人振奋和充满活力的一年，数据工程生态系统变得更加多样化和复杂化，系统中的所有层面都在不断创新和演进。随着各种开源工具、框架和解决方案的持续涌现，数据工程师的选择也越来越多！在这样快速变化的环境中，紧跟最新技术和趋势的重要性不言而喻。选择合适的工具来完成合适的工作是一项至关重要的技能，确保在不断变化的数据工程挑战面前保持效率和相关性。作为一名资深数据工程师和顾问，我一直密切关注着数据工程趋势，我想在2024年初向...

NCZdV8CZSb34 2024年04月02日 38 0 0 大数据

文章 | 倒计时1天 | 袋鼠云春季发布会完整议程出炉！快快预约直播

在日新月异的数字化经济时代，企业和组织不断寻求利用先进技术构建自身的核心竞争力。其中，大数据与AI的深度融合正在成为推动企业实现新质生产力的关键路径。在此背景下，袋鼠云举办春季发布会，以“Data+AI，构建新质生产力”为主题，旨在深度探讨如何将数据与AI紧密结合，以期打破传统的生产力边界，赋能企业实现更高质量、更高效率的数字化发展。 2024袋鼠云春季发布会完整议程出炉，精彩看点抢先一步了解，欢迎大家预约直播间。 4月10日10:00，不见不散～《行业指标体系白皮书》下载地址：https://www.dtstack.com/resources/1057?src=szsm 《数栈产品白皮...

b5JnreLK4zaN 2024年04月09日 72 0 0 大数据

文章 | 金融案例：构建高效统一的需求登记与管理方案

在金融行业数字化转型背景下，银行等金融机构面临着业务模式创新与数据应用的深度融合。业务上所需要的不再是单纯的数据，而是数据背后映射的业务趋势洞察，只有和业务相结合转化为业务度量指标，经过数据分析处理呈现为报表进行展示，才能真正体现它们的价值。但在需求转化为指标的过程中，存在需求管理杂乱、登记维护难统一、指标溯源困难等痛点，进而需要统一的需求登记平台进行管控。本文结合实际案例，深入探讨了需求登记管理方案在金融客户中的应用，为银行等金融机构构建高效统一的需求登记管理体系，提供了有效的参考与借鉴。建设背景以某头部城市商业银行为例，随着业务的快速发展和监管要求的日益严格，面临着复杂多变的业务指...

b5JnreLK4zaN 2024年03月28日 47 0 0 大数据

文章 | Apache SeaTunnel 社区 3 月月报

各位热爱SeaTunnel的小伙伴们，SeaTunnel社区3月月报来啦！这里将记录SeaTunnel社区每个月的重要更新，并评选出月度之星，欢迎关注。 SeaTunnel月度MergeStars 感谢以下小伙伴3月为ApacheSeaTunnel做的精彩贡献（排名不分先后）： @Carl-Zhou-CN,@ilsl1007,@loveyang1990,@dailai,@liugddx,@CheneyYin,@litiliu,@ShaunWuu,@hailin0,@rewerma,@wineternity,@lihjChina,@luohoufu,@lightzhao,@liunaijie,...

NCZdV8CZSb34 2024年04月11日 26 0 0 大数据

文章 | Apache DolphinScheduler 社区 3 月月报

各位热爱DolphinScheduler的小伙伴们，DolphinScheduler社区月报开始更新啦！这里将记录DolphinScheduler社区每月的重要更新。社区为DolphinScheduler3.2.x版本做了诸多功能改进和bug修复 DolphinScheduler月度MergeStars 感谢以下小伙伴3月为ApacheDolphinScheduler所做的精彩贡献（排名不分先后）： @abzymeinsjtu,@pinkfloyds,@zero-element,@liuchunhua,@SbloodyS,@Gallardot,@devosend,@caishunfen...

sFKdtsnoEZdx 2024年04月11日 36 0 0 大数据

文章 | 袋鼠云春季发布会圆满落幕，构建Data+AI新质生产力

4月10日，以“Data+AI，构建新质生产力”为主题的袋鼠云春季发布会圆满落幕。大会中，袋鼠云带来了一系列“+AI”的数字化产品与最新行业沉淀，旨在将数据与AI紧密结合，打破传统的生产力边界，赋能企业实现更高质量、更高效率的数字化发展。 2部白皮书：聚焦行业沉淀《行业指标体系白皮书》：系统阐述了指标体系建设的基础理念、目标价值、建设实施路径、管理原则及规范落地的全过程。不仅构筑了扎实的理论框架，还详尽剖析了三大典型行业在指标体系建设上的实践案例，深度解读了金融、大宗贸易、零售、港口及制造五大关键领域的行业指标库，为企业建设指标体系提供理论+实践的全新参考。《数字孪生行业方案白皮书》：聚...

b5JnreLK4zaN 2024年04月11日 46 0 0 大数据

文章 | hive on spark内存模型

内容介绍 hiveonspark的调优,那必然涉及到这一系列框架的内存模型。本章就是来讲一下这些框架的内存模型。hiveonspark的任务，从开始到结束。总共涉及了3个框架。分别是：yarn、hive、spark其中，hive只是一个客户端的角色。就不涉及任务运行时的内存。所以这里主要讲的yarn和spark的内存模型。其中，由于spark是运行在yarn的container中。所以我们从外到内。先将yarn的资源分配。后讲spark的内存模型。 hiveonspark提交流程 hive阶段首先上场的是hive框架。当我们写了一个SQL语句的时候，会被hive进行解析（hive用的SQL解...

Gyz2GVSspoIi 2024年04月16日 30 0 0 大数据

文章 | 用海豚调度器定时调度从Kafka到HDFS的kettle任务脚本

在实际项目中，从Kafka到HDFS的数据是每天自动生成一个文件，按日期区分。而且Kafka在不断生产数据，因此看看kettle是不是需要时刻运行？能不能按照每日自动生成数据文件？为了测试实际项目中的海豚定时调度从Kafka到HDFS的Kettle任务情况，特地提前跑一下海豚定时调度这个任务，看看到底什么情况,也给大家提供一个参考！海豚调度任务配置（一）SHELL脚本配置 !/bin/bash source/etc/profile /opt/install/kettle9.2/data-integration/pan.sh-rep=hurys_linux_kettle_repositor...

sFKdtsnoEZdx 2024年04月15日 43 0 0 大数据

文章 | 【干货】Apache DolphinScheduler2.0升级3.0版本方案

升级背景因项目需要使用数据质量模块功能，可以为数仓提供良好的数据质量监控功能。故要对已有2.0版本升级到3.0版本以上，此次选择测试了3.0.1和3.1.1两个版本，对进行同数据等任务调度暂停等操作测试，最后选择3.0.1版本原因： 1.3.1.1在测试sql任务时，同时启动上百sql任务时，会出现sql任务报错，导致大量任务无法正常运行，询问社区大佬，这是DS本身bug导致，虽然此现象在3.0.1也有出现，不过出现几率较小。 2.DS3.0.1以上版本zookeeper的依赖版本进行了更新，查看驱动版本是3.8版本。我们生产不打算升级zk,故选择使用3.0.1版本。此版本测试还是比较稳...

sFKdtsnoEZdx 2024年03月27日 57 0 0 大数据

文章 | 环境的搭建

第4章Hadoop文件参数配置实验一：hadoop全分布配置 1.1实验目的完成本实验，您应该能够：掌握hadoop全分布的配置掌握hadoop全分布的安装掌握hadoop配置文件的参数意义 1.2实验要求熟悉hadoop全分布的安装了解hadoop配置文件的意义 1.3实验过程 1.3.1实验任务一：在Master节点上安装Hadoop 1.3.1.1步骤一：解压缩hadoop-2.7.1.tar.gz安装包到/usr目录下 [root@master]tarzvxfjdk-8u152-linux-x64.tar.gz-C/usr/local/src/ [root@ma...

YAWVsSrNsMIu 2024年04月07日 34 0 0 大数据

文章 | hive窗口分析函数使用详解系列二之分组排序窗口函数

1.综述我们讨论面试中各大厂的SQL算法面试题，往往核心考点就在于窗口函数，所以掌握好了窗口函数，面对SQL算法面试往往事半功倍。已更新第一类聚合函数类，点击这里阅读hive窗口函数聚合函数类本节介绍Hive聚合函数中的第二类聚合函数：分组排序窗口函数。这些函数的用法不仅仅适用于Hive，对于很多数数据库来说同样也适用，比如SparkSQL，FlinkSQL以及Mysql8，Oracle，MSSQL等传统的关系型数据库。如果论使用的广泛性，hive窗口函数中我们使用最广泛的就是排序类窗口函数，我们通常一提起窗口函数，想到的就是这类排序类窗口函数，它在我们进行数据去重中扮演了至关重要的...

Ku3edDmxXuM9 2024年04月14日 49 0 0 大数据

文章 | 【导师招募】Apache DolphinScheduler 社区又又又入选开源之夏啦！

很高兴和大家宣布，ApacheDolphinScheduler社区今年再次成功入选入选由中国科学院软件研究所开源软件供应链点亮计划发起的“开源之夏”活动。入选公示链接：https://mp.weixin.qq.com/s/9ExBWGoFPzZ0_SrpAcosZg 此活动旨在鼓励和引导在校学生积极参与开源软件的开发和维护，进而培养和挖掘更多优秀的开发人才，助力于开源社区的持续繁荣和发展。关于开源之夏 “开源之夏”活动提供了一个平台，使学生能够在暑期深入参与开源项目，通过实际操作获取宝贵的经验，并向优秀的开源社区贡献力量。ApacheDolphinScheduler社区的加入，旨在提供项...

sFKdtsnoEZdx 2024年04月11日 40 0 0 大数据