摩杜云开发者社区-摩杜云

【开启报名】同学看过来，Apache DolphinScheduler开源之夏课题任务正式发布！

如果你还拥有着一张有效的“学生证”，在这个充满机遇的夏天，我们诚邀你加入一个充满挑战和机遇的开源冒险——开源之夏。这不仅是一个简单的编程开发活动，假如你成功参加并结项之后，还能获得中科院软件所官方颁发的证书和奖金，简直太有趣啦！ ApacheDolphinScheduler社区作为全球性的大数据调度开源项目，我们的使命是让数据处理变得简单、高效而可靠。参与到我们的项目中，你将与全球顶尖的开发者一起工作，用代码解决实际的技术难题，让复杂的数据工作流自动化和智能化！我们鼓励社区中的每一位同学来踊跃参加这个活动，在这个活动中，不仅可以深度参与到ApacheDolphinScheduler项目的...

sFKdtsnoEZdx 3天前 9 0 0 大数据

构建无服务器数仓（二）Apache DolphinScheduler 集成以及 LOB 粒度资源消费分析

引言在数据驱动的世界中，企业正在寻求可靠且高性能的解决方案来管理其不断增长的数据需求。本系列博客从一个重视数据安全和合规性的B2C金融科技客户的角度来讨论云上云下混合部署的情况下如何利用亚马逊云科技云原生服务、开源社区产品以及第三方工具构建无服务器数据仓库的解耦方法。 ApacheDolphinScheduler是一种与EMRServerless解耦部署的多功能工作流调度程序，可确保高效可靠的数据编排和处理。对于金融科技客户，EMRServerless提供业务线（LOB）级别的精细资源消费分析，从而实现精确监控和成本优化。这一功能在金融领域尤其有价值。因为在该领域，运营敏捷性和成本效益至关...

sFKdtsnoEZdx 3天前 8 0 0 大数据

高效调度新篇章：详解DolphinScheduler 3.2.0生产级集群搭建

转载自tuoluzhe8521 导读：通过简化复杂的任务依赖关系，DolphinScheduler为数据工程师提供了强大的工作流程管理和调度能力。在3.2.0版本中，DolphinScheduler带来了一系列新功能和改进，使其在生产环境中的稳定性和可用性得到了显著提升。为了帮助读者更好地理解和应用这一版本，我们精心准备了这篇DolphinScheduler3.2.0生产集群高可用搭建全攻略，深入探讨如何在生产环境中搭建一个高可用的DolphinScheduler集群，包括但不限于环境准备、数据库配置、用户权限设置、SSH免密登陆配置、ZooKeeper启动、以及服务的启动与停止等关键步骤...

sFKdtsnoEZdx 3天前 8 0 0 大数据

白鲸开源CEO郭炜在2024 DataOps发展大会上获聘专家

2024年5月15日，白鲸开源CEO郭炜在2024DataOps发展大会上被正式聘任为DataOps专家，并获得了荣誉证书。本次大会由中国通信标准化协会主办，中关村科学城管委会提供支持，大数据技术标准推进委员会（CCSATC601）承办，旨在推动DataOps领域的标准化和实践发展。在大会的圆桌论坛环节中，郭炜参与了题为《AI时代下—数据的变与不变》的讨论，并分享了自己对于数据在人工智能时代中角色变化的深刻见解：“AI对于数据治理领域将有较大冲击，高质量数据+高质量的解释及标注是企业数据治理的关键。”他强调了数据治理在企业数字化转型中的重要性，并对如何通过DataOps实践来优化数据流程和...

sFKdtsnoEZdx 3天前 10 0 0 大数据

Apache DolphinScheduler 4月简报：社区发展与技术革新速递

各位热爱DolphinScheduler的小伙伴们，4月份的DolphinScheduler社区月报更新啦！这里将记录DolphinScheduler社区每月的重要更新，欢迎关注！月度Merge之星感谢以下小伙伴4月为ApacheDolphinScheduler所做的精彩贡献（排名不分先后）： @alei1206,@caishunfeng,@qingwli,@sdhzwc,@ruanwenjun,@pegasas,@songwenyong,@privking,@zhongjiajie,@xinxingi,@Gallardot,@abzymeinsjtu,@DaqianLiao,@atji...

sFKdtsnoEZdx 12天前 28 0 0 大数据

Apache DolphinScheduler 3.3.0 版本重磅更新提前看！

ApacheDolphinScheduler3.3.0版本终于要在万众期待中发布啦！本次发版将有重大功能更新，包括架构上的调整。为了让广大用户提前尝鲜，社区特别准备了直播活动提前揭秘3.3.0版本中的重要更新，到时候你将会了解到这些信息： 3.3.0版本的工作流引擎改进任务执行流程的优化架构模块上的优化计划 DolphinScheduler后续的架构设计和路线图 ...... 你期待的更新会来吗？你也想参与到新版本的发布过程中吗？欢迎观看直播，ApacheDolphinSchedulerPMC带你尝鲜3.3.0版本，并了解如何参与社区贡献。锁定「海豚调度」视频号，5月21日14:0...

sFKdtsnoEZdx 12天前 35 0 0 大数据

Apache DolphinScheduler支持Flink吗？

随着大数据技术的快速发展，很多企业开始将Flink引入到生产环境中，以满足日益复杂的数据处理需求。而作为一款企业级的数据调度平台，ApacheDolphinScheduler也跟上了时代步伐，推出了对Flink任务类型的支持。 Flink是一个开源的分布式流处理框架，具有高吞吐量、低延迟和准确性等特点，广泛应用于实时数据分析、机器学习等场景。通过DolphinScheduler的Flink任务类型，用户可以轻松地将Flink作业纳入到整个数据调度流程中，大大提高了数据处理的效率和可靠性。本文将介绍如何在DolphinScheduler中支持Flink节点，包括任务创建、设置等。 Flink节点...

sFKdtsnoEZdx 20天前 25 0 0 大数据

用DolphinScheduler轻松实现Flume数据采集任务自动化！

转载自天地风雷水火山泽目的因为我们的数仓数据源是Kafka，离线数仓需要用Flume采集Kafka中的数据到HDFS中。在实际项目中，我们不可能一直在Xshell中启动Flume任务，一是因为项目的Flume任务很多，二是一旦Xshell页面关闭Flume任务就会停止，这样非常不方便，因此必须在后台启动Flume任务。所以经过测试后，我发现海豚调度器也可以启动Flume任务。海豚调度Flume任务配置（一）Flume在Linux中的路径（二）Flume任务文件在Linux中的位置以及任务文件名（三）在海豚中配置运行脚本 !/bin/bash source/etc/profile ...

sFKdtsnoEZdx 26天前 22 0 0 大数据

告别手动调度，海豚调度器 3.1.x 集群部署让你轻松管理多机！

转载自第一片心意 1前言由于海豚调度器官网的集群部署文档写的较乱，安装过程中需要跳转到很多地方进行操作，所以自己总结了一篇可以直接跟着从头到尾进行操作的文档，以方便后续的部署、升级、新增节点、减少节点的相关操作。 2.提前准备 2.1.基础组件 JDK：下载JDK(1.8+)，安装并配置JAVA_HOME环境变量，并将其下的bin目录追加到PATH环境变量中。如果你的环境中已存在，可以跳过这步。二进制包：在下载页面下载DolphinScheduler二进制包数据库：PostgreSQL(8.2.15+)或者MySQL(5.7+)，两者任选其一即可，如MySQL则需要JDBCDrive...

sFKdtsnoEZdx 27天前 19 0 0 大数据

WhaleScheduler为银行业全信创环境打造统一调度管理平台解决方案

项目背景数字金融是数字经济的重要支撑和驱动力。近年来，我国针对数字金融的发展政策频频出台，《金融科技发展规划（2022-2025年）》、《“十四五”数字经济发展规划》、《关于银行业保险业数字化转型的指导意见》、《金融标准化“十四五”发展规划》等相继发布，顶层设计逐步完善。 2024年，政府工作报告也提出要大力发展科技金融、绿色金融、普惠金融、养老金融、数字金融，未来数字金融是我国金融发展重点之一。我国金融业正在步入数字化转型的关键阶段，同时在发展中面临着诸多挑战与难点，如数字基础设施建设不足、数字安全保障机制不健全等。某国有银行地区性分行（以下简称“银行”）主动融入数字经济新浪潮，抢...

sFKdtsnoEZdx 2024年04月19日 17 0 0 大数据

这篇 DolphinScheduler on k8s 云原生部署实践，值得所有大数据人看！

在当前快速发展的技术格局中，企业寻求创新解决方案来简化运营并提高效率成为一种趋势。 ApacheDolphinScheduler作为一个强大的工具，允许跨分布式系统进行复杂的工作流任务调度。本文将深入探讨如何将ApacheDolphinScheduler适配并整合进现代IT环境，提升其在云原生部署中的表现。前言 ApacheDolphinScheduler的高效云原生部署模式，比原始部署模式节省了95%以上的人力资源和工作时间，提升了部署效率和成本效益。通过集成GitOps技术，我们提升了ApacheDolphinScheduler的DevOps管理能力，改善了软件交付效率和安全审计能力。...

sFKdtsnoEZdx 2024年04月17日 33 0 0 大数据

用海豚调度器定时调度从Kafka到HDFS的kettle任务脚本

在实际项目中，从Kafka到HDFS的数据是每天自动生成一个文件，按日期区分。而且Kafka在不断生产数据，因此看看kettle是不是需要时刻运行？能不能按照每日自动生成数据文件？为了测试实际项目中的海豚定时调度从Kafka到HDFS的Kettle任务情况，特地提前跑一下海豚定时调度这个任务，看看到底什么情况,也给大家提供一个参考！海豚调度任务配置（一）SHELL脚本配置 !/bin/bash source/etc/profile /opt/install/kettle9.2/data-integration/pan.sh-rep=hurys_linux_kettle_repositor...

sFKdtsnoEZdx 2024年04月17日 27 0 0 大数据

裁员了！别错过2024年大数据工程师必备的10项技能

在当今快速发展的世界中，数据被视为新的石油。随着对数据驱动洞察的日益依赖，大数据工程师的角色比以往任何时候都更为关键。这些专业人员在管理和优化组织内的数据操作中扮演着至关重要的角色。在本文中，我们将探索2024年大数据工程师必须具备的十项技能。理解大数据工程师的角色在深入技能之前，了解大数据工程师不断演变的角色至关重要。传统上，数据工程师负责管理数据管道和基础设施。然而，随着DataOps的兴起，格局已经发生了变化。大数据工程师现在专注于自动化和简化数据操作，确保数据质量，并促进跨职能协作。他们在数据工程、数据科学和IT运维之间架起了桥梁，创建了一个高效且可扩展的数据生态系统。 Da...

sFKdtsnoEZdx 2024年04月16日 28 0 0 大数据

【安装部署】Apache SeaTunnel 和 Web快速安装详解

版本说明由于作者目前接触当前最新版本为2.3.4但是官方提供的web版本未1.0.0，不兼容2.3.4，因此这里仍然使用2.3.3版本。可以自定义兼容处理，官方提供了文档：https://mp.weixin.qq.com/s/Al1VmBoOKu2P02sBOTB6DQ 因为大部分用户使用SeaTunnelWeb都是基于SeaTunnel-2.3.3版本做的适配,而最新发布的SeaTunnel2.3.4部分API发生了改动导致直接升级的过程中会出现API不兼容的问题，所以本篇文章重点来了:我们需要对调用SeaTunnelAPl的SeaTunnelWeb源码部分进行修改，修改完之后，就能完全适...

sFKdtsnoEZdx 2024年04月16日 15 0 0 大数据

用海豚调度器定时调度从Kafka到HDFS的kettle任务脚本

在实际项目中，从Kafka到HDFS的数据是每天自动生成一个文件，按日期区分。而且Kafka在不断生产数据，因此看看kettle是不是需要时刻运行？能不能按照每日自动生成数据文件？为了测试实际项目中的海豚定时调度从Kafka到HDFS的Kettle任务情况，特地提前跑一下海豚定时调度这个任务，看看到底什么情况,也给大家提供一个参考！海豚调度任务配置（一）SHELL脚本配置 !/bin/bash source/etc/profile /opt/install/kettle9.2/data-integration/pan.sh-rep=hurys_linux_kettle_repositor...

sFKdtsnoEZdx 2024年04月15日 41 0 0 大数据

【导师招募】Apache DolphinScheduler 社区又又又入选开源之夏啦！

很高兴和大家宣布，ApacheDolphinScheduler社区今年再次成功入选入选由中国科学院软件研究所开源软件供应链点亮计划发起的“开源之夏”活动。入选公示链接：https://mp.weixin.qq.com/s/9ExBWGoFPzZ0_SrpAcosZg 此活动旨在鼓励和引导在校学生积极参与开源软件的开发和维护，进而培养和挖掘更多优秀的开发人才，助力于开源社区的持续繁荣和发展。关于开源之夏 “开源之夏”活动提供了一个平台，使学生能够在暑期深入参与开源项目，通过实际操作获取宝贵的经验，并向优秀的开源社区贡献力量。ApacheDolphinScheduler社区的加入，旨在提供项...

sFKdtsnoEZdx 2024年04月11日 38 0 0 大数据

Apache DolphinScheduler 社区 3 月月报

各位热爱DolphinScheduler的小伙伴们，DolphinScheduler社区月报开始更新啦！这里将记录DolphinScheduler社区每月的重要更新。社区为DolphinScheduler3.2.x版本做了诸多功能改进和bug修复 DolphinScheduler月度MergeStars 感谢以下小伙伴3月为ApacheDolphinScheduler所做的精彩贡献（排名不分先后）： @abzymeinsjtu,@pinkfloyds,@zero-element,@liuchunhua,@SbloodyS,@Gallardot,@devosend,@caishunfen...

sFKdtsnoEZdx 2024年04月11日 35 0 0 大数据

海豚调度任务类型Apache SeaTunnel部署指南

ApacheDolphinScheduler已支持ApacheSeaTunnel任务类型，本文介绍了SeaTunnel任务类型如何创建，任务参数，以及任务样例。一、ApacheSeaTunnel SeaTunnel任务类型，用于创建并执行SeaTunnel类型任务。worker执行该任务的时候，会通过start-seatunnel-spark.sh、start-seatunnel-flink.sh和seatunnel.sh命令解析config文件。二、创建任务点击项目管理->项目名称->工作流定义，点击“创建工作流”按钮，进入DAG编辑页面；拖动工具栏的任务节点到画板中...

sFKdtsnoEZdx 2024年04月02日 58 0 0 大数据

【干货】Apache DolphinScheduler2.0升级3.0版本方案

升级背景因项目需要使用数据质量模块功能，可以为数仓提供良好的数据质量监控功能。故要对已有2.0版本升级到3.0版本以上，此次选择测试了3.0.1和3.1.1两个版本，对进行同数据等任务调度暂停等操作测试，最后选择3.0.1版本原因： 1.3.1.1在测试sql任务时，同时启动上百sql任务时，会出现sql任务报错，导致大量任务无法正常运行，询问社区大佬，这是DS本身bug导致，虽然此现象在3.0.1也有出现，不过出现几率较小。 2.DS3.0.1以上版本zookeeper的依赖版本进行了更新，查看驱动版本是3.8版本。我们生产不打算升级zk,故选择使用3.0.1版本。此版本测试还是比较稳...

sFKdtsnoEZdx 2024年03月27日 57 0 0 大数据

【客户案例】白鲸开源WhaleStudio助力某证券公司打造全面数据解决方案：探析DataOps平台革新与应用

背景近年来随着国际形势的变化，信创产业成为我国国家战略的一部分。一直以来，一直以来，全球ICT产业底层标准、架构、产品、生态等要素均由国外公司或机构制定和控制，使我国ICT产业乃至广大用户面临被卡脖子、数据泄露、信息安全等诸多风险，尤其是2018年以来，中兴、华为等公司的遭遇成为鲜活的实例。为了应对这种局面，我国将信创产业纳入国家战略，提出了“2+8”发展体系，志在摆脱对国外ICT产业的依赖，此即信创产业产生的背景。国家《“十四五”国家信息规划》指出，信息化进入加快数字化发展、建设数字中国的新阶段。加快数字化发展、建设数字中国，是顺应新发展阶段形势变化、抢抓信息革命机遇、构筑国家竞争新优...

sFKdtsnoEZdx 2024年03月22日 66 0 0 大数据