背景 近年来随着国际形势的变化,信创产业成为我国国家战略的一部分。一直以来,一直以来,全球ICT产业底层标准、架构、产品、生态等要素均由国外公司或机构制定和控制,使我国ICT产业乃至广大用户面临被卡脖子、数据泄露、信息安全等诸多风险,尤其是2018年以来,中兴、华为等公司的遭遇成为鲜活的实例。 为了应对这种局面,我国将信创产业纳入国家战略,提出了“2+8”发展体系,志在摆脱对国外ICT产业的依赖,此即信创产业产生的背景。国家《“十四五”国家信息规划》指出,信息化进入加快数字化发展、建设数字中国的新阶段。加快数字化发展、建设数字中国,是顺应新发展阶段形势变化、抢抓信息革命机遇、构筑国家竞争新优...

  sFKdtsnoEZdx   2024年03月22日   94   0   0 大数据

在用ApacheSeaTunnel研发SM2加密组件过程中,发现社区关于本地调试SeaTunnel文章过于简单,很多情况没有说明,于是根据自己遇到问题总结这篇文档。SeaTunnel本地调试官方文档,希望对大家有所帮助! 使用的引擎为Flink(不需要下载,SeaTunnel中有加载依赖),输入输出方式为:mysqltomysql 一、工具说明 1.idea2023.3.2 2.MySQL8.0.36 3.jdk1.8 4.seatunnel2.3.4-release 二、开发前准备 1.从github拉下来代码 github地址:https://github.com/apache/seat...

  sFKdtsnoEZdx   2024年03月20日   35   0   0 大数据

我司使用ApacheDolphinScheduler作为调度框架很久了,感兴趣的小伙伴可以看看这些干货文章: 因为之前监控到会出现重复的调度的问题,所以此文记录排查重复调度问题的全过程,希望对社区其他的小伙伴能够起到抛砖引玉的作用! 注:本文使用的DolphinScheduler3.1.1的版本。 数据库使用的Tidb数据库,版本6.5.0,数据库的隔离级别是默认的RR(ReadCommitted)。 Quartz版本为2.3.2,存储模式为JDBC。使用的CronTrigger,设置了org.quartz.jobStore.acquireTriggersWithinLock=true 先...

  sFKdtsnoEZdx   2024年03月18日   23   0   0 大数据

集群部署方案(2Master+3Worker) ApacheDolphinScheduler官网:https://dolphinscheduler.apache.org/zh-cn ApacheDolphinScheduler使用文档:https://dolphinscheduler.apache.org/zh-cn/docs/3.2.0 截止2024-01-19,最新版本:3.2.0 部署版本:apache-dolphinscheduler-3.2.0-bin.tar.gz 主机名 ip 部署服务 hadoop31 192.168.0.31 MasterServer、Wor...

  sFKdtsnoEZdx   2024年03月11日   123   0   0 大数据

在大数据处理领域,ApacheSeaTunnel已成为一款备受青睐的开源数据集成平台,它不仅可以基于ApacheSpark和Flink,而且还有社区单独开发专属数据集成的Zeta引擎,提供了强大的数据处理能力。随着SeaTunnelWeb的推出,用户界面(UI)操作变得更加友好,项目部署和管理更加便捷。 本指南旨在提供一个简明扼要的步骤,帮助用户成功部署SeaTunnel及其Web界面。小主已经把可能遇到的坑都填过了,希望大家都能安安稳稳上路,不掉坑,话不多说,走起 1.预置环境 1.1.所需软件包及版本要求 CentOS7.6.18_x86_64 JDK>=1.8.151 Mave...

  sFKdtsnoEZdx   2024年03月01日   57   0   0 大数据

北京白鲸开源科技有限公司(以下简称“白鲸开源”)今日宣布,其旗舰产品WhaleStudio套件已与瀚高基础软件股份有限公司(以下简称“瀚高软件”)旗下的IvorySQL数据库管理系统V3.0完成深度兼容性认证。此次合作标志着两家领军企业在数据管理领域的紧密联合,为用户提供更加稳定、高效的数据处理解决方案。 通过双方的紧密合作,WhaleStudio套件已经可以顺利安装、配置在IvorySQL数据库管理系统V3.0上,并在功能、性能和安全性方面通过了全面的测试。这一成就不仅展示了双方产品的高度兼容性,也为用户的关键性应用需求提供了有力保障。 携手共创数据管理新未来 白鲸开源科技,作为云原生Dat...

  sFKdtsnoEZdx   2024年02月27日   139   0   0 大数据

非常欢迎大家来到ApacheDolphinScheduler社区!随着开源技术在全球范围内的快速发展,社区的贡献者“同仁”一直致力于构建一个强大而活跃的开源调度系统社区,为用户提供高效、可靠的任务调度和工作流管理解决方案。 在过去的一段时间里,我们取得了一些重要的成就,但我们的愿景远未实现。为了更好地满足用户需求和推动项目的发展,我们在2024新春伊始,制定了以下Roadmap,将在未来的版本中实现一系列激动人心的功能和改进。 当前社区状态 2024年roadmap有两个来源,部分是来自2023年发起但是没有开始实施,或者实施了部分的议题,另一部分是最新新增的议题。2024年roadmap可...

  sFKdtsnoEZdx   2024年02月26日   52   0   0 大数据

近期,ApacheDolphinScheduler社区激动地宣布3.2.1版本的发布。此次更新不仅着力解决了前一版本(3.2.0)中遗留的问题,而且引入了一系列的功能增强和优化措施。 原先的问题主要源于部分重要代码在发布过程中未能成功合并(cherry-pick),加之这部分代码的合并过程较为复杂,因此,3.2.1版本基于2024年2月的dev分支代码,剔除了一些不兼容的特性后发布。 全部Changelog:https://github.com/apache/dolphinscheduler/releases/tag/3.2.1 下载地址:https://dolphinscheduler.a...

  sFKdtsnoEZdx   2024年02月21日   24   0   0 大数据

一、为什么要做诊断引擎 毓数平台是奇富科技公司自主研发的一站式大数据管理、开发、分析平台,覆盖大数据资产管理、数据开发及任务调度、自助分析及可视化、统一指标管理等多个数据生命周期流程,让用户使用数据的同时,挖掘数据最大的价值。而毓数平台的大数据任务调度底层是基于ApacheDolphinScheduler实现的。 整个大数据平台有1000+机器、70P数据量,每日新增200T数据。每天在毓数工作流上运行的任务实例有13万+,周活跃用户400+;每天在毓数自助查询中运行的sql有16万+,周活跃用户500+。运行的任务类型有Spark任务、Sqoop任务、DataX任务等10多种任务类型。 而我...

  sFKdtsnoEZdx   2024年02月19日   54   0   0 大数据

北京时间2024年2月20日,中国领先的开源技术公司,白鲸开源科技有限公司(以下简称"白鲸开源")荣幸宣布,该公司获得了第六届"年度金猿季大型主题策划活动"颁发的"2023大数据产业年度最具投资价值"奖项。这一殊荣是对白鲸开源在大数据领域取得的卓越成就和突出贡献的认可。 金猿季推动产业升级 "年度金猿季大型主题活动"由金猿、数据猿、上海大数据联盟共同组成的金猿组委会发起。本届金猿季以"小趋势·大未来"为主题,旨在促进大数据产业的进步,激发企业的数据资产价值与数据技术能力,推动整个产业的转型升级。活动吸引了来自不同行业的众多精英参与。 业界权威的奖项与榜单 在历经数月的申报和评选过程后,组委会...

  sFKdtsnoEZdx   2024年02月19日   134   0   0 大数据

2024年1月2日,北京白鲸开源科技有限公司(以下简称"白鲸开源")荣幸宣布,白鲸开源旗下产品WhaleStudioV2.4已成功通过与麒麟软件有限公司旗下的银河麒麟高级服务器操作系统产品的兼容性测试。 麒麟软件有限公司的银河麒麟高级服务器操作系统(飞腾版)V10和银河麒麟高级服务器操作系统(鲲鹏版)V10也已通过测试。这一兼容认证确保了产品在性能、可靠性以及通用兼容性方面满足用户的关键性应用需求。 WhaleStudioV2.4 WhaleStudioV2.4是白鲸开源自主研发的数据开发产品。它为企业提供了强大的任务调度、数据同步、任务血缘等功能,使数据开发工作更加高效。WhaleStud...

  sFKdtsnoEZdx   2024年02月19日   70   0   0 大数据

背景 看到ApacheDolphinScheduler社区群有很多用户反馈和讨论这块问题,针对不兼容的问题,不仅需要自己重新编译各一个新包,而且因为默认是使用zk-3.8的配置,所以会出现不兼容问题。使用zk-3.4配置即可适配3.4.x 解决办法(一) 切换到项目源码的根路径中执行 mvncleanpackage-T1C-Prelease'-Dmaven.test.skip=true''-Dcheckstyle.skip=true''-Dmaven.javadoc.skip=true''-Dzk-3.4' 上述命令解释 mvncleanpackage 依次执行了clean、res...

  sFKdtsnoEZdx   2024年02月19日   77   0   0 大数据

前言:大数据领域对多种任务都有调度需求,以离线数仓的任务应用最多,许多团队在调研开源产品后,选择ApacheDolphinScheduler(以下简称DS)作为调度场景的技术选型。得益于DS优秀的特性,在对数仓任务做运维和管理的时候,往往比较随意,或将所有任务节点写到一个工作流里,或将每个逻辑节点单独定义一个工作流,缺少与数仓建模对应的任务管理规范; 这造成了数据管理困难和异常容错繁琐等痛点,本文基于数仓建模标准的方法论,构建一套用于DS管理数仓任务的规范,避免以上痛点。 海豚调度数仓任务现状分析 本文缘起社区负责人的痛点定位;在使用DS做数仓任务管理时,数据建模分层落地到调度上缺少规范,社区...

  sFKdtsnoEZdx   2024年02月19日   88   0   0 大数据

平凯星辰和白鲸开源宣布成功完成产品兼容认证 北京,2023年12月27日平凯星辰(北京)科技有限公司(以下简称平凯星辰)旗下的TiDB产品与白鲸开源的WhaleStudio已成功完成产品兼容性认证。这一重要合作旨在为全球客户提供更大的价值。 关于WhaleStudio WhaleStudio是一款由ApacheDolphinScheduler和SeaTunnel核心团队打造的商业版高性能分布式数据产品。它提供了任务调度、数据同步、任务血缘等丰富的功能,使用户能够轻松应对复杂的数据处理需求。WhaleStudio提供简洁的IDE编辑界面、强大的调度运行功能、调度血缘分析、运维监控以及企业级权限...

  sFKdtsnoEZdx   2024年01月24日   16   0   0 大数据

一、海豚调度介绍 ApacheDolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。 ApacheDolphinScheduler旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种OPS编排中的关系。解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。DolphinScheduler以DAG(DirectedAcyclicGraph,DAG)流式方式组装任务,可以及时监控任务的执行状态,支持重试、指定节点恢复失败、暂停、恢复、终止任务等操作。 二、海豚...

  sFKdtsnoEZdx   2024年01月22日   24   0   0 大数据

纵观2023年中国数据行业发展与2024年数据产业趋势,就不得不提到2023年全年国家全年强调的数据要素的概念以及在2023年12月中国国家数据局等17个部门联合印发了《“数据要素×”三年行动计划(2024—2026年)》。 从2020年-2023年政策发展脉络来看,政府整体思路上让数据要素成为企业的“新能源”,从而促进企业数智化发展活力,带动整体上下游整体产业升级。那么,数据要素与数据商融资真的可以促进中国数据相关产业像中国新能源造车新势力一样弯道超车,从而带动整个产业升级么?请详读本文,它会来给你带来答案。 数据要素的缘起 “数据要素”这个概念是在2020年-2023年多个政策文件中都有提...

  sFKdtsnoEZdx   2024年01月16日   18   0   0 大数据

概述 ApacheDolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。 ApacheDolphinScheduler旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种OPS编排中的关系。解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。DolphinScheduler以DAG(DirectedAcyclicGraph,DAG)流式方式组装任务,可以及时监控任务的执行状态,支持重试、指定节点恢复失败、暂停、恢复、终止任务等操作。 特性 1.简单易用 可视...

  sFKdtsnoEZdx   2024年01月16日   40   0   0 大数据

摘要 随着任务数量、任务类型需求不断增长,对我们的数据开发平台提出了更高的要求。本文主要分享我们将调度引擎升级到ApacheDolphinScheduler的实践经验,以及对数据开发平台的一些思考。 1.背景 首先介绍下我们的大数据平台架构: 数据计算层承接了全公司的数据开发需求,负责运行各类指标计算任务。 其中批计算任务运行在UDA数据开发平台,支持任务全链路的开发场景:开发、调试、环境隔离、运维、监控。这些功能的支持、任务的稳定运行,强依赖底层的调度系统。 原有调度系统是2015年(抑或更早)自研的,随着任务类型新增、任务数量增多,暴露出诸多问题: 稳定性:频繁出现mysql连接不释...

  sFKdtsnoEZdx   2024年01月11日   16   0   0 大数据

DolphinDB是一款高性能时序数据库。DolphinDB集成了功能强大的编程语言和高容量高速度的批流一体数据分析系统,为海量数据(特别是时间序列数据)的快速存储、检索、计算及分析提供一站式解决方案。在实际生产环境中,经常存在数据导入、转换、查询计算,更新等一系列流程任务,各个部分之间存在依赖,如何将这些DolphinDB任务按照需求准确、有效率地调度,可以借用DolphinScheduler任务调度器。 本文将从生产环境中的一个ETL场景出发,将DolphinScheduler引入到DolphinDB的高可用集群中,通过使用DolphinScheduler提供的功能来调度DolphinDB...

  sFKdtsnoEZdx   2024年01月08日   15   0   0 大数据

点亮⭐️Star·照亮开源之路 GitHub:https://github.com/apache/dolphinscheduler ​ 版本发布 感谢本次的ReleaseManager--@zhuangchong,是他主导了我们这个版本的发布流程,引导社区进行版本内容沟通,发版前的问题跟踪,blockingissue处理,版本质量管理等,感谢@zhuangchong为社区的付出,也期待其他Committer和PMC能够一起参与到ReleaseManager的角色中来。 在3.0.0正式版本发布1个多月之后,期间社区也紧锣密鼓的进行着新版本的迭代的筹备,通过用户访谈对一线的建议、意见反馈进行收...

  sFKdtsnoEZdx   2023年11月01日   112   0   0 大数据
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~