摩杜云开发者社区-摩杜云

文章 | 这篇 DolphinScheduler on k8s 云原生部署实践，值得所有大数据人看！

在当前快速发展的技术格局中，企业寻求创新解决方案来简化运营并提高效率成为一种趋势。 ApacheDolphinScheduler作为一个强大的工具，允许跨分布式系统进行复杂的工作流任务调度。本文将深入探讨如何将ApacheDolphinScheduler适配并整合进现代IT环境，提升其在云原生部署中的表现。前言 ApacheDolphinScheduler的高效云原生部署模式，比原始部署模式节省了95%以上的人力资源和工作时间，提升了部署效率和成本效益。通过集成GitOps技术，我们提升了ApacheDolphinScheduler的DevOps管理能力，改善了软件交付效率和安全审计能力。...

sFKdtsnoEZdx 10天前 14 0 0 大数据

文章 | 用海豚调度器定时调度从Kafka到HDFS的kettle任务脚本

在实际项目中，从Kafka到HDFS的数据是每天自动生成一个文件，按日期区分。而且Kafka在不断生产数据，因此看看kettle是不是需要时刻运行？能不能按照每日自动生成数据文件？为了测试实际项目中的海豚定时调度从Kafka到HDFS的Kettle任务情况，特地提前跑一下海豚定时调度这个任务，看看到底什么情况,也给大家提供一个参考！海豚调度任务配置（一）SHELL脚本配置 !/bin/bash source/etc/profile /opt/install/kettle9.2/data-integration/pan.sh-rep=hurys_linux_kettle_repositor...

sFKdtsnoEZdx 10天前 22 0 0 大数据

文章 | WhaleScheduler为银行业全信创环境打造统一调度管理平台解决方案

项目背景数字金融是数字经济的重要支撑和驱动力。近年来，我国针对数字金融的发展政策频频出台，《金融科技发展规划（2022-2025年）》、《“十四五”数字经济发展规划》、《关于银行业保险业数字化转型的指导意见》、《金融标准化“十四五”发展规划》等相继发布，顶层设计逐步完善。 2024年，政府工作报告也提出要大力发展科技金融、绿色金融、普惠金融、养老金融、数字金融，未来数字金融是我国金融发展重点之一。我国金融业正在步入数字化转型的关键阶段，同时在发展中面临着诸多挑战与难点，如数字基础设施建设不足、数字安全保障机制不健全等。某国有银行地区性分行（以下简称“银行”）主动融入数字经济新浪潮，抢...

sFKdtsnoEZdx 8天前 9 0 0 大数据

文章 | SeaTunnel JDBC DB2 Sink Connector支持的工作原理，快来学习吧！

DB2是IBM的一款关系型数据库管理系统，JDBCDB2SourceConnector是一个用于通过JDBC读取外部数据源数据的连接器。ApacheSeaTunnel如何支持JDBCDB2SinkConnector？请参考本文档。支持引擎 SparkFlinkSeaTunnelZeta 主要功能精确一次性 CDC（变更数据捕获）使用Xa事务来确保精确一次性。因此，只支持对支持Xa事务的数据库进行精确一次性操作。您可以设置is_exactly_once=true来启用它。描述通过JDBC写入数据。支持批处理模式和流式模式，支持并发写入，支持精确一次性语义（使用XA事务保证）...

NCZdV8CZSb34 8天前 10 0 0 大数据

文章 | 【安装部署】Apache SeaTunnel 和 Web快速安装详解

版本说明由于作者目前接触当前最新版本为2.3.4但是官方提供的web版本未1.0.0，不兼容2.3.4，因此这里仍然使用2.3.3版本。可以自定义兼容处理，官方提供了文档：https://mp.weixin.qq.com/s/Al1VmBoOKu2P02sBOTB6DQ 因为大部分用户使用SeaTunnelWeb都是基于SeaTunnel-2.3.3版本做的适配,而最新发布的SeaTunnel2.3.4部分API发生了改动导致直接升级的过程中会出现API不兼容的问题，所以本篇文章重点来了:我们需要对调用SeaTunnelAPl的SeaTunnelWeb源码部分进行修改，修改完之后，就能完全适...

sFKdtsnoEZdx 11天前 11 0 0 大数据

文章 | 天翼云入选“2023年度数据要素价值创新标杆示范案例”！

近日，由新一代信息技术产业研究院、赛迪未来产业研究中心共同主办，中国电子学会区块链分会、至顶科技联合承办的“2024未来信息技术大会暨首届数据要素创新发展论坛”于北京成功举办。大会公布了“2023年度数据要素价值创新标杆示范案例”评选结果，天翼云“海南省数据产品超市公共数据资源开发利用平台”与“福州市公共数据要素流通平台”获此殊荣，为推动数据要素市场化配置、助力数据要素价值释放树立了行业标杆。   天翼云相关专家出席会议并分享了天翼云加速向智能云全面升级，在智算服务体系建设、数据要素平台技术创新方面的实践和成果。今年，“人工智能+”首次写入政府工作报告，全面驱动产业数智化升级。...

1H97ZBKLEqYv 11天前 23 0 0 大数据

文章 | 对接HiveMetaStore，拥抱开源大数据

本文分享自华为云社区《对接HiveMetaStore，拥抱开源大数据》，作者：睡觉是大事。 1.前言适用版本：9.1.0及以上在大数据融合分析时代，面对海量的数据以及各种复杂的查询，性能是我们使用一款数据处理引擎最重要的考量。而GaussDB(DWS)服务有着强大的计算引擎，其计算性能优于MRS服务中的hive或者spark这类计算引擎，且可以以更低的成本满足业务高弹性和敏捷性需求。通过与MRS联动，无需搬迁数据，利用DWS的高性能计算引擎处理和分析数据湖中的海量数据以及各种复杂的查询业务、分析业务越来越成为主流的解决方案。我们可以通过创建externalschema的方式来对接Hi...

YqbaJkf98QJO 3天前 11 0 0 大数据

文章 | 指标+AI：迈向智能化，让指标应用更高效

近日，以“Data+AI，构建新质生产力”为主题的袋鼠云春季发布会圆满落幕，大会带来了一系列“+AI”的数字化产品与最新行业沉淀，旨在将数据与AI紧密结合，打破传统的生产力边界，赋能企业实现更高质量、更高效率的数字化发展。会上，袋鼠云业务总经理申杭带来了以“指标+AI：迈向智能化，让指标应用更高效”为主题的分享，深度解读了袋鼠云如何通过全面集成AI能力，提升指标应用效率的新理念与新实践。建设指标体系的价值随着企业业务规模的迅速扩展和数字化进程的持续深化，越来越多的企业依赖大量精准的数据指标来进行精细化运营管理和辅助战略决策，凸显出构建完善指标体系在企业内部的重要性。当前，数据指标体系的建...

b5JnreLK4zaN 3天前 12 0 0 大数据

文章 | EasyMR6.2 全面解读：四大功能深度优化，解锁全新大数据处理和计算体验

在刚刚过去的2024春季发布会上，袋鼠云带来了数栈产品V6.2版本的全新发布。其中，EasyMR作为数栈V6.2中的一项关键能力，代表了袋鼠云对大数据生态的深入理解和持续创新。 EasyMR（后文统称EMR）是袋鼠云基于Hadoop、Hive、Spark、Flink、HBase等开源组件，构建的弹性计算引擎，提供安全可靠、弹性伸缩、低成本的大数据存储与计算服务。其中自主研发的EasyManager企业级大数据运维管理平台支持Hadoop集群的一站式创建、管理、部署、运维与监控功能，提供高效搭建数据中台解决方案。面对企业日益增长的数据处理和分析需求，EMR6.2版本，将为用户提供更为出色的大数...

b5JnreLK4zaN 5天前 15 0 0 大数据

文章 | 裁员了！别错过2024年大数据工程师必备的10项技能

在当今快速发展的世界中，数据被视为新的石油。随着对数据驱动洞察的日益依赖，大数据工程师的角色比以往任何时候都更为关键。这些专业人员在管理和优化组织内的数据操作中扮演着至关重要的角色。在本文中，我们将探索2024年大数据工程师必须具备的十项技能。理解大数据工程师的角色在深入技能之前，了解大数据工程师不断演变的角色至关重要。传统上，数据工程师负责管理数据管道和基础设施。然而，随着DataOps的兴起，格局已经发生了变化。大数据工程师现在专注于自动化和简化数据操作，确保数据质量，并促进跨职能协作。他们在数据工程、数据科学和IT运维之间架起了桥梁，创建了一个高效且可扩展的数据生态系统。 Da...

sFKdtsnoEZdx 11天前 24 0 0 大数据

文章 | 手把手教你掌握SeaTunnel k8s运行Zeta引擎本地模式的技巧

转载自小虾米0.0 导读：随着Kubernetes的普及和发展，越来越多的企业和团队开始使用Kubernetes来管理和部署应用程序。然而，Kubernetes的默认工作方式可能不是最佳的选择，尤其是在需要更高效、更可靠的应用程序部署和管理能力时。因此，SeaTunnel提供了一种运行Zeta引擎(local-mode模式)的方法，可以让Kubernetes在本地运行Zeta引擎，实现更高效的应用程序部署和管理。在本文中，我们将探索SeaTunnelk8s运行zeta引擎(local-mode模式)的更多信息，了解如何更好地利用Zeta引擎的优势。运行将SeaTunnel上传至服务...

NCZdV8CZSb34 4天前 13 0 0 大数据

文章 | hive on spark内存模型

内容介绍 hiveonspark的调优,那必然涉及到这一系列框架的内存模型。本章就是来讲一下这些框架的内存模型。hiveonspark的任务，从开始到结束。总共涉及了3个框架。分别是：yarn、hive、spark其中，hive只是一个客户端的角色。就不涉及任务运行时的内存。所以这里主要讲的yarn和spark的内存模型。其中，由于spark是运行在yarn的container中。所以我们从外到内。先将yarn的资源分配。后讲spark的内存模型。 hiveonspark提交流程 hive阶段首先上场的是hive框架。当我们写了一个SQL语句的时候，会被hive进行解析（hive用的SQL解...

Gyz2GVSspoIi 11天前 21 0 0 大数据

文章 | 告别手动调度，海豚调度器 3.1.x 集群部署让你轻松管理多机！

转载自第一片心意 1前言由于海豚调度器官网的集群部署文档写的较乱，安装过程中需要跳转到很多地方进行操作，所以自己总结了一篇可以直接跟着从头到尾进行操作的文档，以方便后续的部署、升级、新增节点、减少节点的相关操作。 2.提前准备 2.1.基础组件 JDK：下载JDK(1.8+)，安装并配置JAVA_HOME环境变量，并将其下的bin目录追加到PATH环境变量中。如果你的环境中已存在，可以跳过这步。二进制包：在下载页面下载DolphinScheduler二进制包数据库：PostgreSQL(8.2.15+)或者MySQL(5.7+)，两者任选其一即可，如MySQL则需要JDBCDrive...

sFKdtsnoEZdx 4天前 15 0 0 大数据

文章 | 实时数仓构建：Flink+OLAP查询的一些实践与思考

今天是一篇架构分享内容。 1.概述以Flink为主的计算引擎配合OLAP查询分析引擎组合进而构建实时数仓，其技术方案的选择是我们在技术选型过程中最常见的问题之一。也是很多公司和业务支持过程中会实实在在遇到的问题。很多人一提起实时数仓，就直接大谈特谈Hudi，Flink的流批一体等，但实际上，实时数仓包括任何架构体系的构建如果我们抛开成本和稳定性谈技术，那都是有耍流氓的嫌疑。本文主要给大家进行实时数仓构建的技术选型提供一些经验与思考，面试中如果被问及，也可以谈谈。 2.实时数仓的现状目前大多数公司的实时数仓业务完全基于Flink计算引擎来搭建实时数据链路，尤其是大多数具有中大流量，或者业...

Ku3edDmxXuM9 11天前 17 0 0 大数据

文章 | 用DolphinScheduler轻松实现Flume数据采集任务自动化！

转载自天地风雷水火山泽目的因为我们的数仓数据源是Kafka，离线数仓需要用Flume采集Kafka中的数据到HDFS中。在实际项目中，我们不可能一直在Xshell中启动Flume任务，一是因为项目的Flume任务很多，二是一旦Xshell页面关闭Flume任务就会停止，这样非常不方便，因此必须在后台启动Flume任务。所以经过测试后，我发现海豚调度器也可以启动Flume任务。海豚调度Flume任务配置（一）Flume在Linux中的路径（二）Flume任务文件在Linux中的位置以及任务文件名（三）在海豚中配置运行脚本 !/bin/bash source/etc/profile ...

sFKdtsnoEZdx 3天前 10 0 0 大数据

文章 | 玩转云端 | 拥有HBlock这项“存储盘活绝技”，数据中心也能“热辣瘦身”！

夏天马上就要到了，“瘦身”不光是特定人群的需求，也是数据中心的需求。构建轻量化、低碳化、高性价比的新型数据中心，更有效地支撑经济社会数字化转型，已成为业界主流趋势。如何让数据中心“热辣瘦身”？轻量级存储集群控制器——天翼云存储资源盘活系统HBlock必不可少！  “HBlock健身房”究竟是如何发挥功效的？三大招式出击，助力数据中心迅速“逆袭”！第一大招“混合部署” 让数据中心精简紧凑，原地“暴瘦”！ HBlock作为全用户态的轻量级存储集群控制器，可以和别的业务系统混合部署在同一台服务器内，实现服务器总数量减少。HBlock还可以盘活服务器本地的磁盘，当作高可用虚拟盘提供给服...

1H97ZBKLEqYv 4天前 13 0 0 大数据

文章 | 用海豚调度器定时调度从Kafka到HDFS的kettle任务脚本

在实际项目中，从Kafka到HDFS的数据是每天自动生成一个文件，按日期区分。而且Kafka在不断生产数据，因此看看kettle是不是需要时刻运行？能不能按照每日自动生成数据文件？为了测试实际项目中的海豚定时调度从Kafka到HDFS的Kettle任务情况，特地提前跑一下海豚定时调度这个任务，看看到底什么情况,也给大家提供一个参考！海豚调度任务配置（一）SHELL脚本配置 !/bin/bash source/etc/profile /opt/install/kettle9.2/data-integration/pan.sh-rep=hurys_linux_kettle_repositor...

sFKdtsnoEZdx 12天前 21 0 0 大数据

文章 | 金融案例：统一查询方案助力数据治理与分析应用更高效、更安全

随着企业数据规模的增长和业务多元化发展，海量数据实时、多维地灵活查询变成业务常见诉求。同时多套数据库系统成为常态，这既带来了数据管理的复杂性，又加大了数据使用的难度，面对日益复杂的数据环境和严格的数据安全要求，需要解决多数据库系统并存、数据孤岛严重、权限管理混乱和数据查询提取困难等问题。与此同时，企业对数据安全管控的要求越来越高，不同角色和部门需要访问的数据各异，如何精细控制数据库权限、防止数据泄露和误操作成为关键挑战。建设背景相较于日常查询，在系统实施时通过建立索引、分区等技术来优化、提高查询效率。Ad-Hoc查询生成的方式很多，常见方式是将数仓中的DIM表和Fact表映射到语义层，分析...

b5JnreLK4zaN 21小时前 5 0 0 大数据

文章 | 实战干货｜Spark 在袋鼠云数栈的深度探索与实践

Spark是一个快速、通用、可扩展的大数据计算引擎，具有高性能、易用、容错、可以与Hadoop生态无缝集成、社区活跃度高等优点。在实际使用中，具有广泛的应用场景： ·数据清洗和预处理：在大数据分析场景下，数据通常需要进行清洗和预处理操作以确保数据质量和一致性，Spark提供了丰富的API，可以对数据进行清洗、过滤、转换等操作 ·批处理分析：Spark适用于各种应用场景下的批处理任务，包括统计分析、数据挖掘、特征提取等，用户可以利用Spark强大的API和内置库进行复杂的数据处理和分析，从而挖掘数据中的内在价值 ·交互式查询：Spark提供了支持SQL查询的SparkSQL模块，用户可以使用标准...

b5JnreLK4zaN 21小时前 4 0 0 大数据

文章 | SQL窗口分析函数使用详解系列三之偏移量类窗口函数

1.综述本文以HiveSQL语法进行代码演示。对于其他数据库来说同样也适用，比如SparkSQL，FlinkSQL以及Mysql8，Oracle，SqlServer等传统的关系型数据库。已更新第一类聚合函数类，点击这里阅读①SQL窗口函数系列一之聚合函数类 ②SQL窗口函数系列二之分组排序窗口函数本节介绍Hive窗口分析函数中的第三类窗口函数：偏移量类窗口函数。在实际的应用场景中，顾名思义，偏移量分析函数主要应用于求解和指定偏移数据的差值。例如和上一行数据差值，和下一行数据差值。有什么实际意义呢？例如，每行数据是天粒度的，那么上下行的差值计算就是前后天的数据增长量或者减少量，比le...

Ku3edDmxXuM9 21小时前 5 0 0 大数据