摩杜云开发者社区-摩杜云

文章 | 集群部署专题之一：详解集群间SSH无密码登录配置步骤

一、SSH简介 SSH（SecureShell）是一种网络安全协议，通过加密和认证机制实现安全访问和文件传输等业务。传统远程登录和文件传输方式有Telnet或FTP，这两种方式都使用明文传输数据，存在很多安全隐患。SSH采用加密传输数据、提升认证强度等手段，克服了Telnet和FTP应用中的安全性问题，实现了安全的远程登录和文件传输业务。二、SSH登录两种常见的认证方式 SSH依赖端口(默认22端口)进行通信。SSH服务器在指定端口侦听连接请求，客户端向SSH服务器该指定端口发起连接请求后，双方建立一个TCP连接，后续通过该端口通信。 SSH客户端向SSH服务器发起认证请求，服务端对客户端进...

Mm9Hqk9ztOe1 2023年11月01日 79 0 0 大数据

文章 | 在本地运行Kusto服务器

我喜欢Kusto（或商用版本AzureDataExplorer，简称ADX)是大家可以有目共睹的，之前还专门写过这方面的书籍，请参考大数据分析新玩法之Kusto宝典,很可能在今年还会推出第二季，正在酝酿题材和场景中。为了使用Kusto，你既可以购买正式的服务（AzureDataExplorer）用于生产环境，也可以注册免费版https://aka.ms/kustofree来做研究和试验。而今天我要给大家介绍的是，你还可以在本地运行自己的Kusto服务器（官方叫法是模拟器）呢。请注意，模拟器是没有技术支持的，建议不要用于生产环境啊。你可以通过https://learn.microsof...

jwdSBxzDLU8H 2023年11月01日 50 0 0 大数据

文章 | ELT已死，EtLT才是现代数据处理架构的终点!

提到数据处理，经常有人把它简称为“ETL”。但仔细说来，数据处理经历了ETL、ELT、XXETL（例如，ReverseETL、Zero-ETL）到现在流行的EtLT架构几次更迭。目前大家使用大数据Hadoop时代，主要都是ELT方式，也就是加载到Hadoop里进行处理，但是实时数据仓库、数据湖的流行，这个ELT已经过时了，EtLT才是实时数据加载到数据湖和实时数据仓库的标准架构。本文主要讲解下几个架构出现的原因和擅长的场景及优缺点，以及为什么EtLT逐步取代了ETL、ELT这些常见架构，成为全球主流数据处理架构，并给出开源实践方法。 ETL时代（1990-2015）在数据仓库早期时代，数...

NCZdV8CZSb34 2023年11月01日 80 0 0 大数据

文章 | 白鲸开源 DataOps 平台加速数据分析和大模型构建

作者|李晨编辑|DebraChen 数据准备对于推动有效的自助式分析和数据科学实践至关重要。如今，企业大都知道基于数据的决策是成功数字化转型的关键，但要做出有效的决策，只有可信的数据才能提供帮助，随着数据量和数据源的多样性继续呈指数级增长，要实现这一点愈加困难。如今，很多公司投入了大量时间和金钱来整合他们的数据。他们使用数据仓库或数据湖来发现、访问和使用数据，并利用AI推动分析用例。但他们很快意识到，在湖仓中处理大数据仍然具有挑战性。数据准备工具是缺失的组成部分。什么是数据准备，挑战是什么数据准备是清理、标准化和丰富原始数据的过程。这使数据准备好应用于高级分析和数据科学用例。准备数据...

sFKdtsnoEZdx 2023年11月01日 59 0 0 大数据

文章 | 实操教程 | 触发器实现 Apache DolphinScheduler 失败钉钉自动告警

作者|sqlboy-yuzhenc 背景介绍在实际应用中，我们经常需要将特定的任务通知给特定的人，虽然ApacheDolphinScheduler在安全中心提供了告警组和告警实例，但是配置起来相对复杂，并且还需要在定时调度时指定告警组。通过这篇文章，你将学到一个简单的方法，无需任何配置，只需要在用户表（t_ds_user）表中增加字段钉钉名称（dignding_name），创建用户时指定用户的手机号码和维护对应的钉钉名称，就能轻松实现ApacheDolphinScheduler任务失败时钉钉告警到指定的人。安装插件plpython3u psqletl-Upostgres createex...

sFKdtsnoEZdx 2023年11月01日 98 0 0 大数据

文章 | 直播预约丨《实时湖仓实践五讲》第一讲：企业为什么需要实时湖仓？

如今，大规模、高时效、智能化数据处理已是“刚需”，企业需要更强大的数据平台，来应对数据查询、数据处理、数据挖掘、数据展示以及多种计算模型并行的挑战，湖仓一体方案应运而生。《实时湖仓实践五讲》是袋鼠云打造的系列直播活动，将围绕实时湖仓的建设趋势和通用问题，邀请奋战于企业数字化一线的核心产品&技术专家，结合实践案例分析，和听众共同探讨实时湖仓领域的前沿技术。《实时湖仓实践五讲》第一讲——《企业为什么需要实时湖仓》将于8月30日15:00-16:00开播，三步教你如何使用"Flink+数据湖”构建实时湖仓，快快预约直播！点击链接预约直播：https://fs80.cn/8f2txu ...

b5JnreLK4zaN 2023年11月01日 140 0 0 大数据

文章 | 3.2.0 终极预告！云原生支持新增 Spark on k8S 支持

视频贡献者|王维饶视频制作者|聂同学编辑整理|DebraChen ApacheDolphinScheduler3.2.0版本将发布，为了让大家提前了解到此版本更新的主要内容，我们已经制作了几期视频和内容做了大致介绍，包括《重磅预告！ApacheDolphinScheduler3.2.0新功能“剧透”》、《3.2.0版本预告！ApacheDolphinSchedulerAPI增强相关功能》、《3.2.0版本预告！远程日志解决Worker故障获取不到日志的问题》。今天，我们来介绍另一个用户也很关注的云原生相关功能更新。 https://www.bilibili.com/video/BV...

sFKdtsnoEZdx 2023年11月01日 82 0 0 大数据

文章 | Apache SeaTunnel 2.3.3 版本发布，CDC 支持 Schema Evolution！

时隔两个月，ApacheSeaTunnel终于迎来大版本更新。此次发布的2.3.3版本在功能和性能上均有较大优化改进，其中大家期待已久的CDCSchemaevolution（DDL变更同步）、主键Split拆分、JDBCSink自动建表功能、SeaTunnelZeta引擎支持作业配置支持变量替换和传参等都是更新的亮点。这些功能和优化使得ApacheSeaTunnel具备了更强大的数据同步能力，大幅提升了SeaTunnel的性能。本文将详细介绍本次更新的具体情况。 CDC相关更新支持Schemaevolution 关于CDC方面的重要更新，是在架构层面支持了Schemaevolution...

NCZdV8CZSb34 2023年11月01日 89 0 0 大数据

文章 | 商品推荐系统浅析

  一、综述本文主要做推荐系统浅析，主要介绍推荐系统的定义，推荐系统的基础框架，简单介绍设计推荐的相关方法以及架构。适用于部分对推荐系统感兴趣的同学以及有相关基础的同学，本人水平有限，欢迎大家指正。二、商品推荐系统 2.1推荐系统的定义推荐系统本质上还是解决信息过载的问题，帮助用户找到他们感兴趣的物品，深度挖掘用户潜在的兴趣。 2.2推荐架构其实推荐系统的核心流程只有召回、排序、重排。请求流程当一个用户打开一个页面，这个时候前端会携带用户信息（pin或者uuid等）去请求后台接...

ej6Fb1sGOJN2 2023年11月01日 107 0 0 大数据

文章 | 大型集团企业数据治理方案，以“应用驱动”的数据治理策略 | 行业方案

数据治理是推动大型集团企业转型升级、提升竞争优势、实现高质量发展的重要引擎。通过搭建大数据平台，实现对业务系统数据的采集、清理、建模、整合，建立一个符合业务需求的数据决策平台，形成企业数字化转型关键能力，支撑数据赋能业务价值，最终推动组织及管理升级，实现数字化转型。以某拥有多元主业的综合型产业集团为例，该集团众多业务板块的信息化建设各自发展，系统相对独立，数据尚未实现归集交换共享，业务协同联动缺少支撑，数字化运营能力薄弱，制约了集团的内部管控和经营效率的提升。为此，袋鼠云提出了“1套物理中台+N个逻辑中台+X个场景”的数据治理解决方案，建设集团经营指标及标签体系，在场景化数据应用、消费者...

b5JnreLK4zaN 2023年11月01日 49 0 0 大数据

文章 | 前端开发进阶：前端开发中如何高效渲染大数据量？

在日常工作中，有时会遇到一次性往页面中插入大量数据的场景，在数栈的离线开发（以下简称离线）产品中，就有类似的场景。本文将通过分享一个实际场景中的前端开发思路，介绍当遇到大量数据时，如何实现高效的数据渲染，以达到提升页面性能和用户体验的目的。渲染大数据量时遇到的问题在离线的数据开发模块，用户可以在SQL编辑器中编写SQL，再通过整段运行/分段运行来执行SQL。在点击整段运行后，从运行成功日志打印后到展示结果的过程中，有一段时间页面会很卡顿，主要表现为编辑器编写卡顿。我们是在解决SQL最大运行行数问题时，发现了上述需要进行性能优化的场景。先来梳理下当前代码的设计逻辑： ·前端将选中的S...

b5JnreLK4zaN 2023年11月01日 66 0 0 大数据

文章 | python数据分析基础《用数据讲故事》#0 引言

0引言 0.1糟糕的图表无处不在 0.2我们天生不擅长用数据讲故事在学校里，我们学习了很多关于语言和数学的知识。在语言方面，我们学习如何将单词组合成句子和故事。数学方面，我们学习如何理解数字。但很少有人将这两方面结合起来：没有人教我们如何用数字讲故事。更严峻的是，很少有人觉得自己天生就擅长这个领域。这让我们对这项需求日益增长的重要任务准备不足。技术使我们能够积累越来越多的数据，与此同时，人们也越来越希望从所有这些数据中找出意义。能够将数据可视化并用数据讲故事，是将数据转化为可用于推动更好决策的信息的关键。由于缺乏这方面的自然技能或培训，我们最终往往只能依赖工具来了解最佳实践。技术的进步...

NJnxCrUH2njg 2023年11月01日 51 0 0 大数据

文章 | Apache DolphinScheduler 支持使用 OceanBase 作为元数据库啦!

DolphinScheduler是一个开源的分布式任务调度系统，拥有分布式架构、多任务类型、可视化操作、分布式调度和高可用等特性，适用于大规模分布式任务调度的场景。目前DolphinScheduler支持的元数据库有Mysql、PostgreSQL、H2，如果在业务中需要更好的性能和扩展性，可以在DolphinScheduler中使用OceanBase数据库作为元数据库进行替换。节点数量和规模可以自由调整，实现无缝扩展和缩减。一.OceanBase数据库 OceanBase数据库是阿里巴巴自主研发的分布式关系型数据库，具有以下特点：分布式架构：OceanBase采用分布式架构，可水平扩...

sFKdtsnoEZdx 2023年11月01日 133 0 0 大数据

文章 | 手把手带你玩转HetuEngine：资源规划与数据源对接

本文分享自华为云社区《【手把手带你玩转HetuEngine】（三）HetuEngine资源规划》，作者：HetuEngine九级代言。 HetuEngine支持在服务层角色实例和计算实例两个维度进行资源规划，并且支持在高并发场景下通过启动多个计算实例进行负载分担和均衡，从而满足各种业务场景下的资源规划需求。一、HetuEngine角色实例资源规划 HetuEngine能够通过服务层对计算实例进行服务化管理，服务层的角色实例包括HSBroker、HSConsole、HSFabric、QAS。 <divdata-pm-attrs="{"type":"table&qu...

YqbaJkf98QJO 2023年11月01日 60 0 0 大数据

文章 | JDBC Vertica Source Connector 使用文档

支持以下引擎 Spark Flink SeaTunnelZeta 关键特性批处理精确一次性处理列投影并行处理支持用户自定义拆分支持查询SQL并实现投影效果描述通过JDBC读取外部数据源数据。支持的数据源信息 Datasource Supportedversions Driver Url Maven Vertica Differentdependencyversionhasdifferentdriverclass. com.vertica.jdbc.Driver jdbc:vertica://localhost:5433/vertica Download...

sFKdtsnoEZdx 2023年11月01日 37 0 0 大数据

文章 | 3.2.0 版本预告！远程日志解决 Worker 故障获取不到日志的问题

ApacheDolphinScheduler3.2.0版本已经呼之欲出，8月中下旬，这个大版本就要和用户见面了。为了让大家提前了解到此版本更新的主要内容，我们已经制作了几期视频和内容做了大致介绍，包括《重磅预告！ApacheDolphinScheduler3.2.0新功能“剧透”》、《3.2.0版本预告！ApacheDolphinSchedulerAPI增强相关功能》。今天，我们来介绍另一个用户比较关心的新功能——Remotelogging（远程日志），看看是否能帮助你的工作变得更简单吧！ https://www.bilibili.com/video/BV1U14y1q74N/?spm_i...

sFKdtsnoEZdx 2023年11月01日 55 0 0 大数据

文章 | 带你快速上手HetuEngine

本文分享自华为云社区《【手把手带你玩转HetuEngine】（一）HetuEngine快速上手》，作者：HetuEngine九级代言。 HetuEngine是什么 HetuEngine是华为推出的高性能交互式SQL分析及数据虚拟化引擎。与大数据生态无缝融合，实现海量数据秒级交互式查询；支持跨源跨域统一访问，使能数据湖内、湖间、湖仓一站式SQL融合分析。 HetuEngine适合做什么适用于Hadoop集群（FusionInsightMRS）的Hive、Hudi数据源的交互式快速查询场景; 适用于跨源（多种数据源，如Hive，Hudi，HBase，GaussDB(DWS)，Elastics...

YqbaJkf98QJO 2023年11月01日 73 0 0 大数据

文章 | 分布式可视化 DAG 任务调度系统 Taier 的整体流程分析

Taier作为袋鼠云的开源项目之一，是一个分布式可视化的DAG任务调度系统。旨在降低ETL开发成本，提高大数据平台稳定性，让大数据开发人员可以在Taier直接进行业务逻辑的开发，而不用关心任务错综复杂的依赖关系与底层的大数据平台的架构实现，将工作的重心更多地聚焦在业务之中。本文将从Taier的流程简述、结构分析以及可扩展点三个方面对Taier的整体流程进行分析探讨。 Taier流程简述 Taier主从划分 Taier是一个单独的应用，进程无主从划分，多实例运行时通过ZK实现主从划分。基于LeaderLatch进行实现，启动时抢到锁的节点即为主（Master），没有抢到锁的即为从（Worker...

b5JnreLK4zaN 2023年11月01日 103 0 0 大数据

文章 | 开源XL-LightHouse与Flink、ClickHouse之类技术相比有什么优势

Flink是一款非常优秀的流式计算框架，而ClickHouse是一款非常优秀的OLAP类引擎，它们是各自所处领域的佼佼者，这一点是毋庸置疑的。Flink除了各种流式计算场景外也必然可以用于流式统计，ClickHouse同样也可以用于流式统计，但我不认为它们是优秀的流式统计工具。XL-Lighthouse在流式统计这个细分场景内足以完胜Flink和ClickHouse。在企业数据化运营领域，面对繁杂的流式数据统计需求，以Flink和ClickHouse以及很多同类技术方案为核心的架构设计不能算是一种较为优秀的解决方案。一、从流式统计的特点说起 1、流式统计是流式计算中的一种特殊运算形式一个...

Mm9Hqk9ztOe1 2023年11月01日 44 0 0 大数据

文章 | 大数据计算引擎 EasyMR 如何简单高效管理 Yarn 资源队列

设想一下，作为一个开发人员，你现在所在的公司有一套线上的Hadoop集群。A部门经常做一些定时的BI报表，B部门则经常使用软件做一些临时需求。那么他们肯定会遇到同时提交任务的场景，这个时候到底应该如何分配资源满足这两个任务呢？是先执行A的任务，再执行B的任务，还是同时跑两个？如果你存在上述的困惑，可以多了解一些Yarn的资源调度器。 Yarn的三种调度器从Hadoop2开始，官方把资源管理单独剥离出来，主要是为了考虑后期作为一个公共的资源管理平台，任何满足规则的计算引擎都可以在它上面执行。Yarn作为一款Hadoop集群的资源共享，不仅可以跑MapReduce，还可以跑Spark，Flin...

b5JnreLK4zaN 2023年11月01日 86 0 0 大数据