摩杜云开发者社区-摩杜云

Flink之Catalog

Catalog 概述 Catalog提供了元数据信息，例如数据库、表、分区、视图以及数据库或其他外部系统中存储的函数和信息。数据处理最关键的方面之一是管理元数据。元数据可以是临时的，例如临时表、或者通过TableEnvironment注册的UDF。元数据也可以是持久化的，例如HiveMetastore中的元数据。 Catalog提供了一个统一的API，用于管理元数据，并使其可以从TableAPI和SQL查询语句中来访问。 Catalog分类在Flink中，Catalog可以分为4类：GenericInMemoryCatalog、JdbcCatalog、HiveCatalog、...

GLcPk8bYyq2p 2023年11月26日 28 0 0 java Hive hive sql java SQL Catalog Catalog

Flink之Table API & SQL连接器

TableAPI&SQL连接器 1.概述 Flink的TableAPI和SQL程序可以连接到其他外部系统，以读写批处理和流式表。表源提供对存储在外部系统（例如数据库、键值存储、消息队列或文件系统）中的数据的访问。表接收器将表发送到外部存储系统。根据源和接收器的类型，它们支持不同的格式，例如CSV、Avro、Parquet或ORC。 2.支持连接器 Flink原生支持各种连接器，以下是所有可用的连接器。名称版本数据源数据接收器文件系统有界和无界扫描流式接收器，批处理接收器 Elasticsearch 6.x&7.x 不支持流式接收器，批处理...

GLcPk8bYyq2p 2023年11月25日 34 0 0 java flink sql java flink SQL

Flink之Java Table API的使用

使用JavaTableAPI开发添加依赖在代码中使用TableAPI，必须引入相关的依赖 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-clients</artifactId> <version>${flink.version}</version> </dependency>  <dependency> &l...

GLcPk8bYyq2p 2023年11月24日 30 0 0 java API flink API java Table flink Table

Flink之SQL客户端与DDL操作

FlinkSQL FlinkSQL是ApacheFlink框架中的一种查询语言，用于对数据流和批处理作业执行SQL查询和转换操作。它提供了一种声明性的方式来处理数据，使得开发人员能够使用熟悉的SQL语法来操作流式和批处理数据。 Flink的TableAPI和SQL是流批统一的API,具有相同的语义。 TableAPI是用于Scala和Java语言的查询API，它可以用一种非常直观的方式来组合使用选取、过滤、join等关系型算子。 FlinkSQL是基于ApacheCalcite来实现的标准SQL,这两种API中的查询对于批（DataSet）和流（DataStream）的输入有相同的语...

GLcPk8bYyq2p 2023年11月22日 27 0 0 java flink sql java SQL语法 flink SQL SQL语法

Flink之SQL查询操作

基本SELECT查询生成测试数据使用DataGenSQL连接器生成测试数据 CREATETABLEdatagen( f_sequenceINT, f_randomINT, f_random_strSTRING, tsASlocaltimestamp, WATERMARKFORtsASts )WITH( --指定要使用的连接器-- 'connector'='datagen', -每秒生成的行数，用以控制数据发出速率。-- 'rows-per-second'='5', --指定字段的生成器。可以是'sequence'或'random'，默认random-- 'fields.f_sequenc...

GLcPk8bYyq2p 2023年11月22日 32 0 0 java 查询查询 flink sql java flink SQL 字段字段

Flink之输出算子Redis Sink

RedisSink 在新版Flink的文档中，并没有发现RedisSink的具体使用，但可通过ApacheBahir了解到其具体使用 Redis具有其极高的写入读取性能，因此也是经常使用的Sink之一。可以使用JavaRedis客户端Jedis手动实现，也可以使用Flink和Bahir提供的实现来实现。开源实现的RedisConnector使用非常方便，但是无法使用一些Jedis中的高级功能，如设置过期时间等 jedis实现添加依赖 <dependency> <groupId>redis.clients</groupId> <artif...

GLcPk8bYyq2p 2023年11月19日 32 0 0 java flink redis java flink Sink Redis Sink

Flink之Window窗口机制

窗口概述在大多数场景下，需要统计的数据流都是无界的，因此无法等待整个数据流终止后才进行统计。通常情况下，只需要对某个时间范围或者数量范围内的数据进行统计分析例如：每隔10分钟统计一次过去30分钟内某个对象的点击量每发生100次点击后，就去统计一下每个对象点击率的占比因此，在ApacheFlink中，窗口是对无界数据流进行有界处理的机制。窗口可以将无限的数据流划分为有限的、可处理的块，使得可以基于这些有限的数据块执行聚合、计算和分析操作。窗口的分类是否按键分区在定义窗口操作之前，首先需要确定，到底是基于按键分区的数据流KeyedStream来开窗，还是直接在没有按键...

GLcPk8bYyq2p 2023年11月19日 31 0 0 数据流 Time 数据 flink 窗口 Time 数据 flink 窗口数据流

Flink之Watermark水印、水位线

水位线概述在ApacheFlink中，Watermark（水印）是一种用于处理事件时间（eventtime）的时间指示器。它模拟了事件流中事件时间进展的概念。事件时间是指事件实际发生的时间，在分布式流处理中经常用于处理无序事件流。然而，由于网络延迟、乱序事件的到达以及分布式处理的特点，事件时间可能不按顺序到达处理器。在这种情况下，处理程序需要一种机制来标识它们已经处理过的事件时间，并据此生成或更新水印。水印是一个特殊的事件，包含了一个时间戳。它表示截至到该时间戳的事件已经全部到达（或预期已到达），并且可以被认为是完整的。水印告知系统在事件时间维度上处理事件的进展情况，并在触发...

GLcPk8bYyq2p 2023年11月19日 39 0 0 java 时间戳水位线 java 水位线 Watermark 水印水印时间戳 Watermark

Flink之常用处理函数

处理函数概述处理函数（ProcessingFunction）是ApacheFlink中用于对数据流上的元素进行处理的核心组件之一。处理函数负责定义数据流上的数据如何被处理，允许开发人员编写自定义逻辑以执行各种操作，如转换、聚合、筛选、连接等，并在处理后生成输出数据流。对于数据流，都可以直接调用.process()方法进行自定义处理，传入的参数就叫作处理函数，也可以把它划分为转换算子。基本处理函数 ProcessFunction是最基本的处理函数，基于DataStream直接调用.process()时作为参数传入 ProcessFunction介绍 ProcessFuncti...

GLcPk8bYyq2p 2023年11月19日 28 0 0 java flink java 处理函数 flink 处理函数

Flink之状态管理

状态概述在流处理任务中，数据会以连续的流的形式输入到Flink中，而状态计算允许我们跟踪和处理这些输入数据的状态信息。状态可以是任何需要记录和使用的数据，例如聚合计数、累积结果、窗口中的中间状态等。 Flink中的状态管理是指在流处理任务中对数据的状态进行有效管理和维护的过程。状态管理是非常重要的，因为它允许我们在流式处理中维护和操作数据的状态信息，以实现复杂的计算逻辑和应用需求。状态分类在Flink中，Flink状态有两种：系统状态ManagedState和原始状态RawState。通常使用系统状态，而原始状态则需要自定义实现。系统状态根据数据集是否按照某一个Key...

GLcPk8bYyq2p 2023年11月19日 39 0 0 java flink java 状态管理 flink 状态管理

FlinK之检查点与保存点机制

检查点Checkpoint 概述在Flink中，检查点是用于实现状态一致性和故障恢复的关键机制。检查点功能可确保作业的状态在发生故障时能够进行可靠地恢复。检查点具有以下特性：状态一致性：检查点会将作业的状态数据保存在持久化存储中，以确保数据的一致性。通过在特定时间点对作业状态进行快照，可以捕获整个作业的状态容错性：当作业发生故障时，Flink可以使用最近的检查点来恢复作业的状态。恢复作业时，Flink会从最近一个成功完成的检查点开始进行恢复操作同步机制：为了确保一致性，在触发检查点时，Flink会暂停作业中的所有计算任务，并将状态快照写入持久化存储中。一旦检查点完成，作业的计...

GLcPk8bYyq2p 2023年11月19日 22 0 0 状态一致性 flink 状态一致性 flink 检查点检查点

MySQL使用函数、存储过程实现：向数据表快速插入大量测试数据

实现过程创建表 CREATETABLE`user`( `id`INT(11)NOTNULLAUTO_INCREMENT, `name`VARCHAR(20)DEFAULTNULL, `age`INT(3)DEFAULTNULL, `pwd`VARCHAR(20)DEFAULTNULL, `address`VARCHAR(30)DEFAULTNULL, PRIMARYKEY(`id`) )ENGINE=INNODBAUTO_INCREMENT=1; 开启允许创建函数查看mysql是否允许创建函数： SHOWVARIABLESLIKE'log_bin_trust_function...

GLcPk8bYyq2p 2023年11月14日 22 0 0 存储过程存储过程函数 MySQL MySQL Java java 函数

配置Hive使用Spark执行引擎

Hive引擎概述在Hive中，可以通过配置来指定使用不同的执行引擎。Hive执行引擎包括：默认MR、tez、spark MapReduce引擎：早期版本Hive使用MapReduce作为执行引擎。MapReduce是Hadoop的一种计算模型，它通过将数据划分为小块并在集群上并行处理来完成计算任务。在MapReduce引擎中，Hive将HiveQL查询转换为一系列Map和Reduce阶段的操作，然后由Hadoop的MapReduce框架执行。 Tez引擎：从Hive0.13版本开始，引入了Tez作为新的执行引擎。Tez是Hadoop上的一种高性能的数据处理框架，它提供了更低的...

GLcPk8bYyq2p 2023年11月05日 50 0 0 hive java spark hive Java spark

Flink之转换算子Transformation

概述转换算子（Transformation）是ApacheFlink中用于对数据流进行处理和转换的操作。在Flink中，数据流被抽象为一个有向无环图（DAG），转换算子可以将数据流的每个元素进行操作，并生成新的数据流。因此，Flink中的转换算子是指对输入数据流进行转换操作的一类算子，它是将一个或多个DataStream转换为新的DataStream 特点：转换算子接受一个或多个输入数据流，并产生一个或多个输出数据流。每个转换算子都代表一个具体的数据处理操作，可以在数据流上执行诸如映射、过滤、聚合、分组等操作。转换算子可以按照不同的方式组合在一起，形成复杂的数据流处理逻辑...

GLcPk8bYyq2p 2023年11月02日 55 0 0 java datastream DataStream flink java flink

使用Windows平台的Hyper-V虚拟机安装CentOS7的详细过程

前言作为一名开发者，就服务器而言，接触最多的便是CentOS系统，最近有集群的需要，于是特此记录一下，在本地电脑安装一个CentOS系统，或者安装几个CentOS系统搭建一个集群玩玩。本地电脑通常使用大名鼎鼎的VMware虚拟机进行安装，但是，今天换个花样，使用Windows系统自带的Hyper-V虚拟机安装，个人觉得还不错，同时介绍一些常见Linux系统。常见Linux系统常见的Linux发行版有很多，以下是一些比较流行和常用的Linux系统： CentOS CentOS（CommunityEnterpriseOperatingSystem）是一种免费、开源的操作系统，...

GLcPk8bYyq2p 2023年11月02日 59 0 0 虚拟机 ubuntu Hyper-v centos

Flink之源算子Data Source

(源算子DataSource) 概述 Flink中的DataSource（数据源、源算子）用于定义数据输入的来源。数据源是Flink作业的起点，它可以从各种数据来源获取数据，例如文件系统、消息队列、数据库等。将数据源添加到Flink执行环境中，从而创建一个数据流。然后可以对该数据流应用一系列转换和操作，例如过滤、转换、聚合、计算等。最后将结果写入其他系统，例如文件系统、数据库、消息队列等。数据源是Flink作业中非常重要的组件，它确定了数据的来源和初始输入，是构建流处理和批处理作业的基础。内置DataSource FlinkDataSource用于定义Flink程序的数据来...

GLcPk8bYyq2p 2023年11月02日 48 0 0 java 源算子数据 flink java 数据 flink 数据源数据源源算子

Flink之Flink程序开发过程与Flink常见数据类型

DataStreamAPI Flink三层API SQL&TableAPI SQL&TableAPI同时适用于批处理和流处理，意味着可以对有界数据流和无界数据流以相同的语义进行查询，并产生相同的结果。除了基本查询外，它还支持自定义的标量函数，聚合函数以及表值函数，可以满足多样化的查询需求。 DataStream&DataSetAPI DataStream&DataSetAPI是Flink数据处理的核心API，支持使用Java语言或Scala语言进行调用，提供了数据读取，数据转换和数据输出等一系列常用操作的封装。 StatefulStreamProces...

GLcPk8bYyq2p 2023年11月02日 37 0 0 java datastream DataStream API flink API java flink

MongoDB之用户与权限管理、备份与恢复管理以及客户端工具的使用

用户、权限管理 MongoDB默认不使用权限认证方式启动，但是需要设置权限以保证数据安全。内置角色 1.数据库用户角色：read、readWrite 2.数据库管理角色：dbAdmin、dbOwner、userAdmin 3.集群管理角色：clusterAdmin、clusterManager、clusterMonitor、hostManager 4.备份恢复角色：backup、restore 5.所有数据库角色：readAnyDatabase、readWriteAnyDatabase、userAdminAnyDatabase、dbAdminAnyDatabase 6.超级用户角色...

GLcPk8bYyq2p 2023年11月02日 65 0 0 权限管理 mongodb 数据库数据库客户端工具权限管理客户端工具 mongodb

从源代码编译构建Hive3.1.3

编译说明使用Hive官方提供的预编译安装包是最常见和推荐的方式来使用Hive，适用于大多数用户。这些预编译的安装包经过了测试和验证，在许多不同的环境中都能正常运行。在某些特定情况下，可能需要从源代码编译Hive，而不是使用预编译的安装包。编译Hive源代码的场景、原因如下： 1.定制配置：如果希望对Hive进行一些特定的配置定制或修改，例如更改默认的参数设置、添加新的数据存储后端、集成新的执行引擎等，那么编译源代码将能够修改和定制Hive的配置。 2.功能扩展：如果需要扩展Hive的功能，例如添加自定义的UDF（用户定义函数）、UDAF（用户定义聚合函数）、UDTF（用...

GLcPk8bYyq2p 2023年11月02日 67 0 0 hive java hive Java Data Data

从源代码编译构建Apach Spark3.2.4

编译说明对于大多数用户来说，使用官方预编译版本的Spark已经足够满足日常需求。只有在特定的场景和需求下，重新编译Spark才是必需的。编译Spark源代码的场景、原因如下： 1.定制需求：如果需要根据特定的业务需求对Spark进行定制，例如添加自定义的优化规则、改进数据源支持或针对特定硬件进行优化，重新编译Spark将可以满足您的需求，并允许在自定义版本的Spark中应用这些定制内容。 2.新特性和改进：如果希望使用最新版本的Spark，以享受新特性和改进所带来的好处，但官方发布的预编译版本尚未包含这些内容，重新编译Spark可以使用最新版本并获取这些新特性。 3.针对特...

GLcPk8bYyq2p 2023年11月02日 63 0 0 编译 spark 编译 spark scala scala