聊聊Flink的必知必会(三) 聊聊Flink必知必会(四) 从源码中,根据关键的代码,梳理一下Flink中的时间与窗口实现逻辑。 WindowedStream 对数据流执行keyBy()操作后,再调用window()方法,就会返回WindowedStream,表示分区后又加窗的数据流。如果数据流没有经过分区,直接调用window()方法则会返回AllWindowedStream。 如下: //构造函数 publicWindowedStream(KeyedStream<T,K>input,WindowAssigner<?superT,W>windowAssigner...

  zhNCThJtfE8g   2023年11月18日   24   0   0 Java

从现今与今后的发展来看,单一的业务不再仅仅依靠于传统的技术开发,而是应该结合AI模型来应用、实践。只有这样,才能更数智化,更高效化,更贴合时代的发展。 魔塔社区就类似国外的HuggingFace,是一个模型即服务的运行平台。在这个平台上运行着很多的大模型示例,网站直接提供了试运行的环境,也可以下载代码到本地部署运行或是在阿里云的PAI平台运行。 pytorch环境搭建 我是跟着Pytorch-Gpu环境配置博文一步一步搭建起来的。唯一不同的是,我不是基于Anaconda虚拟环境搭建,而是直接在本地环境部署pytorch与CUDA。 开着西部世界的VPN,下载pytorch与CUDA会快一...

  zhNCThJtfE8g   2023年11月12日   20   0   0 机器学习

RNN系列:聊聊RNN&LSTM聊聊RNN与seq2seq attentionmechanism,称为注意力机制。基于Attention机制,seq2seq可以像我们人类一样,将“注意力”集中在必要的信息上。 Attention的结构 seq2seq存在的问题 seq2seq中使用编码器对时序数据进行编码,然后将编码信息传递给解码器。此时,编码器的输出是固定长度的向量。从正常的理解来看,固定长度的编码器输出迟早会有溢出上下文信息的情况。 编码器的改进 目前的seq2seq结构,只将LSTM层的最后的隐藏状态传递给解码器,但是编码器的输出的长度应该根据输入文本的长度相应地改变。因此我们可...

  zhNCThJtfE8g   2023年11月05日   37   0   0 机器学习

从之前的RNN系列到现在的Transformer模型,是一个演进的过程,技术的实现与迭代并不是一蹴而就,而是一个持续演进的历程。如果一开始就从Tranformer的模型机制来学习,知识的不全面以及欠缺就会导致懵逼甚至看不懂又不理解。RNN系列:聊聊RNN&LSTM聊聊RNN与seq2seq聊聊RNN与Attention 以下内容摘自《BERT基础教程:Transformer大模型实战》 概述 循环神经网络和长短期记忆网络已经广泛应用于时序任务,比如文本预测、机器翻译、文章生成等。然而,它们面临的一大问题就是如何记录长期依赖。为了解决这个问题,一个名为Transformer的新架构应...

  zhNCThJtfE8g   2023年11月05日   50   0   0 机器学习

RNN 用于解决输入数据为,序列到序列(时间序列)数据,不能在传统的前馈神经网络(FNN)很好应用的问题。时间序列数据是指在不同时间点上收集到的数据,这类数据反映了某一事物、现象等随时间的变化状态或程度,即输入内容的上下文关联性强。 整体结构 x、o为向量,分别表示输入层、输出层的值;U、V为权重矩阵,U是输入层到隐藏层的权重矩阵,V是隐藏层到输出层的权重矩阵,W是上一次的值S(t-1)作为这一次的输入的权重矩阵,S(t)是当前的隐藏层矩阵。 RNN层结构与计算公式 RNN层计算公式 RNN层正向传播 MatMul表示矩阵乘积。 这里的h也就是s,都是RNN层函数的输出结果。RNN层的处理函...

  zhNCThJtfE8g   2023年11月02日   34   0   0 机器学习

seq2seq模型也称为Encoder-Decoder模型。顾名思义,这个模型有两个模块——Encoder(编码器)和Decoder(解码器)。编码器对输入数据进行编码,解码器对被编码的数据进行解码。此时编码器编码的信息浓缩了翻译所必需的信息,解码器基于这个浓缩的信息生成目标文本。 这里的数据一般指时序数据,即按时间顺序记录的数据列,具有可比性和结构化性。 编码器 以RNN为例,设计一个编码器结构如下编码器利用RNN将时序数据转换为隐藏状态h。这里的RNN使用的是LSTM模型,编码器输出的向量h是LSTM层的最后一个隐藏状态,其中编码了翻译输入文本所需的信息。 解码器 LSTM层会接收编...

  zhNCThJtfE8g   2023年11月02日   40   0   0 机器学习

RNN 用于解决输入数据为,序列到序列(时间序列)数据,不能在传统的前馈神经网络(FNN)很好应用的问题。时间序列数据是指在不同时间点上收集到的数据,这类数据反映了某一事物、现象等随时间的变化状态或程度,即输入内容的上下文关联性强。 整体结构 x、o为向量,分别表示输入层、输出层的值;U、V为权重矩阵,U是输入层到隐藏层的权重矩阵,V是隐藏层到输出层的权重矩阵,W是上一次的值S(t-1)作为这一次的输入的权重矩阵,S(t)是当前的隐藏层矩阵。 RNN层结构与计算公式 RNN层计算公式 RNN层正向传播 MatMul表示矩阵乘积。 这里的h也就是s,都是RNN层函数的输出结果。RNN层的处理函...

  zhNCThJtfE8g   2023年11月02日   52   0   0 机器学习

独热编码 OneHotEncoder是用于将类别型特征转换为独热编码的类。独热编码是一种常用的特征编码方式,特别适用于处理类别型特征,将其转换为数值型特征。对于每个类别型特征,OneHotEncoder将其编码成一个长度为类别数量的向量。每个类别对应一个维度,如果样本的该特征值为该类别,则对应维度置1,其他维度置0。 示例: List<Row>df=Arrays.asList( Row.of("a",1), Row.of("b",1), Row.of("c",1), Row.of("e",2), Row.of("a",2), Row.of("b",1), Row.of("c",2)...

  zhNCThJtfE8g   2023年11月02日   29   0   0 机器学习

概述 参见:聊聊HuggingFace 项目组件 一个完整的transformer模型主要包含三部分:Config、Tokenizer、Model。 Config 用于配置模型的名称、最终输出的样式、隐藏层宽度和深度、激活函数的类别等。示例: { "architectures":[ "BertForMaskedLM" ], "attention_probs_dropout_prob":0.1, "gradient_checkpointing":false, "hidden_act":"gelu", "hidden_dropout_prob":0.1, "hidden_size":768, "i...

  zhNCThJtfE8g   2023年11月01日   41   0   0 大模型

阅读《基于FlinkML搭建的智能运维算法服务及应用》一文后,对其中日志聚类算法有了些思考。 概述 日志聚类,简而言之是对海量日志的分析;其分析处理链路可以分为如下流程:日志采集->预处理->分词和特征表示->聚类和标注;也可以概述为数据收集及预处理、文本向量化、文本相似度计算、文本分类四部分。 算法模型分析 针对如上的链路流程做一个拆分叙述。 日志采集 常用的日志采集方案是写完数据库多写一遍ElasticSearch;目前我个人推荐的方案是基于FlinkCDC组件来采集。 预处理 一般来说,预处理阶段是在业务中常用的一个阶段,根据业务的不同做不同的处理,比如精简文本删除不必...

  zhNCThJtfE8g   2023年11月01日   43   0   0 机器学习

示例代码及相关内容来源于《Alink权威指南(Java版)》 概述 决策树模型再现了人们做决策的过程,该过程由一系列的判断构成,后面的判断基于前面的判断结果,不断缩小范围,最终推出结果。如下,基于决策树模型预测天气,是最常见的示例。天气的整个预测过程,就是不断地判断推测的过程。 特征分类 特征(Feature)是对事物某种特性的描述,是建立在原始数据之上的特定表示,它是一个可识别的属性。日常生活中的很多事物我们都可以用二维表格来表示(这就是为什么Excel这么通用的原因),我们收集到的数据同样也可以用二维表格表示,那么通常特征就对应这种表示中的某一列。对于一个通用的二维数据集,每个观测值由...

  zhNCThJtfE8g   2023年11月01日   41   0   0 机器学习

概述 Alink提供了一系列与推荐相关的组件,从组件使用得角度来看,需要重点关注如下三个方面: 算法选择 推荐领域有很多算法,常用的有基于物品/用户的协同过滤、ALS、FM算法等。对于不同的数据场景,算法也会在计算方式上有很大的变化。 推荐方式 输入信息可以有多种选择,输入结果也有多种情况。 同时输入一个用户信息和一个物品信息,计算用户对此物品的评分。 输入用户的信息,可以推荐适合此用户的相关物品,也可以计算与其相似的用户。 输入物品的信息,推荐给可能喜欢该物品的用户,也可以计算与其相似的物品。 使用方法 在应用推荐引擎时,可能是在离线任务中进行批量推荐,也可能是在实时任务中对...

  zhNCThJtfE8g   2023年11月01日   41   0   0 机器学习

概述 随机森林(RandomForest)是一种集成学习(EnsembleLearning)方法,通过构建多个决策树并汇总其预测结果来完成分类或回归任务。每棵决策树的构建过程中都引入了随机性,包括数据采样和特征选择的随机性。随机森林的基本原理可以概括如下: 随机抽样训练集:随机森林通过有放回抽样(Bootstrap抽样)从训练集中抽取多个样本集,每个样本集可以重复出现或不出现某些样本。 随机选择特征:对于每个决策树的节点,在选择最优分割特征时,只考虑特征集的一个随机子集,而不是所有特征。 构建决策树:基于随机抽样的样本集和随机选择的特征集,构建决策树。 集成预测:对于分类任务,随机森林通过投...

  zhNCThJtfE8g   2023年11月01日   44   0   0 机器学习

概述 主成分分析(PrincipalComponentAnalysis,PCA)是一种常用的数据降维和特征提取技术,用于将高维数据转换为低维的特征空间。其目标是通过线性变换将原始特征转化为一组新的互相无关的变量,这些新变量称为主成分,它们按照方差递减的顺序排列,以保留尽可能多的原始数据信息。主成分分析的基本思想可以总结如下: 寻找新的特征空间:PCA通过线性变换,寻找一组新的特征空间,使得新的特征具有以下性质: 主成分具有最大的方差,尽可能保留原始数据的信息。 不同主成分之间彼此无关,即它们是正交的(互相垂直)。 降低数据维度:保留方差较大的主成分,舍弃方差较小的主成分,从而实现数据降维...

  zhNCThJtfE8g   2023年11月01日   41   0   0 机器学习

概述 自然语言处理(NLP)的正式定义:是一个使用计算机科学、人工智能(AI)和形式语言学概念来分析自然语言的研究领域。不太正式的定义表明:它是一组工具,用于从自然语言源(如web页面和文本文档)获取有意义和有用的信息。NLP工具的实现一般是基于机器学习与深度学习、其它算法(LuceneCore);基于前两者的实现是比较流行且持续在探索演进。 NLP任务概述 NLP需要一组任务的组合,如下列举所示: 分词 文本可以分解为许多不同类型的元素,如单词、句子和段落(称为词或词项),并可选地对这些词执行附加处理;这种额外的处理可以包括词干提取、词元化(也称为词形还原)、停用词删除、同义词扩展和文本转...

  zhNCThJtfE8g   2023年11月01日   48   0   0 AI综合

本文基于《生成式人工智能》一书阅读摘要。感兴趣的可以去看看原文。可以说,Transformer已经成为深度学习和深度神经网络技术进步的最亮眼成果之一。Transformer能够催生出像ChatGPT这样的最新人工智能应用成果。 序列到序列(seq2seq) Transformer能实现的核心功能——从序列到序列,这不是简单的从一个词跳到另一个词,中间需要经过很多道"工序",才能实现想要的效果。序列,指的是文本数据、语音数据、视频数据等一系列具有连续关系的数据。不同于图片数据,不同图片之间往往不具有什么关系,文本、语音和视频这种数据具有连续关系。这些数据在这一时刻的内容,往往与前几个时刻的内容相...

  zhNCThJtfE8g   2023年11月01日   58   0   0 AI综合
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~