摩杜云开发者社区-摩杜云

聊聊Flink必知必会(五)

聊聊Flink的必知必会(三) 聊聊Flink必知必会(四) 从源码中，根据关键的代码，梳理一下Flink中的时间与窗口实现逻辑。 WindowedStream 对数据流执行keyBy()操作后，再调用window()方法，就会返回WindowedStream，表示分区后又加窗的数据流。如果数据流没有经过分区，直接调用window()方法则会返回AllWindowedStream。如下： //构造函数 publicWindowedStream(KeyedStream<T,K>input,WindowAssigner<?superT,W>windowAssigner...

zhNCThJtfE8g 2023年11月18日 24 0 0 Java

聊聊魔塔社区MGeo模型的部署与运行

从现今与今后的发展来看，单一的业务不再仅仅依靠于传统的技术开发，而是应该结合AI模型来应用、实践。只有这样，才能更数智化，更高效化，更贴合时代的发展。魔塔社区就类似国外的HuggingFace，是一个模型即服务的运行平台。在这个平台上运行着很多的大模型示例，网站直接提供了试运行的环境，也可以下载代码到本地部署运行或是在阿里云的PAI平台运行。 pytorch环境搭建我是跟着Pytorch-Gpu环境配置博文一步一步搭建起来的。唯一不同的是，我不是基于Anaconda虚拟环境搭建，而是直接在本地环境部署pytorch与CUDA。开着西部世界的VPN，下载pytorch与CUDA会快一...

zhNCThJtfE8g 2023年11月12日 20 0 0 机器学习

聊聊RNN与Attention

RNN系列：聊聊RNN&LSTM聊聊RNN与seq2seq attentionmechanism，称为注意力机制。基于Attention机制，seq2seq可以像我们人类一样，将“注意力”集中在必要的信息上。 Attention的结构 seq2seq存在的问题 seq2seq中使用编码器对时序数据进行编码，然后将编码信息传递给解码器。此时，编码器的输出是固定长度的向量。从正常的理解来看，固定长度的编码器输出迟早会有溢出上下文信息的情况。编码器的改进目前的seq2seq结构，只将LSTM层的最后的隐藏状态传递给解码器，但是编码器的输出的长度应该根据输入文本的长度相应地改变。因此我们可...

zhNCThJtfE8g 2023年11月05日 37 0 0 机器学习

聊聊Transform模型

从之前的RNN系列到现在的Transformer模型，是一个演进的过程，技术的实现与迭代并不是一蹴而就，而是一个持续演进的历程。如果一开始就从Tranformer的模型机制来学习，知识的不全面以及欠缺就会导致懵逼甚至看不懂又不理解。RNN系列：聊聊RNN&LSTM聊聊RNN与seq2seq聊聊RNN与Attention 以下内容摘自《BERT基础教程：Transformer大模型实战》概述循环神经网络和长短期记忆网络已经广泛应用于时序任务，比如文本预测、机器翻译、文章生成等。然而，它们面临的一大问题就是如何记录长期依赖。为了解决这个问题，一个名为Transformer的新架构应...

zhNCThJtfE8g 2023年11月05日 50 0 0 机器学习

聊聊RNN&LSTM

RNN 用于解决输入数据为，序列到序列(时间序列)数据，不能在传统的前馈神经网络(FNN)很好应用的问题。时间序列数据是指在不同时间点上收集到的数据，这类数据反映了某一事物、现象等随时间的变化状态或程度，即输入内容的上下文关联性强。整体结构 x、o为向量，分别表示输入层、输出层的值；U、V为权重矩阵，U是输入层到隐藏层的权重矩阵，V是隐藏层到输出层的权重矩阵，W是上一次的值S(t-1)作为这一次的输入的权重矩阵，S(t)是当前的隐藏层矩阵。 RNN层结构与计算公式 RNN层计算公式 RNN层正向传播 MatMul表示矩阵乘积。这里的h也就是s，都是RNN层函数的输出结果。RNN层的处理函...

zhNCThJtfE8g 2023年11月02日 34 0 0 机器学习

聊聊RNN与seq2seq

seq2seq模型也称为Encoder-Decoder模型。顾名思义，这个模型有两个模块——Encoder（编码器）和Decoder（解码器）。编码器对输入数据进行编码，解码器对被编码的数据进行解码。此时编码器编码的信息浓缩了翻译所必需的信息，解码器基于这个浓缩的信息生成目标文本。这里的数据一般指时序数据，即按时间顺序记录的数据列,具有可比性和结构化性。编码器以RNN为例，设计一个编码器结构如下编码器利用RNN将时序数据转换为隐藏状态h。这里的RNN使用的是LSTM模型，编码器输出的向量h是LSTM层的最后一个隐藏状态，其中编码了翻译输入文本所需的信息。解码器 LSTM层会接收编...

zhNCThJtfE8g 2023年11月02日 40 0 0 机器学习

聊聊RNN&LSTM

RNN 用于解决输入数据为，序列到序列(时间序列)数据，不能在传统的前馈神经网络(FNN)很好应用的问题。时间序列数据是指在不同时间点上收集到的数据，这类数据反映了某一事物、现象等随时间的变化状态或程度，即输入内容的上下文关联性强。整体结构 x、o为向量，分别表示输入层、输出层的值；U、V为权重矩阵，U是输入层到隐藏层的权重矩阵，V是隐藏层到输出层的权重矩阵，W是上一次的值S(t-1)作为这一次的输入的权重矩阵，S(t)是当前的隐藏层矩阵。 RNN层结构与计算公式 RNN层计算公式 RNN层正向传播 MatMul表示矩阵乘积。这里的h也就是s，都是RNN层函数的输出结果。RNN层的处理函...

zhNCThJtfE8g 2023年11月02日 52 0 0 机器学习

聊聊基于Alink库的特征工程方法

独热编码 OneHotEncoder是用于将类别型特征转换为独热编码的类。独热编码是一种常用的特征编码方式，特别适用于处理类别型特征，将其转换为数值型特征。对于每个类别型特征，OneHotEncoder将其编码成一个长度为类别数量的向量。每个类别对应一个维度，如果样本的该特征值为该类别，则对应维度置1，其他维度置0。示例： List<Row>df=Arrays.asList( Row.of("a",1), Row.of("b",1), Row.of("c",1), Row.of("e",2), Row.of("a",2), Row.of("b",1), Row.of("c",2)...

zhNCThJtfE8g 2023年11月02日 29 0 0 机器学习

聊聊HuggingFace Transformer

概述参见：聊聊HuggingFace 项目组件一个完整的transformer模型主要包含三部分：Config、Tokenizer、Model。 Config 用于配置模型的名称、最终输出的样式、隐藏层宽度和深度、激活函数的类别等。示例： { "architectures":[ "BertForMaskedLM" ], "attention_probs_dropout_prob":0.1, "gradient_checkpointing":false, "hidden_act":"gelu", "hidden_dropout_prob":0.1, "hidden_size":768, "i...

zhNCThJtfE8g 2023年11月01日 41 0 0 大模型

聊聊日志聚类算法及其应用场景

阅读《基于FlinkML搭建的智能运维算法服务及应用》一文后，对其中日志聚类算法有了些思考。概述日志聚类，简而言之是对海量日志的分析；其分析处理链路可以分为如下流程：日志采集->预处理->分词和特征表示->聚类和标注；也可以概述为数据收集及预处理、文本向量化、文本相似度计算、文本分类四部分。算法模型分析针对如上的链路流程做一个拆分叙述。日志采集常用的日志采集方案是写完数据库多写一遍ElasticSearch；目前我个人推荐的方案是基于FlinkCDC组件来采集。预处理一般来说，预处理阶段是在业务中常用的一个阶段，根据业务的不同做不同的处理，比如精简文本删除不必...

zhNCThJtfE8g 2023年11月01日 43 0 0 机器学习

聊聊基于Alink库的决策树模型算法实现

示例代码及相关内容来源于《Alink权威指南（Java版）》概述决策树模型再现了人们做决策的过程，该过程由一系列的判断构成，后面的判断基于前面的判断结果，不断缩小范围，最终推出结果。如下，基于决策树模型预测天气，是最常见的示例。天气的整个预测过程，就是不断地判断推测的过程。特征分类特征(Feature)是对事物某种特性的描述，是建立在原始数据之上的特定表示，它是一个可识别的属性。日常生活中的很多事物我们都可以用二维表格来表示（这就是为什么Excel这么通用的原因），我们收集到的数据同样也可以用二维表格表示，那么通常特征就对应这种表示中的某一列。对于一个通用的二维数据集，每个观测值由...

zhNCThJtfE8g 2023年11月01日 41 0 0 机器学习

聊聊基于Alink库的推荐系统

概述 Alink提供了一系列与推荐相关的组件，从组件使用得角度来看，需要重点关注如下三个方面：算法选择推荐领域有很多算法，常用的有基于物品/用户的协同过滤、ALS、FM算法等。对于不同的数据场景，算法也会在计算方式上有很大的变化。推荐方式输入信息可以有多种选择，输入结果也有多种情况。同时输入一个用户信息和一个物品信息，计算用户对此物品的评分。输入用户的信息，可以推荐适合此用户的相关物品，也可以计算与其相似的用户。输入物品的信息，推荐给可能喜欢该物品的用户，也可以计算与其相似的物品。使用方法在应用推荐引擎时，可能是在离线任务中进行批量推荐，也可能是在实时任务中对...

zhNCThJtfE8g 2023年11月01日 41 0 0 机器学习

聊聊基于Alink库的随机森林模型

概述随机森林（RandomForest）是一种集成学习（EnsembleLearning）方法，通过构建多个决策树并汇总其预测结果来完成分类或回归任务。每棵决策树的构建过程中都引入了随机性，包括数据采样和特征选择的随机性。随机森林的基本原理可以概括如下：随机抽样训练集：随机森林通过有放回抽样（Bootstrap抽样）从训练集中抽取多个样本集，每个样本集可以重复出现或不出现某些样本。随机选择特征：对于每个决策树的节点，在选择最优分割特征时，只考虑特征集的一个随机子集，而不是所有特征。构建决策树：基于随机抽样的样本集和随机选择的特征集，构建决策树。集成预测：对于分类任务，随机森林通过投...

zhNCThJtfE8g 2023年11月01日 44 0 0 机器学习

聊聊基于Alink库的主成分分析(PCA)

概述主成分分析（PrincipalComponentAnalysis，PCA）是一种常用的数据降维和特征提取技术，用于将高维数据转换为低维的特征空间。其目标是通过线性变换将原始特征转化为一组新的互相无关的变量，这些新变量称为主成分，它们按照方差递减的顺序排列，以保留尽可能多的原始数据信息。主成分分析的基本思想可以总结如下：寻找新的特征空间：PCA通过线性变换，寻找一组新的特征空间，使得新的特征具有以下性质：主成分具有最大的方差，尽可能保留原始数据的信息。不同主成分之间彼此无关，即它们是正交的（互相垂直）。降低数据维度：保留方差较大的主成分，舍弃方差较小的主成分，从而实现数据降维...

zhNCThJtfE8g 2023年11月01日 41 0 0 机器学习

聊聊自然语言处理NLP

概述自然语言处理(NLP)的正式定义：是一个使用计算机科学、人工智能(AI)和形式语言学概念来分析自然语言的研究领域。不太正式的定义表明：它是一组工具，用于从自然语言源(如web页面和文本文档)获取有意义和有用的信息。NLP工具的实现一般是基于机器学习与深度学习、其它算法(LuceneCore)；基于前两者的实现是比较流行且持续在探索演进。 NLP任务概述 NLP需要一组任务的组合，如下列举所示：分词文本可以分解为许多不同类型的元素，如单词、句子和段落（称为词或词项），并可选地对这些词执行附加处理；这种额外的处理可以包括词干提取、词元化（也称为词形还原）、停用词删除、同义词扩展和文本转...

zhNCThJtfE8g 2023年11月01日 48 0 0 AI综合

聊聊Transformer和GPT模型

本文基于《生成式人工智能》一书阅读摘要。感兴趣的可以去看看原文。可以说，Transformer已经成为深度学习和深度神经网络技术进步的最亮眼成果之一。Transformer能够催生出像ChatGPT这样的最新人工智能应用成果。序列到序列(seq2seq) Transformer能实现的核心功能——从序列到序列，这不是简单的从一个词跳到另一个词，中间需要经过很多道"工序"，才能实现想要的效果。序列，指的是文本数据、语音数据、视频数据等一系列具有连续关系的数据。不同于图片数据，不同图片之间往往不具有什么关系，文本、语音和视频这种数据具有连续关系。这些数据在这一时刻的内容，往往与前几个时刻的内容相...

zhNCThJtfE8g 2023年11月01日 58 0 0 AI综合