摩杜云开发者社区-摩杜云

基于sklearn的集成学习实战

集成学习投票法与bagging 投票法 sklearn提供了VotingRegressor和VotingClassifier两个投票方法。使用模型需要提供一个模型的列表，列表中每个模型采用tuple的结构表示，第一个元素代表名称，第二个元素代表模型，需要保证每个模型拥有唯一的名称。看下面的例子： fromsklearn.linear_modelimportLogisticRegression fromsklearn.svmimportSVC fromsklearn.ensembleimportVotingClassifier fromsklearn.pipelineimportmake_pip...

ymSs22TohiEJ 2023年11月02日 63 0 0 Python

【Datawhale】动手学数据分析

动手学数据分析第一章：数据载入及初步观察载入数据任务一：导入numpy和pandas importnumpyasnp importpandasaspd 任务二：载入数据 train_data=pd.read_csv("train.csv") train_data.head(5) train_data=pd.read_table("train.csv") train_data.head(5) 这两个读取方式的区别在于read_csv读取的是默认分割符为逗号，而read_csv读取默认分隔符为制表符。任务三：每1000行为一个数据模块，逐块读取 chunker=pd.read_csv...

ymSs22TohiEJ 2023年11月02日 66 0 0 Python

matplotlib详细教学

Matplotlib初相识认识matplotlib Matplotlib是一个Python2D绘图库，能够以多种硬拷贝格式和跨平台的交互式环境生成出版物质量的图形，用来绘制各种静态，动态，交互式的图表一个最简单的绘图例子 matplotlib的图像都是画在对应的figure上，可以认为是一个绘图区域。而一个figure又可以包含一个或者多个axes，可以认为是子区域，这个子区域可以指定属于自己的坐标系。下面通过简单的实例进行展示： importmatplotlib.pyplotasplt importmatplotlibasmpl importnumpyasnp fig,ax=plt.su...

ymSs22TohiEJ 2023年11月02日 37 0 0 Python

【机器学习】李宏毅——从逻辑回归推导出神经网络

假设现在有两种类别的样本，其类别分别为\(C_1\)和\(C_2\)，而拥有的样本数分别为\(N_1\)和\(N_2\)，那么假设每个样本都是从其类别对应的高斯分布中取出来的，那么则可以进行如下推导：那么就可以得到《统计学习方法》中第六章的逻辑回归对于两类概率的定义（解决了我的疑惑）那么逻辑回归就是如何找到式子中的参数\(\omega\)和b。假设\(f_{\omega,b}(x)=P(C_1\midx)\)，可以将该模型用神经网络结点的形式来表达，如下图所示，可以更直观地理解。那么可以将样本出现的概率写成这样的表达式：因此求解目标即为： \[\omega,b=argma...

ymSs22TohiEJ 2023年11月01日 117 0 0 算法与数据结构

【机器学习】李宏毅——卷积神经网络CNN

CNN我们可以从两个角度来理解其中的具体过程 NeuronVersionStory(解释版本1) 对于图像分类，其具体的流程如下所示：将一张图像作为模型的输入，输出经过softmax之后将与理想向量用交叉熵的形式进行比较。那么如何将图片作为模型的输入呢？实际上每张图片都是三维的张量，两维表示长宽，一维表示通道（RGB），那么就可以将这个张量拉长成一个向量，就可以作为模型的输入了，该向量的每一个元素都是对应像素在对应通道上的取值。那么如果将上述的向量输入到一个全连接的网络中：可以看到参数量非常的巨大！，因此我们应该尝试来进行简化！观察现象1：假设我们a当前在分辨一张图片是不是一...

ymSs22TohiEJ 2023年11月01日 55 0 0 算法与数据结构

【机器学习】李宏毅——Domain Adaptation(领域自适应)

在前面介绍的模型中，一般我们都会假设训练资料和测试资料符合相同的分布，这样模型才能够有较好的效果。而如果训练资料和测试资料是来自于不同的分布，这样就会让模型在测试集上的效果很差，这种问题称为Domainshift。那么对于这种两者分布不一致的情况，称训练的资料来自于SourceDomain，测试的资料来自于TargetDomain。那么对于领域转变的问题，具体的做法随着我们对于目标领域的了解程度不同而不同，主要有以下几种情况：我们当前拥有少量目标领域的样本且含有标注：具体做法是取其中的一小部分去“微调”训练好的模型，但要注意不能够训练太多次迭代否则可能会对小部分的样本产生过拟合我们拥有...

ymSs22TohiEJ 2023年11月01日 63 0 0 算法与数据结构

基于Sklearn机器学习代码实战

LinearRegression 线性回归入门数据生成为了直观地看到算法的思路，我们先生成一些二维数据来直观展现 importnumpyasnp importmatplotlib.pyplotasplt deftrue_fun(X):这是我们设定的真实函数，即groundtruth的模型 return1.5X+0.2 np.random.seed(0)设置随机种子 n_samples=30设置采样数据点的个数 '''生成随机数据作为训练集，并且加一些噪声''' X_train=np.sort(np.random.rand(n_samples)) y_train=(true_fun(X...

ymSs22TohiEJ 2023年11月01日 125 0 0 AI综合

【动手学深度学习】学习笔记

线性神经网络图像分类数据集 importtorch importtorchvision frommatplotlibimportpyplotasplt fromtorch.utilsimportdata fromtorchvisionimporttransforms fromd2limporttorchasd2l 在数字标签索引以及文本名称之间转换 defget_fashion_mnist_labels(labels):@save text_labels=['t-shirt','trouser','pullover','dress','coat', 'sandal','shirt',...

ymSs22TohiEJ 2023年11月01日 118 0 0 AI综合

【机器学习】之第五章——神经网络

第五章——神经网络 5.1、神经元模型神经网络中最基本的成分为神经元模型，用M-P神经元模型来表示，如下图所示：每个神经元接收到来自\(n\)个其他神经元传递过来的输入信号，这些输入信号通过带权重的连接进行传递，神经元接收到的总输入值将于神经元的阈值进行比较，然后通过激活函数处理以产生神经元的输出。而理想的激活函数是阶跃函数，但其数学特性不够好，不方便我们计算。因此典型的激活函数为Sigmoid函数，如下图：那么功能神经元的输出公式为\(f(\sum_{i}\omega_ix_i-\theta)\) 此处补充Sigmoid函数的一个知识点：\(y=Sigmoid(x)\)函数的取值可...

ymSs22TohiEJ 2023年11月01日 80 0 0 AI综合

零基础入门金融风控之贷款违约预测挑战赛——简单实现

零基础入门金融风控之贷款违约预测挑战赛赛题理解赛题以金融风控中的个人信贷为背景，要求选手根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过此项贷款，这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景，解决实际问题，帮助竞赛新人进行自我练习、自我提高。项目地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl 比赛地址：https://tianchi.aliyun.com/competition/entrance/53...

ymSs22TohiEJ 2023年11月01日 53 0 0 AI综合

零基础入门数据挖掘——二手车交易价格预测：baseline

零基础入门数据挖掘二手车交易价格预测赛题理解比赛要求参赛选手根据给定的数据集，建立模型，二手汽车的交易价格。赛题以预测二手车的交易价格为任务，数据集报名后可见并可下载，该数据来自某交易平台的二手车交易记录，总数据量超过40w，包含31列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取15万条作为训练集，5万条作为测试集A，5万条作为测试集B，同时会对name、model、brand和regionCode等信息进行脱敏。比赛地址：https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm...

ymSs22TohiEJ 2023年11月01日 50 0 0 AI综合

【机器学习】李宏毅——机器学习基本概念简介

机器学习就是找到一个我们人类无法写出来的函数来完成各种任务机器学习的任务回归Regression：输出是一个数值例如：预测未来某一个时间PM2.5数值分类Classification：输出是选项例如：输出是否是电子邮件，Alphago输出为棋盘的某一个位置结构化学习StructuredLearning：产生一个有结构的物件，例如产生一篇文章，写一段文字机器学习的步骤 Step1、写出一个带有未知参数的函数表达式（FunctionwithUnknownParameters）：选用一个可能的函数表达式(Model)来表达输入与输出的关系，其中的未知参数称为domainknowled...

ymSs22TohiEJ 2023年11月01日 88 0 0 AI综合

【机器学习】李宏毅——类神经网络训练不起来怎么办

如何判断导数值为零的点的类型当发现训练数据集误差不再下降的时候，不是只有卡在局部最小值的情况，还有另外一种情况是处于鞍点，鞍点位置处虽然其导函数为零，但是其既不是局部最大值也不是局部最小值，如图：因此，我们把局部最小值和鞍点这种点统称为驻点（criticalpoint），但这两种情况是截然不同的，因为如果是局部最小值那么周围都是比该点更大的loos，但是鞍点不一样，周围可能会有更小的loss，因此要认识到如何分辨这两种点。判断导数为0的点是鞍点还是极值点首先需要了解一下泰勒展开式，假设我们在\(\theta=\theta^{`}\)处进行二阶泰勒展开（忽略冗余项），即： \[L(...

ymSs22TohiEJ 2023年11月01日 99 0 0 AI综合

【机器学习】李宏毅——浅谈机器学习原理+鱼与熊掌兼得的深度学习简述

如何评判一个训练集的好坏如果我们希望得到一个训练集，并且用该训练集所训练出来的模型，在训练集上的误差和在整个数据空间上的误差相距较小，即写成如下表达式： \[L(h^{train},D_{all})-h(h^{all},D_{all})\leq\delta\] 那么训练集\(D_{train}\)应该满足的条件为： \[\forallh\inH,\lvertL(h,D_{train})-L(h,D_{all})\rvert\leq\frac{\delta}{2}\] 即对于假设空间中的任何模型在训练集上的误差和在整个数据空间上的误差之间的误差都小于某个值。推导过程如下： ...

ymSs22TohiEJ 2023年11月01日 55 0 0 AI综合

【机器学习】李宏毅——何为反向传播

回顾一下梯度下降的过程：假设当前神经网络有以下参数\(\theta=\{\omega_1,\omega_2,...,b_1,b_2,...\}\)，那么梯度下降就是计算损失函数对于每个参数的梯度，然后按照梯度更新公式来更新每一个参数。但在深度学习中参数量巨大，这样计算时间过长，因此反向传播就是来高效就计算出损失函数对于每个参数的梯度的。注意反向传播并不是一个和梯度下降不同的训练方法，它只是能够更有效率就计算出损失函数对参数的梯度，来帮助梯度下降过程。反向传播损失函数可以如下表示： \[L(\theta)=\sum_{n=1}^NC^n(\theta)\] 其中\(C^n(\the...

ymSs22TohiEJ 2023年11月01日 50 0 0 AI综合

【机器学习】李宏毅——自注意力机制(Self-attention)

前面我们所讲的模型，输入都是一个向量，但有没有可能在某些场景中输入是多个向量，即一个向量集合，并且这些向量的数目并不是固定的呢？这一类的场景包括文字识别、语音识别、图网络等等。那么先来考虑输出的类型，如果对于输入是多个数目不定的向量，可以有以下这几种输出方式：每个向量对应一个输出：输出的数目与输入向量的数目一致，例如下图的词性识别、语调识别、状态识别等等：只有单个输出：这种应用于例如判断一段话的正负面作用、语音辨认说话者等等，如下图：机器自己决定输出多少个结果（seq2seq）：如翻译、语音转文字等等。 SequenceLabeling(输入输出数目一致) 最简单的...

ymSs22TohiEJ 2023年11月01日 81 0 0 AI综合

【机器学习】李宏毅——线性降维

降维，可以用下面这张图来很简单的描述，就是将不同的、复杂的多种树都抽象成最简单的树的描述，也就是我们不关心这棵树长什么样子有什么特别的特征，我们只需要降维，知道它是一棵树即可。维度下降实际上就是找到一个function，使得输入x得到输出z，而输出z的维度要比输入x的维度小。具体有几种方面，下面就先将PCA（主成分分析） PCA PCA认为，function实际上可以看成一个矩阵，即： \[z=Wx\] 可以通过一个向量与矩阵的运算来描述这件事。那么当前假设x为二维向量，而要求降到一维的向量z，而w的范数等于1，则可以看成z就是x在w上的投影不同方向的w会导致投影出来的z不一样，...

ymSs22TohiEJ 2023年11月01日 53 0 0 AI综合

【机器学习】李宏毅——Recurrent Neural Network(循环神经网络)

假设我们当前要做一个人工智能客服系统，那该系统就需要对用户输入的话语进行辨认，例如用户输入： IwanttoarriveTaipeionNovember2nd 那么该系统就能够辨认出来Taipei是目的地，而后面是时间。那么我们可以用一个简单的前向网络来实现这个事情，输出为这个单词属于哪个含义的概率。但这会存在问题，例如输入以下： IwanttoleaveTaipeionNovember2nd 同样输入都是Taipei，但是第一个句子是作为目的地，第二个句子是作为出发地，那么普通的前向网络是无法对同一个输出做出不同的输出的。因此就希望此时使用的网络能够具有一定的记忆性，即在看到Taip...

ymSs22TohiEJ 2023年11月01日 85 0 0 AI综合

Graph Neural Network——图神经网络

本文是跟着李沐老师的论文精度系列进行GNN的学习的，详细链接请见：零基础多图详解图神经网络（GNN/GCN）【论文精读】该论文的标题为《AGentleIntroductiontoGraphNeuralNetworks》，是对GNN的简介。那么论文的第一张图呢把鼠标放上去某一个结点将会表示出该节点的生成过程，可以看到放于Layer1中的某个节点时，它是由Layer2中的多个节点生成，而Layer2中的这些结点又有Layer3的部分节点生成，因此只要层次够深，那么一个节点就可以处理原始大片节点的信息。图这种数据结构在当前随处可见，因此图神经网络如果能够发挥对图这种结构的良好处理能力，将会有很...

ymSs22TohiEJ 2023年11月01日 44 0 0 AI综合

【机器学习】李宏毅——Transformer

Transformer具体就是属于Sequence-to-Sequence的模型，而且输出的向量的长度并不能够确定，应用场景如语音辨识、机器翻译，甚至是语音翻译等等，在文字上的话例如聊天机器人、文章摘要等等，在分类问题上如果有问题是一些样本同时属于多个类也可以用这个的方法来求解。只要是输入向量，输出向量都可以用这个模型来求解。那么Seq2seq的大致结构如下：也就是有一个Encoder和一个Decoder，将输入的向量给Encoder进行处理，处理后的结果交给Decoder，由Decoder来决定应该输出一个什么样的向量。 Encoder 以上便是Encoder的作用，输入一排向量，输出...

ymSs22TohiEJ 2023年11月01日 70 0 0 AI综合