摩杜云开发者社区-摩杜云

【机器学习】朴素贝叶斯算法：多项式、高斯、伯努利，实例应用（心脏病预测）

1.朴素贝叶斯模型对于不同的数据，我们有不同的朴素贝叶斯模型进行分类。 1.1多项式模型（1）如果特征是离散型数据，比如文本这些，推荐使用多项式模型来实现。该模型常用于文本分类，特别是单词，统计单词出现的次数。调用方法： fromsklearn.naive_bayesimportMultinomialNB 1.2高斯模型（2）如果特征是连续型数据，比如具体的数字，推荐使用高斯模型来实现，高斯模型即正态分布。当特征是连续变量的时候，运用多项式模型就会导致很多误差，此时即使做平滑，所得到的条件概率也难以描述真实情况。所以处理连续的特征变量，应该采用高斯模型。调用方法：from...

eCO46Rq6uUzg 2023年12月07日 13 0 0 多项式算法人工智能人工智能算法多项式机器学习数据机器学习数据

【机器学习】朴素贝叶斯算法：原理、实例应用（文档分类预测）

1.算法原理 1.1朴素贝叶斯方法朴素贝叶斯方法涉及一些概率论知识，我们先来复习一下。联合概率：包含多个条件，并且所有的条件同时成立的概率，公式为：条件概率：事件A在另一个事件B已经发生的前提下发生的概率，记作P(A|B)，如果有多个条件，那记作：朴素贝叶斯一般公式：我举个小例子帮助大家理解：某学校有N名学生，男生占60%，女生占40%。男生都留短发，女生一半留短发，一半留长发。问题1：随机一个学生，知道性别的情况下，他（她）留短发的概率是多少？  答：男：P(短发|男生)=1；女：P(短发|女生)=0.5 问题2：随机一个学生，只知道他留短发，他是男生的概...

eCO46Rq6uUzg 2023年12月07日 16 0 0 分类算法算法机器学习分类朴素贝叶斯数据朴素贝叶斯机器学习数据

Visual Studio编码方法

VisualStudio  编码方法编码方法合并了软件开发的许多方面。尽管它们通常对应用程序的功能没有影响，但它们对于改善对源代码的理解是有帮助的。这里考虑了所有形式的源代码，包括编程、脚本撰写、标记和查询语言。不建议将这里定义的编码方法形成一套固定的编码标准。相反，它们旨在作为开发特定软件项目的编码标准的指南。编码方法分为三部分：命名注释格式命名对于理解应用程序的逻辑流，命名方案是最有影响力的一种帮助。名称应该说明“什么”而不是“如何”。通过避免使用公开基础实现（它们会发生改变）的名称，可以保留简化复杂性的抽象层。例如，可以使用GetNextStudent()...

eCO46Rq6uUzg 2023年12月07日 17 0 0 编码方法缩进编码方法变量名缩进变量名

【机器学习】决策树算法理论：算法原理、信息熵、信息增益、预剪枝、后剪枝、算法选择

1.决策树概念通过不断的划分条件来进行分类，决策树最关键的是找出那些对结果影响最大的条件，放到前面。我举个列子来帮助大家理解，我现在给我女儿介绍了一个相亲对象，她根据下面这张决策树图来进行选择。比如年龄是女儿择偶更看中的，那就该把年龄这个因素放在最前面，这样可以节省查找次数。收入高的话就去见，中等的话还要考虑工作怎么样。        决策树通过历史数据，找出数据集中对结果影响最大的特征，再找第二个影响最大的特征。若新来一个数，只要根据我们已经建立起的决策树进行归类即可。 2.决策树的信息熵  &nbsp...

eCO46Rq6uUzg 2023年12月07日 15 0 0 子节点信息熵算法决策树子节点决策树算法机器学习机器学习信息熵

【机器学习】六、概率图模型

今天我们对概率图模型（ProbabilisticGraphicalModel，PGM）做一个总结。模型表示概率图模型，是指一种用图结构来描述多元随机变量之间条件独立关系的概率模型。它提出的背景是为了更好研究复杂联合概率分布的数据特征，假设一些变量的条件独立性，由此我们把概率图模型分为有向图和无向图，并且介绍了它们的模型表示、条件独立性。有向图模型又称贝叶斯网络或信念网络，其联合概率分布可以分解为每个随机变量Xk的局部条件概率的乘积形式：贝叶斯网络的条件独立性体现在三种形式：tail-to-tail，head-to-tail，head-to-head。无向图模型又称马尔科夫随...

eCO46Rq6uUzg 2023年12月06日 15 0 0 概率分布聚类算法人工智能人工智能概率图模型机器学习概率分布机器学习概率图模型聚类算法

【GEE】3、栅格遥感影像波段特征及渲染可视化

1、简介在本单元中，将学习以下内容：使用遥感传感器捕获的不同类型的能量。如何构建JavaScript字典和列表以选择单个栅格波段。如何可视化多波段和单波段栅格的不同组合。 2、背景在您探索如何将Google地球引擎和遥感数据集成到您的研究中时，视觉解释图像的能力是一项重要的技能。虽然许多算法旨在自动提取和分类图像，但在模式和特征识别方面，计算机根本不如人脑先进。这意味着您经常需要手动识别图像中的要素，不仅是为您自己，而且为您的顾问、项目合作伙伴或其他利益相关者。在Google地球引擎中有效传达这些信息的能力最终取决于您可视化和解释栅格数据集的能力。尽管您在这些系列的学习单元中的...

eCO46Rq6uUzg 2023年12月06日 14 0 0 Google gee Google 数据 ci ci 数据 gee

【机器学习】七、降维与度量学习

1.维数灾难样本的特征数称为维数（dimensionality），当维数非常大时，也就是现在所说的维数灾难。维数灾难具体表现在：在高维情形下，数据样本将变得十分稀疏，因为此时要满足训练样本为“密采样”的总体样本数目是一个触不可及的天文数字，训练样本的稀疏使得其代表总体分布的能力大大减弱，从而消减了学习器的泛化能力；同时当维数很高时，计算距离也变得十分复杂，甚至连计算内积都不再容易，这也是为什么支持向量机（SVM）使用核函数低维计算，高维表现的原因。缓解维数灾难的一个重要途径就是降维，即通过某种数学变换将原始高维空间转变到一个低维的子空间。在这个子空间中，样本的密度将大幅提高，同时距离计算...

eCO46Rq6uUzg 2023年12月06日 12 0 0 学习学习距离度量人工智能机器学习机器学习邻域邻域距离度量人工智能

【GEE】9、在GEE中生成采样数据【随机采样】

1简介在本模块中，我们将讨论以下概念：如何使用高分辨率图像生成存在和不存在数据集。如何在要素类图层中生成随机分布的点以用作字段采样位置。如何根据参数过滤您的点以磨练您的采样位置。华盛顿州白杨林旁的落基山麋鹿。 图片来源：美国鱼类和野生动物管理局。  2背景有充分证据表明，食草动物主要以麋鹿为食，会对白杨的再生率产生负面影响，因为白杨倾向于在大型单型林分中生长。因此，这些林分中的白杨再生率可以决定下层的组成。从一个地区排除麋鹿、鹿和奶牛放牧对白杨再生有可观察到的影响，但在了解白杨林下的存在如何影响从初级生产者到大型哺乳动物的地区的整体生物多样性方面所做的...

eCO46Rq6uUzg 2023年12月06日 15 0 0 分类数据数据集数据集 gee 人工智能人工智能分类数据 gee

【GEE】8、Google 地球引擎中的时间序列分析【时间序列】

1简介在本模块中，我们将讨论以下概念：处理海洋的遥感图像。从图像时间序列创建视频。 GEE中的时间序列分析。向图形用户界面添加基本元素。 2背景深水地平线漏油事件被认为是有史以来最大的海上意外漏油事件。该井释放了超过490万桶石油，其中410万桶在2010年4月20日至7月15日期间进入墨西哥湾。通过燃烧或撇去海洋表面的石油和通过在海洋表面释放超过184万加仑的化学分散剂(Corexit)并直接进入海洋表面以下约5,000英尺的油井排放的油流中。即使做出了这些努力，漏油事件也严重影响了海湾的沿海和海洋生态系统。尽管为评估石油在这些生态系统中的影响付出了广泛的努力，但受泄漏影响的...

eCO46Rq6uUzg 2023年12月06日 15 0 0 大数据数据 Image 计算机视觉 gee 数据大数据 gee Image 计算机视觉

【GEE】5、遥感影像预处理【GEE栅格预处理】

1简介在本模块中，我们将讨论以下概念：了解常用于遥感影像的数据校正类型。如何直观地比较同一数据集中不同预处理级别的空间数据。如何在GoogleEarthEngineforLandsat8表面反射率图像中执行云遮蔽和云遮蔽评估。 2背景什么是预处理？您将在Google地球引擎(GEE)中找到的大部分数据都经过了一定程度的预处理。这涉及几种不同的质量控制方法，以确保栅格集合内的最高准确性和一致性。根据收集的不同，可能有各种可用的预处理级别，了解差异以将遥感数据成功整合到生态研究中非常重要。在GEE中提供数据之前，出版商一致解决了图像产品的三个常见错误来源：大气（即空气化学）、地形（...

eCO46Rq6uUzg 2023年12月06日 20 0 0 python gee 预处理人工智能 gee 人工智能 python 计算机视觉预处理计算机视觉

【GEE】4、 Google 地球引擎中的数据导入和导出

1简介在本模块中，我们将讨论以下概念：如何将您自己的数据集引入GEE。如何将来自遥感数据的值与您自己的数据相关联。如何从GEE导出特征。 2背景了解动物对环境的反应对于了解如何管理这些物种至关重要。虽然动物被迫做出选择以满足其基本需求，但它们的选择很可能也受到当地天气条件等动态因素的影响。除了直接观察之外，很难将动物行为与天气条件联系起来。在这个单元中，我们将从美洲狮收集的GPS项圈数据与通过GEE访问的Daymet气候数据集的每日温度估计值集成。这将要求我们将自己的数据引入GEE，将天气值连接到点位置，并将这些增值数据从GEE中带回以进行进一步分析。在加利福尼亚州洛...

eCO46Rq6uUzg 2023年12月06日 15 0 0 数据栅格数据集数据集 gee 栅格数据 gee

【机器学习】Kmeans聚类算法

一、聚类简介 Clustering(聚类)是常见的unsupervisedlearning(无监督学习)方法，简单地说就是把相似的数据样本分到一组（簇），聚类的过程，我们并不清楚某一类是什么（通常无标签信息），需要实现的目标只是把相似的样本聚到一起，即只是利用样本数据本身的分布规律。聚类算法可以大致分为传统聚类算法以及深度聚类算法：传统聚类算法主要是根据原特征+基于划分/密度/层次等方法。深度聚类方法主要是根据表征学习后的特征+传统聚类算法。二、kmeans聚类原理 kmeans聚类可以说是聚类算法中最为常见的，它是基于划分方法聚类的，原理是先初始化k个簇类中心，基于计...

eCO46Rq6uUzg 2023年12月06日 15 0 0 算法算法机器学习机器学习权重权重聚类聚类 kmeans kmeans

asp.net如何生成图片验证码

新建一个页面image.aspx,添加命名空间： usingSystem.Drawing.Imaging; usingSystem.IO; 然后在Page_load事件拷入如下代码：  stringtmp=RndNum(4);  HttpCookiea=newHttpCookie("ImageV",tmp);   Response.Cookies.Add(a);  this.ValidateCode(tmp); 接下来向该页面添加两个方法： privatevoidValidateCode(stringVNum)  { &nb...

eCO46Rq6uUzg 2023年12月06日 15 0 0 System 验证码控件验证码 System 控件

【深度学习】Transformer简介

  近年来，Transformer模型在自然语言处理（NLP）领域中横扫千军，以BERT、GPT为代表的模型屡屡屠榜，目前已经成为了该领域的标准模型。同时，在计算机视觉等领域中，Transformer模型也逐渐得到了重视，越来越多的研究工作开始将这类模型引入到算法中。本文基于2017年Google发表的论文，介绍Transformer模型的原理。   一、为什么要引入Transformer？最早提出的Transformer模型[1]针对的是自然语言翻译任务。在自然语言翻译任务中，既需要理解每个单词的含义，也需要利用单词的前后顺序关系。常用的自然语言模型是循环神经网络...

eCO46Rq6uUzg 2023年12月05日 23 0 0 深度学习 transformer 循环神经网络人工智能人工智能 transformer 深度学习卷积循环神经网络卷积

【ArcGIS】批量对栅格图像按要素掩膜提取

要把一张大的栅格图裁成分省或者分县市的栅格集，一般是用ArcGIS里的按掩膜提取。但是有的时候所要求的栅格集量非常大，所以用代码来做批量掩膜（按字段）会非常方便。 importarcpy,shutil,os fromarcpyimportenv fromarcpy.saimport 使用说明 print"开始使用前，请认真阅读使用说明" print"\n" print"使用说明1：在工作空间内存放所需要掩膜提取的栅格文件。" print"使用说明2：按字段提取的要素一般是.shp文件，在输入路径时务必确保以.shp为结尾。" print"使用说明3：字段名是使用说明2中要素里拥有...

eCO46Rq6uUzg 2023年12月05日 15 0 0 使用说明使用说明栅格栅格 arcgis 临时文件临时文件 arcgis

Visual Studio编码方法

VisualStudio  编码方法编码方法合并了软件开发的许多方面。尽管它们通常对应用程序的功能没有影响，但它们对于改善对源代码的理解是有帮助的。这里考虑了所有形式的源代码，包括编程、脚本撰写、标记和查询语言。不建议将这里定义的编码方法形成一套固定的编码标准。相反，它们旨在作为开发特定软件项目的编码标准的指南。编码方法分为三部分：命名注释格式命名对于理解应用程序的逻辑流，命名方案是最有影响力的一种帮助。名称应该说明“什么”而不是“如何”。通过避免使用公开基础实现（它们会发生改变）的名称，可以保留简化复杂性的抽象层。例如，可以使用GetNextStudent()...

eCO46Rq6uUzg 2023年12月05日 13 0 0 编码方法编码方法变量名变量名缩进缩进

【机器学习】划分训练集和测试集的方法

在机器学习中，我们的模型建立完成后，通常要根据评估指标来对模型进行评估，以此来判断模型的可用性。而评估指标主要的目的是让模型在未知数据上的预测能力最好。因此，我们在模型训练之前，要对训练集和测试集进行划分。一般数据集划分的方法有四种：留出法、交叉验证法、留一法、自助法。注：数据集D划分为两个互斥的的集合，其中一个集合作为训练集S，另一个作为测试集T。数据集的具体划分方法 1.留出法留出法直接将数据集D划分为两个互斥的部分，其中一部分作为训练集S，另一部分用作测试集T。用训练集T进行模型训练，测试集S来评估误差。在此划分数据集上，训练/测试集的划分要尽可能保持数据分布的一致性，避...

eCO46Rq6uUzg 2023年12月05日 9 0 0 人工智能人工智能深度学习机器学习机器学习深度学习数据集数据集交叉验证交叉验证

【深度学习】学习率及多种选择策略

学习率是最影响性能的超参数之一，如果我们只能调整一个超参数，那么最好的选择就是它。相比于其它超参数学习率以一种更加复杂的方式控制着模型的有效容量，当学习率最优时，模型的有效容量最大。本文从手动选择学习率到使用预热机制介绍了很多学习率的选择策略。这篇文章记录了我对以下问题的理解：学习速率是什么？学习速率有什么意义？如何系统地获得良好的学习速率？我们为什么要在训练过程中改变学习速率? 当使用预训练模型时，我们该如何解决学习速率的问题？本文的大部分内容都是以fast.ai研究员写的内容[1],[2],[5]和[3]为基础的。本文是一个更为简洁的版本，通过本文可以快速获取这些文章的主要...

eCO46Rq6uUzg 2023年12月05日 12 0 0 迭代学习迭代人工智能学习人工智能深度学习深度学习数据数据

ASP六大对象常用语句示范

Response： Response.writeStrVar/"String"：向网页写出参数值或字符串 等同于在Html标记中嵌入<%=StrVar/"String"%> Response.End：停止页面编译，并将已经编译内容输出到浏览器 Response.Buffer=True|False：页面编译时是否使用缓存的设置，一般在页面头部设置 Response.Flush：强制输出页面已编译部分内容 Response.Clear：将缓冲区内的数据清除 Response.RedirectURL：停止页面编译或输出，转载指定所需页面 Response.IsCli...

eCO46Rq6uUzg 2023年12月04日 15 0 0 事务处理表单表单 Server 事务处理 Server

【机器学习】四、计算学习理论

1基础知识计算学习理论（computationallearningtheory）：关于通过“计算”来进行“学习”的理论，即关于机器学习的理论基础，其目的是分析学习任务的困难本质，为学习算法体统理论保证，并根据结果指导算法设计。对于二分类问题，给定样本集假设所有样本服从一个隐含未知的分布DDD，所有样本均独立同分布（independentandidenticallydistributed）。令h为样本到{−1,+1}上的一个映射，其泛化误差为 h在D的经验误差为由于D是D的独立同分布采样，因此hhh的经验误差的期望等于其泛化误差。在上下文明确时，我们将E(h;D)和E^(h;D...

eCO46Rq6uUzg 2023年12月02日 14 0 0 学习泛化人工智能机器学习泛化数据集数据集人工智能学习机器学习