0前言 本文主要介绍极大似然估计的意义,并举出例题帮助读者理解。 1思想 极大似然估计(MaximumLikelihoodEstimation,MLE)是一种在统计学中估计模型参数的方法。它的基本思想是:找到一组参数值,使得在这组参数下,观测到的数据出现的概率(即似然函数)最大。 假如有一个黑盒子,里面放有若干红球和白球,现从盒子中随机放回抽取10次,最后统计抽取结果,有红球被抽到7次,白球被抽到3次,问抽中红球和白球的概率分别为多少? 你可能认为抽中红球的概率为:70%,抽中白球的概率为30%?你能否从数学角度解释? 由此引出极大似然估计。 2公式 3极大似然估计的基本步骤 定义...

  R4Vst8ueWPjd   10天前   25   0   0 机器学习

0前言 本文主要介绍决策树条件熵的计算并给出若干例子帮助理解。 读者需要具备信息熵计算知识,若不了解请看:信息熵 1条件熵 2数据集 游玩数据集,请看:数据集1.1节 3条件熵的计算 使用所给游玩数据集。计算H(play|outlook)的条件熵(在Y随机变量为outlook条件下,X随机变量为play的条件熵)。笔者将Outlook属性排序后如下图(3-1)所示。 对属性Outlook分析并计算如下。 其中相应的运算数据笔者已用相应的颜色标注。属性"Play=yes个数"表示当outlook=overcast(或rainy或sunny)条件下的数据中有几个play为yes的样本。属性"...

  R4Vst8ueWPjd   13天前   26   0   0 机器学习

0前言 本文主要介绍信息增益的计算公式并举出若干例子帮助理解。 读者需要具备的知识有:信息熵、条件熵。 本文所示用的数据集为:游玩数据集1.1节 1信息增益计算公式 g(D,A)表示在条件A下对于目标变量D的信息增益。 H(D)表示随机变量D的信息熵。 H(D|A)表示在随机变量A条件下对于目标变量D的条件熵。 2信息增益的计算 2.1g(play,outlook)的计算 g(play,outlook)表示在随机变量outlook条件下对于目标变量play的信息增益,计算步骤如下。 完整公式:g(play,outlook)=H(play)-H(play|outlook) 首先要计算...

  R4Vst8ueWPjd   13天前   30   0   0 机器学习

0前言 本文主要介绍决策树信息增益比的计算,并给出例子帮助读者理解。 读者需要具备:信息熵、条件熵、信息增益相关知识。 本文使用数据集:游玩数据集1.1节。 1信息增益比计算公式 2信息增益比计算 2.1gR(play,outlook)的计算 根据信息增益(跳转)相关知识,得出: 特征outlook对数据集D的信息增益g(D,outlook)就等同于g(play,outlook),这里play是最终分类的属性。先计算分子:g(play,outlook),有如下计算过程:H(play)=-(5/14)log2(5/14)-(9/14)log2(9/14)=0.9403H(play|out...

  R4Vst8ueWPjd   13天前   17   0   0 机器学习

0前言 本文主要介绍决策树ID3算法,并举出构建示例帮助理解。 读者需要具备的知识:信息熵、条件熵、信息增益。 本文使用数据集为:游玩数据集1.1节、西瓜数据集1.2节。 1ID3算法简述 ID3(IterativeDichotomiser3)算法是一种经典的决策树学习算法,由RossQuinlan于1986年提出。该算法的主要目的是通过构建一个决策树模型来对样本数据进行分类。ID3算法的核心思想是基于信息增益(InformationGain)来选择最佳的属性作为决策树的节点,以此来实现对数据的划分。 2算法流程 初始化:首先,算法将所有训练样本集放在根节点。 特征选择:对于当前节点,计...

  R4Vst8ueWPjd   13天前   28   0   0 机器学习

0前言 本文主要讲述了决策树C4.5算法构建原理并举例说明。 读者需要具备的知识有:信息熵、条件熵、信息增益、信息增益比。 本文所使用的数据集为:西瓜数据集1.2节。 1C4.5算法流程 准备数据集:输入数据集包含多个样本,每个样本具有多个特征(属性)和一个目标类别标签。 设置阈值:初始化信息增益的阈值ε,用于决定何时停止树的生长。在决策树的构建过程中,对于每个节点,计算所有特征的信息增益。如果某个特征的信息增益大于或等于阈值ε,则使用该特征进行节点划分;否则,停止划分,并将该节点标记为叶节点。通过设定较高的阈值,可以限制决策树的生长,减少节点的数量,从而避免过拟合。本文并未设置阈值,感...

  R4Vst8ueWPjd   13天前   25   0   0 机器学习

0前言 本文主要介绍基尼指数的计算公式及计算方法,并举出相关例题帮助理解。 读者需要提前了解:信息熵。 数据集:贷款.CSV。 1基尼指数简述 基尼指数(GiniIndex)是一个在多个领域都有应用的重要指标,但其主要应用之一是在决策树算法中,用于衡量数据集的不纯度或混乱程度。 基尼指数也被称为基尼不纯度,表示在样本集合中一个随机选中的样本被分错的概率。基尼值越小,表示集合中被选中的样本被分错的概率越小,即集合的纯度越高;反之,基尼指数越大,集合越不纯。 若使用基尼指数构建决策树时,基尼指数构建的决策树是二叉树。这种二叉树结构使得CART(ClassificationandRegress...

  R4Vst8ueWPjd   13天前   27   0   0 机器学习

0前言 本文主要讲述使用基尼指数构建二叉决策树的算法,并给出例题一步步解析,帮助读者理解。 本文所使用的数据集:贷款.CSV。 读者需要具备的知识:基尼指数计算。 1基于基尼指数的分类树构建算法 选择最优特征进行分裂:对于决策树的每个节点,遍历数据集中的所有特征。对于每个特征,考虑其所有可能的分割点(对于离散特征,每个不同的值都是一个分割点;对于连续特征,则可能需要将特征值排序后,选择相邻值的中点作为候选分割点)。计算分割后的数据集的基尼指数,选择基尼指数最小的特征和对应的分割点作为最优特征和最优分割点。 生成子节点:使用最优特征和最优分割点将当前节点的数据集分割成两个子集,并为每个子集...

  R4Vst8ueWPjd   13天前   36   0   0 机器学习

0前言 本文主要讲述了决策树背后的信息熵的公式含义及计算方式,并列举出多道例题帮助理解。 1信息熵的定义 1.1信息熵公式 笔者使用下图(1-1)直观理解信息熵的含义。信息熵越大,表示该随机变量的不确定性越高。对于均匀分布,信息熵达到最大值。 1.2证明:对于均匀分布,信息熵最大 笔者用一个简单的例子加以证明,假如随机变量X只取0和1,即随机变量X服从01分布,X的概率密度函数为: X 概率p(0≤p≤1) 1 p 0 1-p 根据信息熵的公式,随机变量X的信息熵为:结合下图(1-2),可以看出结论正确。 1.3信息熵公式分析 信息熵的计算公式为什么是这样?log函...

  R4Vst8ueWPjd   23天前   41   0   0 机器学习

0前言 为了便于学习决策树信息熵相关知识,笔者编写了一个专门用于计算变量信息熵、条件熵、信息增益、信息增益比的程序,方便提升学习效率。 程序中包含了计算过程的数据和详细信息以及最终计算结果。 编程语言为Python,搭配CSV数据格式使用。 1数据集 1.1游玩数据集 根据天气状况判断是否出去玩。 属性id表示每个样本的编号。 属性outlook表示户外天气。sunny晴天,overcast阴天,rainy雨天。 属性temperature表示温度,hot热,mild温暖,cool冷。 属性humidity表示湿度。high高,normal正常。 属性windy表示是否有风。not没有,...

  R4Vst8ueWPjd   23天前   47   0   0 机器学习

0前言 本文主要讲解KNN算法中用于快速检索最近元素的KD树的构建及查找原理。 为了达到最佳阅读效果,请读者按照本文顺序阅读,文章使用了大量图片帮助读者理解。 1背景 1.1为什么要使用KD-Tree? k近邻法(KNN)最简单的实现方法是线性扫描。这时要计算输入实例与每一个训练实例的距离。当训练集很大时,计算非常耗时,这种方法是不可行的。 为了提高k近邻搜索的效率,可以考虑使用特殊的结构存储训练数据,以减少计算距离的次数。 1.2KD-Tree效率如何? 如果实例点是随机分布的,kd树搜索的平均计算复杂度是(logN),这里N是训练实例数。 kd树更适用于训练实例数远大于空间维数时...

  R4Vst8ueWPjd   30天前   57   0   0 机器学习

0.前言 本文主要介绍了最小二乘法公式推导,并且使用Python语言实现线性拟合。 读者需要具备高等数学、线性代数、Python编程知识。 请读者按照文章顺序阅读。 绘图软件为:geogebra5。 1.原理推导 1.1应用 最小二乘法在购房中的应用通常涉及房价预测和房屋定价方面。这种统计方法通过拟合数据来找到一条最符合实际观测值的直线(或曲线),从而帮助预测房屋的合理市场价格。例如某地的房价与房屋面积大小关系如下图(图1-1)所示。为了方便操作,请读者不要考虑数据是否真实有效,当然这样的房价笔者是不会买。笔者将数据以CSV格式保存,具体数据如下图(1-2)所示。 点击查看数据 其中x表...

  R4Vst8ueWPjd   2024年08月08日   38   0   0 机器学习

0.前言本文以实战案例为背景,讲述如何使用计算机图形学知识完成需求,实现最终效果。本文包含实战案例素材以及过程代码讲解,方便读者理解。1.案例需求某公司打算开发一款用于提取学生作业本的程序,学生用手机拍摄自己的作业上传到程序,程序进行处理最终提取出作业本区域方便老师批改。下图(图1-1)为某学生提交的作业本俯拍图片。 该公司希望该程序将图片裁剪校正使其达到方便教师批改的大小。最终效果图如下(图1-2)所示。 2.处理思想 由于环境因素,学生上传的图片可能存在较多的噪点,不利于计算机处理,故可以采取高斯模糊进行降噪处理,方便后续提取特征。 为了更方便提取图像特征,应将图像灰度化、二值化,使...

  R4Vst8ueWPjd   2024年08月06日   33   0   0 计算机图形学

0.前言本文以实战案例为背景,一步步讲述如何使用计算机图像处理相关知识提取图片中英语填空题答题线。 1.需求背景某公司打算设计一款英语题目批改APP,要求学生上传英语填空题图片,然后该APP自动标注答题线位置(使用红线标注),方便后续定位和批改答案。下图(图1-1)为某一学生上传的英语填空题图片。 该APP的预期效果如下图(图1-2)所示。 2.解决思路 首先应该将图片转换为灰度图再经过阈值处理转换为二值图。 由于图片中存在较多英文字符,如果直接使用霍夫直线检测效果并不显著。 寻找一种方法能够将英文等字符去除,仅留下直线特征。本文采取形态学操作实现该步骤。 将大多干扰因素去除后使用霍夫变...

  R4Vst8ueWPjd   2024年08月06日   37   0   0 计算机图形学

0.前言本文主要探讨RotatedRect类angle的实际含义,为后续学者提供一定的参考。 1.官方手册RotatedRect其一构造函数如下图(图1-1)所示。 在OpenCV图形坐标系中,水平方向向右为x轴正方向,垂直方向向下为y轴正方向,左上角为(0,0)点。center表示矩形的中心坐标,size中包含了矩形的宽度和高度,angle是矩形顺时针方向的旋转角度。图片来源地址:https://docs.opencv.org/4.6.0/db/dd6/classcv_1_1RotatedRect.htmlaba20dfc8444fff72bd820b616f0297ee 2.angle含义...

  R4Vst8ueWPjd   2024年08月06日   27   0   0 计算机图形学

0.前言 本文是笔者在学习COpenCV库时学习心得,在学习分水岭变换函数时,由于缺少相关学习资料,导致笔者理解吃力,故写此文章阐述一下对该函数的理解,希望对其他学习人士提供帮助。本文主要介绍了watershed函数参数以及参数实际表示。请您按文章次序阅读。您需要提前了解的相关知识有:OpenCV图像类型、findContours函数。完整代码请见附录。 1.API介绍 voidwatershed(InputArrayimage,InputOutputArraymarkers); image参数第一个参数image,InputArray类型的输入图像,且需为8位三通道的彩色图像。您可以使...

  R4Vst8ueWPjd   2024年04月30日   69   0   0 计算机图形学
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~