决策树的生成 有了信息增益和信息增益比,我就可以以此衡量特征的相对好坏,进而可以用于决策树的生成。相对应的基于信息增益计算的方法所生成的决策树的算法我们叫做ID3算法,而基于信息增益的算法我们叫做C4.5,二者唯一的区别就在于一个使用信息增益衡量特征好坏而另外一个使用信息增益比,因此本文重点讲述ID3算法。 ID3算法 特殊情况判断 如果数据集中所有的样本均属于同一类\(C_k\),那么直接将\(C_k\)作为该结点的类别标记,并返回决策树\(T\)。 如果此时特征集合\(A=\varnothing\)为空,那么将\(D\)中相同类别数最多样本的类别作为该结点的类别标记并返回\(T\)。 ...

  4DLsGCmLCTQF   2024年03月28日   42   0   0 机器学习

决策树 总体介绍 决策树模型顾名思义就是通过一条条的决策来将样本划分来从而达到分类或回归的目的。决策树模型呈树形结构,下图粗略展示了一个分类决策树其中圆表示特征,方块表示叶子节点也是最终分类的类别,我们通过利用样本中高价值的特征(房子拥有情况,工作的拥有情况)来构建这么一个决策树,那么每当有新样本来临时就可以通过构建完成的决策树来对其进行分类。其中所有路径互斥且完备,即不存在两个相同的样本被划分到不同的类别(互斥),任意一个样本都会被划分到一个类别。我们还可以认为决策树是定义在特征空间与类空间上的条件概率分布,即将特征空间划分成一个个互不相交的单元,这与之前所讲的KNN算法的核心思想一致。下图...

  4DLsGCmLCTQF   2024年03月23日   70   0   0 机器学习

Matlab图形属性检查器 和其他语言的绘图不一样的是,Matlab允许我们通过非编程的方式来自定义调整绘图。下面介绍Matlab图形的构成以及几种调整绘图时的常用操作。 图形构成 什么是Figure 当我们使用绘图函数创建图形时,总会弹出一个窗口以显示我们绘制的图形,这整个窗口我们把它叫做Figure或者称为画板(即我们作画需要的载体)。比如像下面的图形就是一个Figure:尽管在我们进行绘图时,系统为我们给定了一套默认的参数,比如图形的大小,颜色,位置等等,但是这种方式由于缺乏灵活性,不利于我们对图形进行修正比如,若将上面的图形导出则会出现大片的空白区域,后期仍需要进行二次裁剪十分浪费时间...

  4DLsGCmLCTQF   2024年03月22日   48   0   0 其他技术区

朴素贝叶斯法 朴素贝叶斯是一种用先验概率估计后验概率的模型,通过估计先验概率得到样本和类别的近似联合概率,随后通过联合概率分布获得需要的后验概率分布进而实现分类。本次介绍的朴素贝叶斯法主要包括三块:总体思想(将后验概率转换为先验概率)、极大似然估计(使用极大似然法估计先验概率)、贝叶斯估计(使用贝叶斯估计得到先验概率)。 符号说明 设输入空间\(\mathcal{X}\subseteq\mathbf{R}^n\)为\(n\)维向量的集合,输出空间的集合\(\mathcal{Y}=\{c_1,c_2,\cdots,c_K\}\),则在样本(示例,特征向量)\((\bm{x},y)\)中\(\bm...

  4DLsGCmLCTQF   2024年03月13日   67   0   0 机器学习

k近邻模型 基本思想 \(k\)近邻算法还是很直观的,准确的来说它不是一种学习算法,而是一种统计方法,不具备学习过程,一次性就可以给出结果。其本质思想是将特征空间划分成一个个的单元(\(cell\)),其中每个\(cell\)的区域由距离该点比其他点更近的所有点定义,所有的\(cell\)组成了整特征空间。如上图所示:考虑样本\(x_1\)构成的\(cell\),记作\(cell_{x_1}\) 对于\(x_2\),其距离\(x_3\)比\(x_1\)近,因此,\(x_2\)无法成为\(cell_{x_1}\)中的一员 对于\(x_3\),其距离\(x_2\)比\(x_1\)近,因此,\(x...

  4DLsGCmLCTQF   2024年03月11日   64   0   0 机器学习

感知机 基本形式 感知机是一种线性分类模型,同时也为判别模型。其形式如下:\begin{equation}f(x)=\mathrm{sign}(w\cdotx+b)\end{equation} 其中\(\mathrm{sign}\)为符号函数满足下式: \[\begin{equation}\mathrm{sign}(x)=\begin{cases}+1,&x\geq0\\-1,&x<0\end{cases}\end{equation}\] 即认为当样本满足\(w\cdotx+b\geq0\)时被模型认为是正样本,而当\(w\cdotx+b<0\)时被认为时负...

  4DLsGCmLCTQF   2024年03月09日   91   0   0 机器学习

Homework4 Dataset介绍及处理 Datasetintroduction 训练数据集metadata.json包括speakers和n_mels,前者表示每个speaker所包含的多条语音信息(每条信息有一个路径feature_path和改条信息的长度mel_len或理解为frame数即可),后者表示滤波器数量,简单理解为特征数即可,由此可知每个.pt语言文件可以表示为大小为mel_len\(\times\)n_mels的矩阵,其中所有文件已规定n_mels为40,不同的是语言信息的长度即mel_len。 测试数据集testdata.json包括n_mels和utterances,...

  4DLsGCmLCTQF   2024年03月02日   15   0   0 AI综合

Homework3 数据集下载 在本地环境下进行实验总是令人安心,但是又苦于网上找不到数据集,虽然kaggle上有数据集但是下载存在问题于是有了一个天才的想法,间接从kaggle上下载(利用output文件夹中的文件是可下载这一机制将数据集从input文件夹拷贝到output文件夹),具体操作如下图等待数据集拷贝到output后,点击输出的蓝色链接即可下载。相关代码由下给出 !python-mzipfile-c/kaggle/working/Dataset.zip/kaggle/input/ml2022spring-hw4/Datasetcopy数据集到output文件夹,此过程可能较慢 i...

  4DLsGCmLCTQF   2024年02月23日   104   0   0 机器学习
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~