支持向量机入门介绍
  IwAQx7pW1xBE 2023年11月02日 49 0

机器学习面试题,可以点击这里获取:完整资料下载地址


支持向量机(SVM)是一种强大的机器学习算法,用于线性或非线性分类、回归,甚至异常检测任务。SVM可以用于各种任务,如文本分类、图像分类、垃圾邮件检测、手写识别、基因表达分析、人脸检测和异常检测。SVM在各种应用中都表现出色,因为它能够处理高维数据和非线性关系。

SVM算法的主要目标是在N维空间中找到一个最优超平面,可以在特征空间中将数据点分开成不同的类别。这个超平面试图使不同类别之间最接近的点之间的间隔尽可能大。超平面的维度取决于特征的数量。如果输入特征的数量为两个,那么超平面就是一条直线。如果输入特征的数量为三个,那么超平面就变成了一个二维平面。当特征的数量超过三个时,想象起来就变得困难。让我们考虑两个独立变量x1、x2和一个因变量,它可以是蓝色圆圈或红色圆圈。

支持向量机入门介绍_数据

线性可分的数据

从上图可以清楚地看出,有多条线(我们这里的超平面是一条线,因为我们只考虑了两个输入特征x1和x2),可以将我们的数据点分开,或者在红色和蓝色圆圈之间进行分类。那么,我们如何选择最佳线或通常情况下最佳的超平面来分隔我们的数据点呢?

支持向量机是如何工作的?

作为最佳超平面的一个合理选择是代表两个类之间最大分离或间隔的那个。

支持向量机入门介绍_数据_02

多个超平面将两个类的数据分开

因此,我们选择距离其最近数据点的距离在每一侧都最大化的超平面。如果存在这样的超平面,它被称为最大间隔超平面/硬间隔。因此,从上图中,我们选择 L2。让我们考虑下面所示的情况。

支持向量机入门介绍_核函数_03

为具有异常值的数据选择超平面

这里有一个蓝球位于红球的边界。那么SVM如何对数据进行分类呢?很简单!边界上的蓝球是蓝球的异常值。SVM算法具有忽略异常值并找到最大化间隔的最佳超平面的特性。SVM对异常值具有鲁棒性。

支持向量机入门介绍_数据_04

最优超平面

在这种类型的数据点中,SVM 的作用是找到最大间隔,就像在先前的数据集中所做的那样,同时每次数据点越过间隔时都会添加一个惩罚项。因此,这些类型情况下的间隔被称为软间隔。当数据集存在软间隔时,SVM 试图最小化(1/margin+∧(∑penalty))。Hinge 损失是一种常用的惩罚方式。如果没有违规,就没有 Hinge 损失。如果存在违规,则 Hinge 损失与违规距离成正比。

到目前为止,我们一直在讨论线性可分的数据(蓝球和红球组可以通过一条直线/线性线分开)。如果数据不是线性可分的,应该怎么办?

支持向量机入门介绍_数据_05

假设,我们的数据如上图所示。SVM 通过使用核函数来解决这个问题。我们将线上的点 xi 称为一个新变量,然后我们创建一个新变量 yi,它是与距离原点 o 的距离的函数。如果我们绘制这个图形,会得到如下所示的结果:

支持向量机入门介绍_核函数_06

将一维数据映射到二维以使其能够分离这两个类别

在这种情况下,新变量y是根据距离原点的函数创建的。创建新变量的非线性函数被称为核函数。

支持向量机中的常用术语

超平面:超平面是用于在特征空间中分隔不同类别数据点的决策边界。在线性分类情况下,它将是一个线性方程,即wx+b = 0。

支持向量:支持向量是距离超平面最近的数据点,对于决定超平面和间隔起着关键作用。

间隔:间隔是支持向量和超平面之间的距离。支持向量机算法的主要目标是最大化间隔。较宽的间隔表示更好的分类性能。

核函数:核函数是支持向量机中使用的数学函数,用于将原始输入数据点映射到高维特征空间,以便即使在原始输入空间中数据点不是线性可分的情况下,也可以轻松找到超平面。一些常见的核函数包括线性、多项式、径向基函数(RBF)和Sigmoid。

硬间隔:最大间隔超平面或硬间隔超平面是一个能够正确分离不同类别数据点而没有任何错误分类的超平面。

软间隔:当数据不是完全可分的或包含异常值时,支持向量机允许使用软间隔技术。每个数据点都有一个由软间隔支持向量机公式引入的松弛变量,它使得对严格间隔要求进行了柔化,允许一定的错误分类或违规。它在增加间隔和减少违规之间找到了一个折衷方案。

C:支持向量机中的正则化参数C平衡了间隔最大化和错误分类罚款。它决定了超出间隔或错误分类数据点的惩罚。较大的C值会施加更严格的惩罚,导致较小的间隔和可能更少的错误分类。

Hinge损失:SVM中常见的损失函数是Hinge损失。它对不正确的分类或间隔违规进行惩罚。SVM中的目标函数通常是通过将它与正则化项相结合而形成的。

对偶问题:优化问题的对偶问题需要找到与支持向量相关的拉格朗日乘数。对偶形式允许使用核技巧和更有效的计算。

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读
IwAQx7pW1xBE