机器学习
正则 标签描述

前面文章中,我们讲到,希望最终的模型在训练集上有很好的拟合(训练误差小),同时对测试集也要有较好的拟合(泛化误差小) 那么针对模型的拟合,这里引入两个概念:过拟合,欠拟合。 过拟合:是指我们在训练集上的误差较小,但在测试集上的误差较大; 欠拟合:在训练集上的效果就很差。 对于二分类数据,我们可以用下面三个图更直观的理解过拟合与欠拟合: 一、欠拟合 首先来说欠拟合,欠拟合主要是由于学习不足造成的,那么我们可以通过以下方法解决此问题 1、增加特征 增加新的特征,或者衍生特征(对特征进行变换,特征组合) 2、使用较复杂的模型,或者减少正则项 其次讨论过拟合,为什么我们的模型会过拟合呢?这里,我总...

一、 中科院-正则化 logistic回归模型 我们对图1a所示的数据采用简化的线性logistic回归模型进行两分类,即 (1) 考虑一个正则化的方法,即最大化 注意只有w2被惩罚。则当C很大时,如图1(b)所示的4个决策边界中,哪条线可能是有该正则方法得到的?L2、L3和L4 可以通过正则w2得到吗? (1)答案: L2不可以。当正则w2时,决策边界对x2的依赖越少,因此决策边界变得更垂直。而图中的L2看起来不正则的结果更水平,因此不可能为惩罚w2得到; L3可以。w2^2相对w1^2更小(表现为斜率更大),虽然该决策对训练数据的log概率变小(有被错分的样本); L...