人工智能基础 - 过拟合、欠拟合-摩杜云开发者社区

人工智能基础 - 过拟合、欠拟合

h9htfs4cnhmS 2023年12月09日 20 0

拟合正则正则过拟合拟合过拟合

前面文章中，我们讲到，希望最终的模型在训练集上有很好的拟合（训练误差小），同时对测试集也要有较好的拟合（泛化误差小）

那么针对模型的拟合，这里引入两个概念：过拟合，欠拟合。

过拟合：是指我们在训练集上的误差较小，但在测试集上的误差较大；

欠拟合：在训练集上的效果就很差。

对于二分类数据，我们可以用下面三个图更直观的理解过拟合与欠拟合：

人工智能基础 - 过拟合、欠拟合_正则

一、欠拟合

首先来说欠拟合，欠拟合主要是由于学习不足造成的，那么我们可以通过以下方法解决此问题

1、增加特征

增加新的特征，或者衍生特征（对特征进行变换，特征组合）

2、使用较复杂的模型，或者减少正则项

其次讨论过拟合，为什么我们的模型会过拟合呢？这里，我总结了一下，将其原因分成两大类：

二、过拟合

1、样本问题

1）样本量太少：
样本量太少可能会使得我们选取的样本不具有代表性，从而将这些样本独有的性质当作一般性质来建模，就会导致模型在测试集上效果很差；

2）训练集、测试集分布不一致：

对于数据集的划分没有考虑业务场景，有可能造成我们的训练、测试样本的分布不同，就会出现在训练集上效果好，在测试集上效果差的现象；

3）样本噪声干扰大：
如果数据的声音较大，就会导致模型拟合这些噪声，增加了模型复杂度；

2、模型问题

1）参数太多，模型过于复杂，对于树模型来说，比如：决策树深度较大等。

3、解决方法

1）增加样本量：

样本量越大，过拟合的概率就越小（不过有的由于业务受限，样本量增加难以实现）；

2）减少特征：

减少冗余特征；

3）加入正则项：

损失函数中加入正则项，惩罚模型的参数，降低模型的复杂度（树模型可以控制深度等）；

4）集成学习：

练多个模型，将模型的平均结果作为输出，这样可以弱化每个模型的异常数据影响。

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇： iOS单元测试下一篇： Meta、Midjourney、DALL-E 3、 Adobe Firefly 绘图对比

分享：

最后一次编辑于 2023年12月09日 0

暂无评论

推荐阅读

人工智能基础 - 过拟合、欠拟合

h9htfs4cnhmS 2023年12月09日 21 0 0 拟合正则正则过拟合拟合过拟合

我对过拟合的理解

XI7yOoyRQ0u5 2023年12月23日 19 0 0 激活函数过拟合激活函数过拟合

Matlab实现快速傅里叶逆变换

NTGlKyq7MwNU 2023年11月20日 20 0 0 拟合傅里叶变换开发者开发者傅里叶变换拟合

基于lsqnonlin的电路参数拟合附matlab代码

sighgy4X1iDp 2023年12月08日 12 0 0 拟合数据 MATLAB 数据 MATLAB 拟合

人工智能基础 - 回归模型评估

h9htfs4cnhmS 2023年12月08日 26 0 0 方差回归模型评估拟合方差 MSE 回归模型评估拟合 MSE

中科院研究生院机器学习课程习题

uKHDYRvlooeP 2023年12月23日 17 0 0 正则化 logistic回归正则 logistic回归正则正则化

pytorch 模型过拟合

IinT9K6LsFrg 2023年11月27日 18 0 0 正则化过拟合数据正则化过拟合数据

利用大模型训练提升AI能力

vq0vV6F1YWYp 2023年12月23日 48 0 0 泛化泛化过拟合数据集数据集过拟合

新版MATLAB神经网络拟合是中文

dMIEwfNiKi33 2023年12月08日 17 0 0 神经网络拟合拟合 MATLAB 神经网络 MATLAB

金融大模型的微调实战

vq0vV6F1YWYp 2023年12月05日 27 0 0 拟合深度学习数据拟合数据深度学习

深度学习刘晓强老师-荣誉课程

RrmoR0FQ2v0k 2023年11月19日 19 0 0 权重权重过拟合神经网络神经网络过拟合

大模型训练的充分性判断

vq0vV6F1YWYp 2023年11月24日 18 0 0 正则化正则化数据数据过拟合过拟合

h9htfs4cnhmS

作者其他文章更多

Java 中设计模式

2023-12-31

Python面试题汇总

2023-12-24

人工智能相关数学 - 概率论

2023-12-23

人工智能基础 - 反向传播

2023-12-23

人工智能相关数学 - 极限

2023-12-23

人工智能基础 - 生成对抗网络（GAN）

2023-12-11

人工智能基础 - 机器学习算法分类

2023-12-10

人工智能基础 - 过拟合、欠拟合

2023-12-09

人工智能基础 - 回归模型评估

2023-12-08

人工智能基础 - Matplotlib

2023-12-07

最新推荐更多

聊聊大模型的屏蔽词工程

2024-04-16

深度学习基本概念简介

2024-04-16

读天才与算法：人脑与AI的数学思维笔记01_洛夫莱斯测试

2024-04-16

RAG算法优化+新增代码仓库支持，CodeGeeX的@repo功能效果提升

2024-04-16

机器学习基本概念简介

2024-04-15

GPT连问工具随想

2024-04-15

读所罗门的密码笔记20_更好的自己

2024-04-15

Pytorch DistributedDataParallel（DDP）教程一：快速入门理论篇

2024-04-15

Pytorch DistributedDataParallel（DDP）教程二：快速入门实践篇

2024-04-15

向量数据库之Lancedb学习记录

2024-04-15

读所罗门的密码笔记19_治理模式

2024-04-14

解密prompt系列27. LLM对齐经验之如何降低通用能力损失

2024-04-13

读所罗门的密码笔记18_大宪章

2024-04-13

向量数据库Chroma学习记录

2024-04-13

最全能的AI换脸软件，FaceFusion下载介绍（可直播）

2024-04-13

“大模型驱动的软件研发” 华为云助推企业研发智能化升级

2024-04-12

读所罗门的密码笔记17_网络安全

2024-04-12

基于香橙派AIpro将开源框架模型转换为昇腾模型

2024-04-12

元启发式算法库 MEALPY 初体验-遗传算法为例

2024-04-11

读所罗门的密码笔记16_直通心智

2024-04-11