【Kaggle】AAAMLP读书笔记 1 - 3章-摩杜云开发者社区

【Kaggle】AAAMLP读书笔记 1 - 3章

uKHDYRvlooeP 2023年12月05日 13 0

损失函数 SNE 损失函数 SNE Kaggle Kaggle

本人希望从0开始，自己的Kaggle竞赛

12月拿到自己的第一块Kaggle奖牌
短期内读完Abhishek Thakur的Approaching (Almost) Any Machine Learning Problem并且发博客记录https://github.com/abhishekkrthakur/approachingalmost
12月至少发21篇博客
每天保持八小时的学习时间

Supervised vs unsupervised learning

本章节中，作者使用t-SEN对MNIST数据集进行可视化

t-SNE

1.算法期望解决的问题

将高维数据映射到低维，并且保持数据的相对关系不变。

2.算法的内核

算法是基于数据直接的相对距离的，希望高维和低维的相对距离尽可能的相等。

1、拥挤问题

对于某一个高位的点O，与其对应的点的集合Q，要被映射为点O‘，和集合Q'，显然|Q'| << |Q|，这导致了对于同一个高高纬点可能映射为相同的低纬点，造成拥挤问题。https://zhuanlan.zhihu.com/p/27488363

为了解决以上问题，我们需要在不同的维度上计算距离，并且计算两个距离的损失函数，进行梯度下降。

由于不同维度下的损失函数的量纲不同，所以我们使用概率分布：

高维：

【Kaggle】AAAMLP读书笔记 1 - 3章_Kaggle

低维：

【Kaggle】AAAMLP读书笔记 1 - 3章_SNE_02

我们使用相对熵（Mutual entropy，也叫做KL散度，Kullback-Leibler divergences，KLD）来作为损失函数：

【Kaggle】AAAMLP读书笔记 1 - 3章_Kaggle_03

我们把高纬数据放在左侧和上方，这样会更好的保存高维数据的局部特征

【Kaggle】AAAMLP读书笔记 1 - 3章_Kaggle_04

二维平面上相对远的点，不一定就不相似，但二维平面上相对进的点，一定相似。

局部特征体现在如上。

例如我使用书中的例子对于MNIST进行T-SNE分类结果如下

【Kaggle】AAAMLP读书笔记 1 - 3章_损失函数_05

对于图片来说，它更关注高纬度的局部信息，这导致距离近的更可能是同一类点，但是距离远的点不一定是不同类的点

例如绿色的点

Cross-validation

Over-Fitting

过拟合以下简称OF，对于OF的出现时间有一个有趣的讨论，例如下图的决策树的deep和acc之间的关系

【Kaggle】AAAMLP读书笔记 1 - 3章_损失函数_06

大家认为OF是发生在14还是更早期？

【Kaggle】AAAMLP读书笔记 1 - 3章_损失函数_07

文中又给出了这张图，但是实际情况中，Val的loss最小时，可能Train的loss和val的loss的差值已经非常大了。

【Kaggle】AAAMLP读书笔记 1 - 3章_SNE_08

所以实际应用中过拟合模型还是占据大部分。

stratified k-fold cross-validation 分层交叉验证

这是这节的关键内容，主要针对的是数据量较小的情况，当数据量较大时，可以进行随意分组，每个分组的数据分布将会非常接近。

而对于数据分布不均匀的分类问题时，要使用stratified k-fold cross-validation进行验证。

【Kaggle】AAAMLP读书笔记 1 - 3章_SNE_09

而对于回归问题，我们可以使用Num of bins来计算分层的指标。

【Kaggle】AAAMLP读书笔记 1 - 3章_SNE_10

被称为Sturge’s rule

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇： Simulink建模与仿真（10）-Simulink混合系统模型及表示下一篇： TEMU三季度销售额或达50亿美金，多多跨境已成第二增长引擎

分享：

最后一次编辑于 2023年12月05日 0

暂无评论

推荐阅读

基于相互一致性训练的半监督左心房分割

24eTNZKd6a8S 2023年12月23日 18 0 0 数据库 3D 损失函数损失函数 3D 数据库

【Kaggle】AAAMLP读书笔记 1 - 3章

uKHDYRvlooeP 2023年12月05日 14 0 0 损失函数 SNE 损失函数 SNE Kaggle Kaggle

人工智能基础 - 反向传播

h9htfs4cnhmS 2023年12月23日 20 0 0 反向传播损失函数损失函数反向传播神经网络神经网络

深度学习单输入多输出

2iBE5Ikkruz5 2023年12月08日 18 0 0 损失函数深度学习多任务损失函数深度学习多任务

基于Gan的穿搭变换模型

McIyPvVWb3CB 2023年11月30日 15 0 0 损失函数图像合成 API 损失函数图像合成 API

深度学习和神经网络

nf1vV6jNCjlb 2023年12月23日 78 0 0 损失函数深度学习损失函数深度学习神经网络神经网络

pytorch how to make your own loss class

cxTyXg4sP4oA 2023年12月23日 49 0 0 损失函数 python 自定义 python 损失函数自定义

pytorch 深度学习

bwoB4I9EHr4O 2023年12月05日 20 0 0 损失函数深度学习 python python 深度学习损失函数

【Kaggle】AAAMLP读书笔记 Cat-in-the-dat II

uKHDYRvlooeP 2023年12月23日 58 0 0 Kaggle AAAMLP Kaggle AAAMLP

机器学习反向求导

3gUwWrUjKUPZ 2023年12月23日 61 0 0 损失函数 Python 线性回归损失函数线性回归 python

uKHDYRvlooeP

作者其他文章更多

【Kaggle】AAAMLP读书笔记 Cat-in-the-dat II

2023-12-23

中科院研究生院机器学习课程习题

2023-12-23

【Kaggle】AAAMLP读书笔记 Cat-in-the-dat II （优化）

2023-12-23

高级计算机网络课程结课论文——《5G AKA协议安全性分析综述》

2023-12-11

【Kaggle】AAAMLP读书笔记

2023-12-09

【Kaggle】AAAMLP读书笔记

2023-12-07

【Kaggle】AAAMLP读书笔记 1 - 3章

2023-12-05

最新推荐更多

【日记】母亲生日，我在跟数字人民币 Battle（612 字）

2024-05-18

FFmpeg开发笔记（二十一）Windows环境给FFmpeg集成AVS3解码器

2024-05-18

Qt学习第二篇（基本小组件的使用）

2024-05-18

全网首一份！你最需要的PPTP MS-CHAP V2 挑战响应编程模拟计算教程！代码基于RFC2759，附全部源码！

2024-05-18

Python 潮流周刊#51：用 Python 绘制美观的图表

2024-05-18

Django测试与持续集成：从入门到精通

2024-05-18

自研WPF插件系统(沙箱运行及热插拔)

2024-05-18

记一次asp.net 8 服务器爆满的解决过程

2024-05-18

非常全能WinForm 开发框架 - ReaLTaiizor

2024-05-18

C#反射

2024-05-18

net core jwt的基本原理和实现

2024-05-18

VUE3/JAVA 操作系统开发日志[day 1]

2024-05-18

Nginx R31 doc 官方文档-01-nginx 如何安装

2024-05-18

2024 年 5 月 8 日周三晴热（471 字）

2024-05-17

2024 年 5 月 9 日周四阴常（137 字）

2024-05-17

2024 年 5 月 10 日周五阴凉（1025 字）

2024-05-17

lua~基本语法

2024-05-17

2024 年 5 月 12 日母亲节周日晴常（197 字）

2024-05-17

2024 年 5 月 13 日周一晴热（376 字）

2024-05-17

2024 年 5 月 14 日周二多云热（270 字）

2024-05-17