【机器学习】竞赛中随机种子优化的秘密。
  BhYoICNPeXOn 2023年11月02日 75 0


作者:Agnis Liukis

随机种子优化

简 介

【机器学习】竞赛中随机种子优化的秘密。_计算机视觉

很多朋友会好奇,优化随机种子是否有任何的含义,这看起来就像是一个没什么意义的事情。但是曾今kaggle有个GM通过优化随机种子拿到了更好的成绩。

  • 平时我们通过改变随机种子,会发现CV分数的在某个值附近随机变化。

我们可以认为,CV值的变化并不意味着任何东西,并且纯粹基于不同随机种子的,更好CV分数的模型并不比使用原始种子训练的相同模型更好。那么什么时候我们需要考虑对随机种子进行优化呢?

随机种子的使用

【机器学习】竞赛中随机种子优化的秘密。_深度学习_02

01

关于随机种子

随机种子被机器学习模型用于各种任务(在所有需要随机性)。对于基于树的模型,随机性可以确保所有树都不相同且具有不同的拆分。在基于树的模型中,树的多样性越多,结果应该越好。

  • 在树模型中,随机种子影响(以随机方式)将要创建的树

02

一棵树会比另外一棵树好吗?

  • 是的,它可以。

例如,假设我们有两个特征。其中一个包含真实信号,但另一个包含大部分噪声。可能发生的情况是,

  • 在一个树中,通过降采样移除真实特征,从而在考虑可能的最佳分割时使其不适用于模型。因此,该模型将首先通过噪声特征创建分割。
  • 在其他树中,噪声特征可能会被移除,这意味着第一次分割将由强特征完成。在这种情况下,基于真实强特征的第二棵树通常会更好。

03

结论

从上面的例子中,我们知道:

如果一个随机种子幸运地生成了比其他种子更优的树,在这种情况下,用第一个种子训练的模型确实比用另一个种子训练出的模型更好,因为在噪声特征上具有更多分裂的较弱树。

结论

【机器学习】竞赛中随机种子优化的秘密。_机器学习_03

优化随机种子有意义吗?

  • 在大多数情况下,没任何意义;
  • 在某些特殊情况下,可能会有所不同。例如,如果满足以下两个条件:
  • 特征中存在预测能力特别强的结果。
  • 降采样或类似技术用于在每次迭代中随机丢弃特征子集。

在某些匿名的竞赛中尽可能多观察不同随机种子的结果,这个时候小小的发现或许能带来巨大的变化。

参考文献

【机器学习】竞赛中随机种子优化的秘密。_深度学习_04

  1. https://medium.com/p/cbf3678845ff
  2. https://www.kaggle.com/datasets/alijs1/artificial-data-leaks







【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读
BhYoICNPeXOn