Kaggle操作完整指南(2023版)
  BhYoICNPeXOn 2023年12月22日 68 0


Kaggle注册

步骤1: https://www.kaggle.com/account/login

Kaggle支持两种注册,使用谷歌账号注册 或 邮箱注册。因为现在Kaggle被谷歌收购,推荐第一种方法,即使用谷歌账号/邮箱注册。

Kaggle操作完整指南(2023版)_开发语言

如果使用其他邮箱注册,建议使用稳定的邮箱,比如qq邮箱。不要用小众邮箱,邮箱关闭了你Kaggle账号的丢了。

步骤2:填写个人信息,这里需要验证码,需要网络代理(你要能上谷歌)。已经需要一个手机号码用于接收短信验证码。

Kaggle操作完整指南(2023版)_python_02

Kaggle参加比赛

步骤1:https://www.kaggle.com/competitions

先登录Kaggle账号,然后找到你要参加的比赛,并点击进去。

Kaggle操作完整指南(2023版)_数据集_03

步骤2:点击比赛页面的【Join Competition】,并点击【Accept】即可参赛。

Kaggle操作完整指南(2023版)_开发语言_04

Kaggle操作完整指南(2023版)_加载_05

Kernel使用与提交

Kernel基础介绍

Kaggle Kernel是Kaggle平台提供给选手的运行环境,可以视为一个在线的Notebook,在线的Nobteook可以用于运行自己的代码(与Kaggle比赛相关与否无所谓),也可以通过在线Notebook完成比赛的提交。

点击下图中的【Your work】可以找到你自己的Notebook。

Kaggle操作完整指南(2023版)_python_06

你可以在一个具体Kaggle比赛的的【Code】界面找到,和这个比赛相关的Notebook。这些Notebook都是和这个比赛相关的,有一些用于数据分析,也有一些是用于建模的。

Kaggle操作完整指南(2023版)_数据集_07

在比赛的【Code】页面,点击页面的右边【Hotness】的按钮,可以切换Notebook的排序方式,分别是按照【热度、点赞数、评论数、创建时间、运行时间、分数】排序。这里可以关注下按照【分数】排序,我们可以很方便的找到最高分数的分享。

Kaggle操作完整指南(2023版)_python_08

如果点击进入一个具体的Notebook,和如下界面类似,是Notebook的展示状态,也就是运行完成后的状态。具体的组成元素如下图所示,此时可以点击【Copy and Edit】将这个Notebook fork一份,也就是复制一份为自己的。

Kernel运行和提交

如果点击【Copy and Edit】或在Kaggle上任意界面点击【New Notebook】,都会进入Notebook的编辑状态,Notebook的编辑状态和Jupyter Notebook没有什么区别,主要的界面组成元素有:

  • 代码编辑区:运行代码,也支持Markdown格式;
  • 数据集(Dataset):加载比赛数据集 或 模型 或 库安装代码
  • 运行设置:代码运行配置
  • Environment:运行环境,这个不用动;
  • Accelerator:CPU/GPU/TPU
  • GPU Quota:GPU每周运行时长
  • Internel:是否联网
  • Language:运行语言,Python或者R

Kaggle操作完整指南(2023版)_python_09

【注意】对于Kernel比赛,必须要从Notebook提交,此时模型预测代码不能联网,所以需要在关闭Internet的情况下完成【库安装】、【模型加载】和【模型预测】。

如果点击Notebook的编辑状态下右上角的【Save Version】按钮,会弹出以下界面。

  • Save & Run All:会把Notebook从零从头运行;
  • Quick Save:将当前的代码状态保存下来;

Kaggle操作完整指南(2023版)_开发语言_10

如果点击【Save Version】,选择【Save & Run All】,Notebook会进入运行状态。

可以从屏幕左下角的时钟,看到代码正在运行,Running表示正在运行。如果是Queue表示在运行队列中(一个一个运行),可能之前的Notebook还在运行,可以手动Stop其他的Notebook。

如果Notebook已经提交,可以关闭Notebook编辑页面。打开Notebook的展示页面,可以点击右边的Version 6 of 6,找到提交代码运行信息,此时Notebook是运行状态。

Kaggle操作完整指南(2023版)_数据集_11

当Notebook运行完成,又进入了展示状态。可以在展示状态的Notebook的右边的Output菜单找到代码的输出。点击Submit按钮进行提交,Notebook进入了提交状态。

Kaggle操作完整指南(2023版)_加载_12

在比赛的【My Submission】可以看到提交的Notebook,等到运行完成后就可以得到分数。

Dataset使用

Dataset创建和上传

Dataset是Kaggle提供的用于存放数据和模型的工具,在Kernel赛中模型加载必须从Dataset加载。创建Dataset操作如下所示。

Kaggle操作完整指南(2023版)_加载_13

上传数据需要开代理,不开代理肯定无法上传。

当Dataset创建之后,可以点击右边虚线,然后选择【New version】对数据集进行管理,可以继续上传,也可以删除文件。

Kaggle操作完整指南(2023版)_人工智能_14

Dataset使用

Dataset主要是用来Kernel在不联网时加载模型、安装库。在Notebook的编辑状态,点击右边的【Add data】可以加载Dataset。

Kaggle操作完整指南(2023版)_python_15

  • Dataset:自己的数据集,或者别人数据集。
  • Competition Data:比赛数据。
  • Notebook Output files:Notebook运行后的输出,可以选自己的,也可以选其他人公开的。

Kaggle操作完整指南(2023版)_人工智能_16

当数据集加载后,可以把鼠标放到上面,可以直接复制得到路径。

注意Dataset路径,不然代码直接报错。

Kaggle Kernel 的操作过程如上所示,整体可以分为不同的状态。如果读者之前对 Github 比较熟悉,这里应该可以很快的上手。为 Kaggle 平台整体的操作流程,按照不同的操作得到不同状态的 Notebook。

Kaggle组队

在比赛的【Team】界面完成,输入其他队伍的名称。

Kaggle反作弊机制

作弊行为

  • 私下共享代码,不组队;
  • 私下共享Dataset,不组队;
  • 一台机器或一个IP登陆多个账号;
  • 别人帮我提交代码或CSV;

非作弊行为

  • 跑公开Notebook,提交;
  • 使用其他人公开的Dataset,提交;

所有Kaggle官网能看到的Notebook和Dataset,都是公开的,都可以使用,都不算作弊。



【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年12月22日 0

暂无评论

推荐阅读
  fwjWaDlWXE4h   17小时前   5   0   0 Python
BhYoICNPeXOn