机器学习:sklearn数据集简介
  TEZNKK3IfmPf 2023年11月12日 50 0
算法分类
监督学习 特征值 + 目标值
    -分类 目标值是离散数据
    -回归 目标值是连续数据

无监督学习  只有特征值
    -聚类
数据集

数据
-训练集 80% 70% 75%
-测试集 20% 30% 25%

数据拆分:
sklearn.model_selection.train_test_split

sklearn数据集

sklearn.datasets
	-小规模数据集
	    -datasets.load_*()
	    -已下载
	-大规模数据集
	    -datasets.fetch_*()
	    - 需要下载默认目录:~/scikit_learn_data/

数据类型

datasets.base.Bunch(字典格式)
    data:特征数据 二维数组[n_samples * n_features]
    target: 标签数组
    DESCR: 数据描述
    feature_names:特征名(新闻数据,手写数字,回归数据集没有)
    target_names:标签名

数据集介绍

分类数据集
    鸢尾花数据集 sklearn.datasets.load_iris
    新闻数据集 sklearn.datasets.fetch_20newsgroups

回归数据集
    波士顿房价数据集 sklearn.datasets.load_boston
    糖尿病数据集 sklearn.datasets.load_diabetes
【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月12日 0

暂无评论

推荐阅读
  TEZNKK3IfmPf   2023年11月14日   84   0   0 sklearn
  TEZNKK3IfmPf   2023年11月14日   55   0   0 sklearn
  TEZNKK3IfmPf   2023年11月14日   68   0   0 数据集
TEZNKK3IfmPf