应用pca和K-means实现用户对物品类别的喜好细分划分-摩杜云开发者社区

应用pca和K-means实现用户对物品类别的喜好细分划分

2cAl3H3soRUu 2023年12月23日 70 0

数据机器学习数据字段字段机器学习

应用pca和K-means实现用户对物品类别的喜好细分划分

应用pca和K-means实现用户对物品类别的喜好细分划分_数据

数据如下：

order_products__prior.csv：订单与商品信息字段：order_id, product_id, add_to_cart_order, reordered
products.csv：商品信息字段：product_id, product_name, aisle_id, department_id
orders.csv：用户的订单信息字段：order_id,user_id,eval_set,order_number,….
aisles.csv：商品所属具体物品类别字段： aisle_id, aisle

1.需求

应用pca和K-means实现用户对物品类别的喜好细分划分_字段_02

应用pca和K-means实现用户对物品类别的喜好细分划分_字段_03

2.分析

1.获取数据
2.数据基本处理

2.1 合并表格
2.2 交叉表合并
2.3 数据截取

3.特征工程 — pca
4.机器学习（k-means）
5.模型评估

sklearn.metrics.silhouette_score(X, labels)

计算所有样本的平均轮廓系数
X：特征值
labels：被聚类标记的目标值

3.完整代码

import pandas as pd
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
#导入数据
order_product = pd.read_csv("order_products__prior.csv")
products = pd.read_csv("products.csv")
orders = pd.read_csv("orders.csv")
aisles = pd.read_csv("aisles.csv")
#合并表格
table1 = pd.merge(order_product, products, on=["product_id", "product_id"])
table2 = pd.merge(table1, orders, on=["order_id", "order_id"])
table = pd.merge(table2, aisles, on=["aisle_id", "aisle_id"])
#交叉表合并
table = pd.crosstab(table["user_id"], table["aisle"])
#数据截取
table = table[:10000]
#特征工程PCA
transfer = PCA(n_components=0.9)
data = transfer.fit_transform(table)
#机器学习
estimator = KMeans(n_clusters=2, random_state=22)
y_predict = estimator.fit_predict(data)
#模型评估
a = silhouette_score(data, y_predict)
print(a)

运行结果

在这里我的运行结果有点低，但是看很多教程的模型评估分数可以达到0.89的样子，目前还不清楚问题出现在哪里，也希望懂这方面的朋友提出自己的意见和看法。

应用pca和K-means实现用户对物品类别的喜好细分划分_机器学习_04

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇：谷歌 | Imagen 2 正式推出、Gemini Pro 开放、Duet AI 上线... 下一篇：产学研三界顶级大咖分享：RISC-V场景Show暨开源生态高级别论坛定档12/19

分享：

最后一次编辑于 2023年12月23日 0

暂无评论

推荐阅读

数据抓取与数据挖掘之间的区别

bxzTbUwSHjCk 2023年12月23日 12 0 0 数据挖掘数据抓取数据数据数据挖掘数据抓取

讲解TypeError: Class advice impossible in Python3. Use the @Implementer class decorator instead

zzJeWaZlVwfH 2023年12月23日 15 0 0 修饰符静态方法静态方法数据修饰符数据

pytorch如何使用共享GPU内存

NLcs1gy52P40 2023年12月23日 15 0 0 ci 后向传播数据 ci 数据后向传播

人工智能中的文本分类：技术突破与实战指导

RV1gsisgsnyu 2023年12月23日 48 0 0 机器学习人工智能人工智能深度学习深度学习机器学习

Python学习中的Pond是什么

bxzTbUwSHjCk 2023年12月23日 71 0 0 数据数据 python 数据隐私 python 数据隐私

【洛谷 P1177】【模板】快速排序题解（快速排序+数组索引）

VJeqq9jk2lCR 2023年12月23日 96 0 0 快速排序数据快速排序 i++数据 i++

AI原力周末：深入大模型之心，勇闯技术深海

y8DNmPgHhyBv 2023年12月23日 11 0 0 数据实践项目自动构建自动构建数据实践项目

【洛谷 P1177】【模板】快速排序题解（快速排序+指针）

VJeqq9jk2lCR 2023年12月23日 105 0 0 快速排序数据快速排序 i++数据 i++

Echars数据可视化看板

2iBE5Ikkruz5 2023年12月23日 35 0 0 数据看板数据可视化看板数据数据可视化

数据分析复盘

dA1X1TyHw0ZU 2023年12月23日 15 0 0 数据数据分析数据数据分析代码示例代码示例

移动应用推广与数据分析系统

ZStR4ietTEBr 2023年12月23日 75 0 0 数据数据分析用户管理用户管理数据数据分析

中国数据分析期刊

F5MM6ELZe4VV 2023年12月23日 28 0 0 数据数据分析数据 python 数据分析 python

LLMs在纯文本数据与图数据结合的应用优势

DIPdWwN62aTc 2023年12月23日 61 0 0 语言模型神经网络数据数据语言模型神经网络

羚通视频智能分析平台车辆检测：科技引领交通管理新时代

bhI5HKfMRQFj 2023年12月23日 32 0 0 人工智能人工智能数据实时监控实时监控数据

羚通视频智能分析平台：改变工作服、安全帽检测的新视角

bhI5HKfMRQFj 2023年12月23日 15 0 0 模式识别图像处理数据图像处理数据模式识别

安全生产&消防应急AI盒子算法功能包含：安全帽检测工服/反光服烟火检测区域入侵测吸烟检测打电话检测消防车通道占用通道堵塞物品遗失睡岗/离岗跌倒检测电动车禁入电梯区域人数统计

qJw4LD4LsNzH 2023年12月23日 13 0 0 烟火检测安全生产&消防应急AI盒子算法烟火检测数据数据安全管理安全管理安全生产&消防应急AI盒子算法

2cAl3H3soRUu

作者其他文章更多

应用pca和K-means实现用户对物品类别的喜好细分划分

2023-12-23

最新推荐更多

中国GDP空间分布数据集【转】

2024-05-08

Docker 必知必会1----初识

2024-05-08

利用神经网络对脑电图(EEG)降噪------开源的、低成本、低功耗微处理器神经网络模型解决方案

2024-05-08

macOS 打开 Acrobat 时出错

2024-05-08

四元数在旋转变换和插值中的有趣的可视化解释

2024-05-04

Prometheus监控的4个黄金指标及示例

2024-05-01

使用 Office Tool Plus 免费激活 Office

2024-05-01

浅析OpenCV分水岭变换watershed函数的markers参数[C++]

2024-04-30

加速博客体验：静态资源优化技巧大揭秘！

2024-04-28

java实现遍历树形菜单方法——struts.xml实现

2024-04-26

什么是libtorch:

2024-04-26

java实现遍历树形菜单方法——Dao层

2024-04-26

【设计模式-2.4】创建型——抽象工厂模式

2024-04-26

使用Hutool工具包解析、生成XML文件

2024-04-26

【教你通透ELK】Elasticsearch 集群管理

2024-04-26

死信交换机&延迟队列

2024-04-26

el-table 在第一行添加合计行和操作按钮

2024-04-26

Myeclipse SVN 修改用户名和密码详解

2024-04-26

【设计模式-4.3】行为型——责任链模式

2024-04-26

【设计模式-3.2】结构型——适配器模式

2024-04-26