R语言机器学习方法分析二手车价格影响因素
  MFqKcJmbshKy 2023年11月30日 33 0

分析师:Siming Yan

比较多种机器学习方法优劣性,分析二手车价格影响因素,训练模型预测二手车价格。

任务 / 目标

根据印度二手车交易市场1996-2019年数据,进行清洗,建模,预测。

数据源准备

7253笔交易数据包括汽车属性和交易日期、地点等信息。分析数据构成:

将数据分为NA和非NA组,分析缺失值是否均匀分布:

R语言机器学习方法分析二手车价格影响因素_缺失值

对于的因变量“交易价格”,可见其缺失值基本均匀分布。

R语言机器学习方法分析二手车价格影响因素_缺失值_02

R语言机器学习方法分析二手车价格影响因素_均匀分布_03

其他自变量的缺失值也基本均匀分布。

特征转换

对一些因变量进行dummy variable转换。对大数值变量如引擎容量,已行驶的公里数进行log transformation。

划分训练集和测试集

75% training data, 25 test data. RMSE作为衡量模型精度的标准。

R语言机器学习方法分析二手车价格影响因素_缺失值_04

建模

10 folds Validation when training models to choose best model tuning parameters .

R语言机器学习方法分析二手车价格影响因素_数据_05

1. Linear Regression with mixing Lasso & Ridge Penalty:

R语言机器学习方法分析二手车价格影响因素_均匀分布_06

包含三种模型的混合预测。

R语言机器学习方法分析二手车价格影响因素_均匀分布_07

Best tune: Alpha 0.25, lambda .053. RMSE 5.332

1.    Support Vector Machines with Radial Basis Function Kernel

R语言机器学习方法分析二手车价格影响因素_均匀分布_08

R语言机器学习方法分析二手车价格影响因素_均匀分布_09

R语言机器学习方法分析二手车价格影响因素_缺失值_10

Best tune: Cost(M) = 10.

R语言机器学习方法分析二手车价格影响因素_均匀分布_11

R语言机器学习方法分析二手车价格影响因素_缺失值_12

1. Random Forests:

R语言机器学习方法分析二手车价格影响因素_数据_13

随着随机选定的因变量数量提高,10 folds Cross Validation所展示的拟合效果也有波折地逐渐提高。

1.    Stochastic Gradient Boosting Machine

R语言机器学习方法分析二手车价格影响因素_均匀分布_14

调整的参数为树深,树层数达到6时拟合效果最好。

R语言机器学习方法分析二手车价格影响因素_均匀分布_15

R语言机器学习方法分析二手车价格影响因素_缺失值_16

模型优化

各个模型都进行了调参过程。主要依据为10 folds cross validation

结果

在此案例中,Stochastic Gradient Boosting Machine 所得到的RMSE值最小,预测效果最好。

R语言机器学习方法分析二手车价格影响因素_均匀分布_17

预测结果仅作为参考一个权重值,还需要专家意见,按照一定的权重来计算。

以下为预测集和测试集的部分展示:

R语言机器学习方法分析二手车价格影响因素_数据_18

关于分析师

R语言机器学习方法分析二手车价格影响因素_均匀分布_19

在此对Siming Yan对本文所作的贡献表示诚挚感谢,他专注数据采集,数据分析,机器学习领域。擅长R语言、Python、SQL、Tableau。

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月30日 0

暂无评论

推荐阅读
MFqKcJmbshKy