摩杜云开发者社区-摩杜云

文章 | R语言k折交叉验证

“机器学习中需要把数据分为训练集和测试集，因此如何划分训练集和测试集就成为影响模型效果的重要因素。本文介绍一种常用的划分最优训练集和测试集的方法——k折交叉验证。”k折交叉验证 K折交叉验证(k-foldcross-validation)首先将所有数据分割成K个子样本，不重复的选取其中一个子样本作为测试集，其他K-1个样本用来训练。共重复K次，平均K次的结果或者使用其它指标，最终得到一个单一估测。这个方法的优势在于，保证每个子样本都参与训练且都被测试，降低泛化误差。其中，10折交叉验证是最常用的。实例  在线性分类器与性能评价(R语言)中，我们将数据集随机抽取70%作为训练集，剩...

AnyLlCIhvKpr 2023年11月12日 35 0 0 R语言开发 R语言教程

文章 | R语言中实现层次聚类模型

大家好！在这篇文章中，我将向你展示如何在R中进行层次聚类。 什么是分层聚类？分层聚类是一种可供选择的方法，它可以自下而上地构建层次结构，并且不需要我们事先指定聚类的数量。该算法的工作原理如下：将每个数据点放入其自己的群集中。确定最近的两个群集并将它们组合成一个群集。重复上述步骤，直到所有数据点位于一个群集中。一旦完成，它通常由树状结构表示。     让我们看看分层聚类算法可以做得多好。我们可以使用hclust这个。hclust要求我们以距离矩阵的形式提供数据。我们可以通过使用dist。默认情况下，使用完整的链接方法。这会生成以下树形图： &nbsp...

AnyLlCIhvKpr 2023年11月12日 19 0 0 R语言开发

文章 | R语言中的prophet预测时间序列数据模型

本文将针对R进行的几次建模练习的结果，以魁北克数据为依据，分为13年的训练和1年的测试。prophet与基本线性模型（lm），一般加性模型（gam）和随机森林（randomForest）进行了比较。首先，设置一些选项，加载一些库，并更改工作目录。读取魁北克的出生文件，建立一个data.table。创建培训和测试data.tables-使用前13年的每日数据进行培训，并使用第14年进行测试。定义两个小函数来计算均方根误差（rmse）和平均绝对百分比误差（mape），以评估预测模型的性能。越低越好。现在开始拟合基本的lm线性模型。第一个回归整数日期（ds）的三次样条上的日出生（y）...

AnyLlCIhvKpr 2023年11月12日 42 0 0 R语言开发

文章 | R语言中实现层次聚类模型

大家好！在这篇文章中，我将向你展示如何在R中进行层次聚类。 什么是分层聚类？分层聚类是一种可供选择的方法，它可以自下而上地构建层次结构，并且不需要我们事先指定聚类的数量。该算法的工作原理如下：将每个数据点放入其自己的群集中。确定最近的两个群集并将它们组合成一个群集。重复上述步骤，直到所有数据点位于一个群集中。一旦完成，它通常由树状结构表示。     让我们看看分层聚类算法可以做得多好。我们可以使用hclust这个。hclust要求我们以距离矩阵的形式提供数据。我们可以通过使用dist。默认情况下，使用完整的链接方法。这会生成以下树形图： &nbsp...

AnyLlCIhvKpr 2023年11月12日 19 0 0 R语言开发

文章 | R语言实现偏最小二乘回归法 partial least squares (PLS)回归

偏最小二乘回归是一种回归形式。 当使用pls时，新的线性组合有助于解释模型中的自变量和因变量。在本文中，我们将使用pls在“Mroz”数据集中预测“收入”。   library(pls);library(Ecdat) data("Mroz") str(Mroz)  'data.frame':    753 obs. of  18 variables:   $ work     &nb...

AnyLlCIhvKpr 2023年11月12日 25 0 0 R语言开发