摩杜云开发者社区-摩杜云

文章 | ggplot2如何在R语言中绘制表格

偶尔我想在R中的图表旁边绘制一个表格，例如，以显示图表本身的摘要统计数据。这非常简单。该函数tableGrob创建像一个数据帧的曲线图的表，安排ggplot2图形对象的网页上。这是一个小例子：     R version 3.2.1 (2015-06-18) Platform: x86_64-apple-darwin13.4.0 (64-bit) Running under: OS X 10.10.4 (Yosemite) locale: [1] en_GB....

TEZNKK3IfmPf 2023年11月15日 19 0 0 R语言开发表格

文章 | r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现

介绍 Glmnet是一个通过惩罚最大似然来拟合广义线性模型的包。正则化路径是针对正则化参数λ的值网格处的套索或弹性网络罚值计算的。该算法速度极快，可以利用输入矩阵中的稀疏性x。它符合线性，逻辑和多项式，泊松和Cox回归模型。可以从拟合模型中做出各种预测。它也可以适合多响应线性回归。 glmnet算法采用循环坐标下降法，它连续优化每个参数上的目标函数并与其他参数固定，并反复循环直至收敛。该软件包还利用强大的规则来有效地限制活动集。由于高效的更新和技术，如热启动和主动集合收敛，我们的算法可以非常快地计算解决方案路径。该代码可以处理稀疏的输入矩阵格式，以及系数的范围约束。其核心glmnet是一组...

TEZNKK3IfmPf 2023年11月15日 21 0 0 R语言开发

文章 | R语言中Gibbs抽样的Bayesian简单线性回归

贝叶斯分析的许多介绍都使用了相对简单的教学实例（例如，根据伯努利数据给出成功概率的推理）。虽然这很好地介绍了贝叶斯原理，但是这些原则的扩展并不是直截了当的。这篇文章将概述这些原理如何扩展到简单的线性回归。我将导出感兴趣参数的后验条件分布，给出用于实现Gibbs采样器的R代码，并提出所谓的网格点方法。   假设我们观察数据对于我们的模型是有兴趣的是作出推论如果我们在方差项之前放置正态前向系数和反伽马，那么这个数据的完整贝叶斯模型可以写成：假设超参数是已知的，后面可以写成一个常数的比例，括号中的术语是数据或可能性的联合分布。其他条款包括参数的联合先验分...

TEZNKK3IfmPf 2023年11月15日 25 0 0 R语言开发

文章 | R语言中的LDA模型：对文本数据进行主题模型topic modeling分析

主题建模在文本挖掘中，我们经常收集一些文档集合，例如博客文章或新闻文章，我们希望将其分成组，以便我们可以分别理解它们。主题建模是对这些文档进行无监督分类的一种方法，类似于对数字数据进行聚类，即使我们不确定要查找什么，也可以找到分组。潜在狄利克雷分配（LDA）是拟合主题模型特别流行的方法。它将每个文档视为主题的混合体，并将每个主题看作是单词的混合体。这允许文档在内容方面相互“重叠”，而不是分离成离散的组，以反映自然语言的典型用法。结合主题建模的文本分析流程图。topicmodels包采用Document-TermMatrix作为输入，并生成一个可以通过tidytext进行处理的模型，以...

TEZNKK3IfmPf 2023年11月12日 35 0 0 R语言开发

文章 | R语言BUGS/JAGS贝叶斯分析: 马尔科夫链蒙特卡洛方法（MCMC）采样

在许多情况下，我们没有足够的计算能力评估空间中所有n维像素的后验概率 。在这些情况下，我们倾向于利用称为Markov-ChainMonteCarlo 算法的程序 。此方法使用参数空间中的随机跳跃来（最终）确定后验分布。MCMC的关键如下：跳跃概率的比例与后验概率的比例成正比。跳跃概率可以表征为：概率（跳跃）概率（接受）从长远来看，该链将花费大量时间在参数空间的高概率部分，从而实质上捕获了后验分布。有了足够的跳跃，长期分布将与联合后验概率分布匹配。 MCMC本质上是一种特殊类型的随机数生成器，旨在从难以描述（例如，多元，分层）的概率分布中采样。在许多...

TEZNKK3IfmPf 2023年11月15日 31 0 0 R语言开发

文章 | R语言使用ARIMA模型预测股票收益时间序列

“预测非常困难，特别是关于未来”。丹麦物理学家尼尔斯·波尔（NeilsBohr）很多人都会看到这句名言。预测是这篇博文的主题。在这篇文章中，我们将介绍流行的ARIMA预测模型，以预测股票的收益，并演示使用R编程的ARIMA建模的逐步过程。时间序列中的预测模型是什么？预测涉及使用其历史数据点预测变量的值，或者还可以涉及在给定另一个变量的值的变化的情况下预测一个变量的变化。预测方法主要分为定性预测和定量预测。时间序列预测属于定量预测的范畴，其中统计原理和概念应用于变量的给定历史数据以预测同一变量的未来值。使用的一些时间序列预测技术包括：自回归模型（AR）移动平均模型（MA）季节回归...

AnyLlCIhvKpr 2023年11月12日 36 0 0 R语言开发

文章 | R语言随机搜索变量选择SSVS估计贝叶斯向量自回归（BVAR）模型

介绍向量自回归（VAR）模型的一般缺点是，估计系数的数量与滞后的数量成比例地增加。因此，随着滞后次数的增加，每个参数可用的信息较少。在贝叶斯VAR文献中，减轻这种所谓的维数诅咒的一种方法是随机搜索变量选择（SSVS），由George等人提出（2008）。SSVS的基本思想是将通常使用的先验方差分配给应包含在模型中的参数，将不相关参数的先验方差接近零。这样，通常就可以估算出相关参数，并且无关变量的后验值接近于零，因此它们对预测和冲激响应没有显着影响。这是通过在模型之前添加层次结构来实现的，其中在采样算法的每个步骤中评估变量的相关性。这篇文章介绍了使用SSVS估计贝叶斯向量自回归（BVAR...

TEZNKK3IfmPf 2023年11月12日 25 0 0 R语言开发

文章 | R语言文本主题模型之潜在语义分析（LDA:Latent Dirichlet Allocation）

文本分析：主题建模 library(tidyverse) theme_set( theme_bw())  目标定义主题建模解释LatentDirichlet以及此过程的工作原理演示如何使用LDA从一组已知主题中找到主题结构演示如何使用LDA从一组未知主题中找到主题结构确定k 选择适当参数的方法主题建模   通常，当我们在线搜索信息时，有两种主要方法：关键字使用搜索引擎并输入与我们想要查找的内容相关的单词链接。链接的页面可能共享相似或相关的内容。另一种方法是通过主题搜索和探索文档。广泛的主题可能与文章中的各个部分（国家事务，体育）有关，但这...

TEZNKK3IfmPf 2023年11月15日 16 0 0 R语言开发 R语言教程

文章 | R语言Poisson回归的拟合优度检验

在这篇文章中，我们将看一下Poisson回归的拟合优度测试与个体计数数据。许多软件包在拟合Poisson回归模型时在输出中提供此测试，或者在拟合此类模型（例如Stata）之后执行此测试，这可能导致研究人员和分析人员依赖它。在这篇文章中，我们将看到测试通常不会按预期执行，因此，我认为，应该谨慎使用。偏差拟合度检验由于偏差度量衡量了模型预测与观察结果的接近程度，我们可能会考虑将其作为给定模型拟合度检验的基础。虽然我们希望我们的模型预测接近观察到的结果，但即使我们的模型被正确指定，它们也不会相同毕竟，模型给出了观察所遵循的泊松分布的预测平均值。因此，为了将偏差用作拟合优度检验，我们需要弄清楚...

TEZNKK3IfmPf 2023年11月12日 32 0 0 R语言开发

文章 | R语言风险价值VaR（Value at Risk）和损失期望值ES（Expected shortfall）的估计

首先明确：时间范围-我们展望多少天？概率水平-我们怎么看尾部分布？在给定时间范围内的盈亏预测分布，示例如图1所示。   图1：预测的损益分布  给定概率水平的预测的分位数。图2：带有分位数的预测损益分布  超出分位数的尾部。图3：带有分位数和尾部标记的预测损益分布  方法   风险值（VaR）是在所选概率水平下预测分布分位数的负数。因此，图2和3中的VaR约为110万元。损失期望值（ES）是超出VaR的尾部预期值的负值（图3中的黄金区域）。因此，它总是比相应的VaR大。别名损失期望值损失期望值有很多别名...

TEZNKK3IfmPf 2023年11月15日 19 0 0 R语言开发数据分析

文章 | 用R语言模拟混合制排队随机服务排队系统

该系统的基本参数:: 使用M/M/1系统进行仿真非常简单。  lambda<2mu<4rho<lambda/mu=2/4.. 例如，可以快速可视化随时间变化的资源使用情况。在下面，我们可以看到仿真如何收敛到系统中理论上的平均客户数。 Theoreticalvaluemm1.N<rho/(1-rho)graph+geom_hline(yintercept=mm1.N)   例如，还可以通过使用参数items和来可视化各个元素的瞬时steps。   我们可以获取系统中每个客户花费的时间，并将平均值与理论表达式进行比较。 [1]0.5 [...

TEZNKK3IfmPf 2023年11月15日 32 0 0 R语言开发编程开发

文章 | R语言线性分类判别LDA和二次分类判别QDA实例

一、线性分类判别对于二分类问题，LDA针对的是：数据服从高斯分布，且均值不同，方差相同。概率密度： p是数据的维度。分类判别函数：可以看出结果是关于x的一次函数：wx+w0，线性分类判别的说法由此得来。参数计算：   二、二次分类判别对于二分类问题，QDA针对的是：数据服从高斯分布，且均值不同，方差不同。数据方差相同的时候，一次判别就可以，如左图所示;但如果方差差别较大，就是一个二次问题了，像右图那样。  从sklearn给的例子中，也容易观察到： QDA对数据有更好的适用性，QDA判别公式：   三、Fisher判据　　A-Fish...

TEZNKK3IfmPf 2023年11月12日 40 0 0 R语言开发

文章 | R语言蒙特卡洛计算和快速傅立叶变换计算矩生成函数

 对精算科学来说，当我们处理独立随机变量的总和时，特征函数很有趣，因为总和的特征函数是特征函数的乘积。  介绍在概率论中，让  和  是一些随机变量的累积分布函数 。什么是矩生成函数  ？如何编写  ？在概率教科书中，标准答案是如果  是离散的如果  （绝对）连续，  。这里， ，对所有    我们有一个不连续的0。因此，我们在这里必须谨慎一些：  既不是连...

TEZNKK3IfmPf 2023年11月15日 30 0 0 R语言开发函数

文章 | R语言使用倾向评分提高RCT（随机对照试验）的效率

倾向评分已成为观察性研究中混杂因素调整的常用方法。基本思想是模拟接受治疗或暴露的概率如何取决于混杂因素，即要治疗的“倾向”。  首先要注意的是，人们不会认为倾向评分在RCT中起作用。如上所述，倾向评分用于调整观察性研究中的混淆。在RCT中，随机化确保治疗和其他基线变量在统计学上是独立的，即没有混淆。那么倾向得分有什么用呢？   治疗加权方法的逆概率在论文中，Williamson，Forbes和White描述了如何使用倾向得分来获得效率提高的治疗效果评估（较小的标准误差）。该方法与标准方法相同，其中人们估计倾向评分模型，然后拟合通过倾向评分的倒数加权的结果模型。因此，在第...

TEZNKK3IfmPf 2023年11月15日 29 0 0 R语言开发

文章 | R语言GAM（广义相加模型）对物业耗电量进行预测

  人们对于电力的需求与依赖随着生活水平的提高而不断加深，用电负荷预测工作开始变得越来越重要，如果可以发现用电负荷的规律性，我们就可以合理安排用电负荷。我们使用某商业物业两个星期的电耗数据进行分析。 GAM模型当因变量和自变量不呈线性关系时,可用广义相加模型（GAM）。GAM模型的优点，在于其解决响应变量与预测因子间的高度非线性和非单调关系方面的突出能力，是一种基于数据的模型（data-driven），数据决定着响应变量和预测因子之间的关系。电耗数据不是线性的，同时是一个有季节趋势的时间序列趋势。那么GAM模型是否可以用来预测时间序列呢？首先绘制出用电量的时间序列图，看下趋势...

TEZNKK3IfmPf 2023年11月15日 26 0 0 R语言开发数据分析

文章 | R语言CRAN软件包Meta分析

我一直在寻找各种方法来查找有关R包的信息，但我最近才了解CRAN_package_db()了基本tools包中的函数。如果一位同事没有向我指出，我确信我永远不会自己找到它。当被调用时，这个函数发送到由环境变量指定的CRAN镜像，R_CRAN_WEB并返回一个数据帧，其中包含有关CRAN上当前每个包的大量信息。它是元数据的宝库。作为处理角色数据的一个例子。我有兴趣了解编写典型R包所需的协作感，以及感受其他包开发人员对包的适用性。我选择进行协作的代理是每个软件包列出的作者数量。我对其他软件包开发人员有用的代理是反向依赖和反向导入的联合。我做的第一件事是选择数据框的一个子集来处理。 &nbs...

TEZNKK3IfmPf 2023年11月12日 75 0 0 R语言开发编程开发

文章 | 在R语言中实现Logistic逻辑回归

逻辑回归是拟合回归曲线的方法，当y是分类变量时，y=f（x）。典型的使用这种模式被预测Ÿ给定一组预测的X。预测因子可以是连续的，分类的或两者的混合。R中的逻辑回归实现 R可以很容易地拟合逻辑回归模型。要调用的函数是glm()，拟合过程与线性回归中使用的过程没有太大差别。在这篇文章中，我将拟合一个二元逻辑回归模型并解释每一步。数据集我们将研究泰坦尼克号数据集。这个数据集有不同版本可以在线免费获得，但我建议使用Kaggle提供的数据集。目标是预测生存（如果乘客幸存，则为1，否则为0）基于某些诸如服务等级，性别，年龄等特征。我们将使用分类变量和连续变量。数据清理过程在处理真实数据集时，我们需...

TEZNKK3IfmPf 2023年11月12日 60 0 0 R语言开发

文章 | R语言鸢尾花iris数据集的层次聚类分析

介绍本文在数据集上展示了如何使用dendextendR软件包来增强HierarchicalClusterAnalysis（更好的可视化和灵敏度分析）。背景加载数据 iris <- datasets::iris iris2 <- iris[,-5] species_labels <- iris[,5] library(colorspace)  颜色包 species_col <- rev(rainbow_hcl(3))[as.numeric(species...

TEZNKK3IfmPf 2023年11月12日 24 0 0 R语言开发

文章 | R语言中使用非凸惩罚函数回归(SCAD、MCP)分析前列腺数据

本文使用lasso或非凸惩罚拟合线性回归，GLM和Cox回归模型的正则化，特别是最小最大凹度惩罚函数(MCP)和光滑切片绝对偏差惩罚（SCAD），以及其他L2惩罚的选项（“弹性网络”）。还提供了用于执行交叉验证以及拟合后可视化，摘要，推断和预测的实用程序。我们研究 前列腺数据，它具有8个变量和一个连续因变量，即将进行根治性前列腺切除术的男性的PSA水平（按对数尺度）： X <- data$X y <- data$y 要将惩罚回归模型拟合到此数据，执行以下操作： reg(X, y) 此处的默认惩罚是最小最大凹度惩罚函数(...

TEZNKK3IfmPf 2023年11月12日 20 0 0 R语言开发数据分析

文章 | R语言调整随机对照试验中的基线协变量

随机对照试验构成通常被认为是用于评估某些干预或感兴趣治疗效果的金标准设计。参与者被随机分配到两个（有时更多）的群体这一事实确保了，至少在期望中，两个治疗组在测量的，重要的是可能影响结果的未测量因素方面是平衡的。因此，两组之间结果的差异可归因于随机化治疗而不是对照（通常是另一种治疗）的效果。   如果随机化没有受到影响，即使不调整任何基线协变量，试验的治疗效果估计也是无偏的。即使在各组之间的某些基线变量出现不平衡的情况下也是如此。这是因为偏差被定义为估计量（由我们的统计程序给出，如线性回归）是否在重复样本中具有等于目标参数的期望。有时估计值会高于真实值，有时低于真实值，但只要平均值等...

TEZNKK3IfmPf 2023年11月12日 37 0 0 R语言开发 R语言教程