摩杜云开发者社区-摩杜云

Decision Curve Analysis-1-二分类模型的决策曲线绘制

我整理了《BAT常见机器学习算法面试题1000题》，供大家学习和参考。资源获取方式：（1）打开v搜索：医学大数据与人工智能，并关注。（2）在对话框中输入：E001，即可获取资源地址。诊断和预后模型通常使用准确性指标进行评估，如曲线下面积(AUC)或Brier评分，这些指标不涉及临床结果。决策分析技术可以评估临床结果，但通常需要收集大量额外的信息，而且应用于从0到1的连续风险估计的模型很麻烦。决策曲线分析允许合并临床结果，从而解决了一个模型是否利大于弊的问题，但能够在没有过多的外部数据的情况下做到这一点。本文将介绍如何在各种不同的设置中执行决策曲线分析，然后如何解释生成的曲线。在决策曲线...

IwAQx7pW1xBE 2023年11月02日 27 0 0 统计模型决策曲线分析决策曲线分析统计模型

史上最易上手的医疗过程挖掘指南！

回复我们公众号“1号程序员”的“E001”可以获取《BAT机器学习面试1000题》下载链接。[关注“1号程序员”，并回复：【E001】]  本文是以下系列教程的第一篇文章: 第1部分(本文)：过程挖掘、数据预处理和初始数据探索。第2部分：使用PM4Py(Python)库应用AlphaMiner算法进行过程发现。第3部分：其他过程发现算法和模型表示。第4部分：更全面的模型，集成控制过程、时间(如瓶颈、等待时间)、资源(如人员能力和绩效、人员间关系、科室/病房能力和绩效)、病例属性(如患者人口特征、临床状况)等。我们将学习以医疗保健为应用场景的一系列动手案例。文末提供本文中涉...

IwAQx7pW1xBE 2023年11月02日 80 0 0 过程模型数据过程模型数据

逻辑回归入门介绍

本文所有内容整理自网络。完整内容可以点击这里获取：完整资料下载地址 Logistic回归是一种监督式机器学习算法，主要用于分类任务，其目标是预测一个实例属于给定类别的概率。它是一种统计算法，用于分析一组自变量与依赖的二进制变量之间的关系。它是一种强大的决策工具，例如用于判断电子邮件是否为垃圾邮件。其名称中之所以有"regression"，是因为它将线性回归函数的输出作为输入，并使用Sigmoid函数来估计属于给定类别的概率。线性回归和logistic回归之间的区别在于，线性回归的输出是连续值，可以是任何值，而logistic回归预测一个实例属于给定类别的概率。 Logistic函数（Sigmo...

IwAQx7pW1xBE 2023年11月02日 91 0 0 拟合逻辑回归 logistic回归逻辑回归 logistic回归拟合

线性回归基本原理和公式推导

本文所有内容整理自网络。完整内容可以点击这里获取：完整资料下载地址前言线性回归是一种监督式机器学习算法，它计算因变量与一个或多个独立特征之间的线性关系。当独立特征的数量为1时，被称为单变量线性回归；在存在多于一个特征的情况下，被称为多变量线性回归。该算法的目标是找到最佳的线性方程，以便基于独立变量预测因变量的值。该方程提供了一条直线，表示因变量和独立变量之间的关系。直线的斜率表明因变量在独立变量发生单位变化时的变化量。线性回归在许多不同领域中被使用，包括金融、经济学和心理学，用于理解和预测特定变量的行为。例如，在金融领域，线性回归可能被用于理解公司股价与其收益之间的关系，或者根据货币过去...

IwAQx7pW1xBE 2023年11月02日 38 0 0 拟合代价函数线性回归线性回归代价函数拟合

一文了解机器学习中分类和回归的差异

本文所有内容整理自网络。完整内容可以点击这里获取：完整资料下载地址前言分类和回归是数据挖掘和机器学习中常见的两个预测问题。分类算法分类算法是拟合一个模型或函数的过程，该模型或函数有助于将数据分为多个类别，即离散值。在分类中，根据输入中给定的一些参数，数据被分类到不同的标签下。在分类任务中，我们应该使用独立特征来预测离散的目标变量（类别标签）。在分类任务中，我们需要找到一个决策边界，可以将目标变量中的不同类别分开。得到的映射函数可以用“IF-THEN”规则的形式来展示。分类任务处理的问题中，数据可以被划分为二分类或多个离散标签的情况。让我们举一个例子，假设我们想要根据历史记录中...

IwAQx7pW1xBE 2023年11月02日 67 0 0 分类算法线性回归数据线性回归数据分类算法

基于电子病历的数据挖掘

完整机器学习/数据挖掘面试题可以点击这里获取：完整资料下载地址为贯彻落实《中共中央国务院关于深化医药卫生体制改革的意见》的文件精神，卫生部先后在2010，2011发布了关于电子病历系统的规范和通知文件，包括印发《电子病历基本规范（试行）》的通知，关于开展电子病历试点工作的通知，印发《电子病历系统功能规范（试行）》的通知，关于推进以电子病历为核心的医院信息化建设试点工作的通知等。一系列的政策使电子病历的实施得到普及。随着电子病历数据量的急剧增长，电子病历数据库已经积累了海量的数据，形成医疗大数据。如何从海量的数据中挖掘出有价值的信息已经成为电子病历系统研究的热点问题。电子病历数据挖掘即是在“大...

IwAQx7pW1xBE 2023年11月02日 70 0 0 数据挖掘决策树决策树数据数据数据挖掘

机器学习面试题集锦！线性回归篇！

（文章最后送福利！！！）在上周的推文《机器学习面试题集锦！入门级必备！》中，给大家介绍了线性回归的基本知识，并用scikit-learn库实现的示例。在推文中，还列出了一些线性回归相关的常见面试题。在这篇推文中，给大家提供一下这些问题的答案。什么是线性回归？线性回归是一种用于拟合自变量（特征）与因变量之间线性关系的模型。线性回归通过拟合一条直线或超平面来预测因变量的值。它的目标是找到最佳拟合线，使得预测值与实际观测值的差距最小化。线性回归的基本假设有哪些？线性回归的基本假设包括以下几点： 1.线性关系假设：线性回归假设自变量与因变量之间存在一个线性关系，即因变量可以通过自变量的线性组...

IwAQx7pW1xBE 2023年11月02日 91 0 0 拟合方差线性回归线性回归方差拟合

福利篇：你无法拒绝的BAT机器学习面试题-3

本文所有内容整理自网络。完整内容可以点击这里获取：完整资料下载地址机器学习中，为何要经常对数据做归一化。维基百科给出的解释：1）归一化后加快了梯度下降求最优解的速度；2）归一化有可能提高精度。下面再简单扩展解释下这两点。归一化为什么能提高梯度下降法求解最优解的速度？斯坦福机器学习视频做了很好的解释：https://class.coursera.org/ml-003/lecture/21 如下图所示，蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征X1和X2的区间相差非常大，X1区间是[0,2000]，X2区间是[1,5]，其所形成的等高线非常尖。当使用梯度下降法寻求最优解...

IwAQx7pW1xBE 2023年11月02日 58 0 0 归一化数据数据归一化离散化离散化

福利篇：你无法拒绝的BAT机器学习面试题-2

本文所有内容整理自网络。完整内容可以点击这里获取：完整资料下载地址为什么xgboost要用泰勒展开，优势在哪里？（1）xgboost使用了一阶和二阶偏导，二阶导数有利于梯度下降的更快更准. （2）使用泰勒展开取得函数做自变量的二阶导数形式,可以在不选定损失函数具体形式的情况下,仅仅依靠输入数据的值就可以进行叶子分裂优化计算（3）本质上也就把损失函数的选取和模型算法优化/参数选择分开了.这种去耦合增加了xgboost的适用性,使得它按需选取损失函数,可以用于分类,也可以用于回归。 2.xgboost如何寻找最优特征？是有放回还是无放回的呢？ xgboost在训练的过程中给出各个特征的增...

IwAQx7pW1xBE 2023年11月02日 80 0 0 过拟合判别模型判别模型过拟合生成模型生成模型

基于随机化三期临床试验数据和多模态深度学习的前列腺癌治疗方案个性化

原文获取地址：完整资料下载地址摘要前列腺癌是男性最常见的癌症，也是导致癌症死亡的主要原因。确定患者最佳治疗方案是一项挑战，肿瘤学家必须选择最有可能成功且最不可能出现毒性的治疗方案。国际预后标准依赖于非特异性和半定量工具，通常导致过度治疗和不足治疗。基于组织的分子生物标志物尝试解决了这个问题，但大多数标志物在前瞻性随机试验中的验证有限，并且处理成本昂贵，限制了广泛采用的障碍。因此，需要准确且可扩展的工具来支持治疗个性化。本研究通过使用多模态深度学习架构预测长程临床结局，使用临床数据以及前列腺活检的数字组织病理学图像训练模型，展示了前列腺癌治疗的个性化。我们在数百个临床中心进行了五项三期随机...

IwAQx7pW1xBE 2023年11月02日 78 0 0 监督学习多模态多模态监督学习

生存分析常用的统计模型

福利完整机器学习/数据挖掘面试题可以点击这里获取：完整资料下载地址生存分析，是将观察结局和出现这一结局所经历的时间结合起来分析的一种统计分析方法，已经被广泛地应用于癌症数据分析领域，来揭示疾病特征和预后结局的关系，为临床医生提供预后信息和临床决策支持。常用的生存分析方法有KM曲线法和Cox模型分析法。它们因为易操作性、易解读性和对生存数据的良好拟合特性而被广泛用于癌症的预后研究。但是，这两种方法有着相同的缺点：1）研究人员根据自己的经验，将连续型变量转为分类型变量带入模型进行分析。因此，这两种模型提供的是一个群体的预测信息，而不是个性化的预测信息；2）人为的分组方式也不一定是最优的；难以找...

IwAQx7pW1xBE 2023年11月02日 30 0 0 拟合时间函数数据时间函数数据拟合

1文轻松入门逻辑回归！

福利：完整机器学习/数据挖掘面试题可以点击这里获取：完整资料下载地址前言在机器学习中，分类算法是一种用于将数据点划分到不同类别的技术。逻辑回归是其中一种常用的方法之一。其核心思想是通过对输入特征进行加权组合，再利用激活函数将数据映射到一个概率范围内，进而进行分类判定，可用于解决预测、风险评估和决策支持等许多实际问题。逻辑回归方法的优势之一在于其简单的实现方式。通过定义一个合适的目标函数（例如对数损失函数）并利用优化算法（如梯度下降），我们可以对模型进行训练和参数调整，以使其能够更好地拟合数据并进行准确的分类，能够适应大规模数据和实时应用场景。在今天的推文中，给大家介绍一下利用sciki...

IwAQx7pW1xBE 2023年11月02日 36 0 0 机器学习逻辑回归逻辑回归机器学习

如何将先验知识嵌入机器学习？《知信机器学习Informed ML》19页论文综述IML概念、分类和方法

重要福利：原文下载地址，点击这里获取。摘要尽管机器学习取得了巨大的成功，但在训练数据不足时，也有其局限性。一个潜在的解决方案是将先验知识额外集成到训练过程中，这导致了知信机器学习（InformedMachineLearning）的概念。在这篇论文中，我们提供了该领域各种方法的一个结构化概述。我们提供了一个定义并提出了一个知信机器学习的概念，说明了它的构建模块，并将其与传统机器学习区分开来。我们引入了一个分类框架，对知信机器学习方法进行归类。它考虑了知识的来源、它的表示以及它与机器学习管道的集成。基于这种分类框架，我们综述了相关的研究，并描述了不同的知识表示，如代数方程，逻辑规则，或模拟结...

IwAQx7pW1xBE 2023年11月02日 26 0 0 机器学习数据数据知识表示机器学习知识表示

33页ppt《大语言模型综合能力测评报告（2023）》，文末附下载链接

ChatGPT的出现可谓掀起了一股强劲的浪潮，为大型语言模型技术带来了繁荣的时代。然而，自2017年以来，包括OpenAI、微软、谷歌、Facebook、百度、华为等科技巨头一直在不断探索大型语言模型领域，并取得了持续的进展。ChatGPT的问世只是将大型语言模型技术推向了一个爆发性的发展阶段。当前，大型模型产品的格局呈现出新的态势，国外公司在基础模型方面积累了丰富经验，而国内公司则更注重应用场景的开发。自2022年底以来，人工智能大模型已成为科技界甚至全球的热门话题。其中，像ChatGPT这样的大模型产品的发展速度令人惊叹。预测数据甚至显示，到2030年，人工智能和大型计算市场规模可...

IwAQx7pW1xBE 2023年11月02日 36 0 0 语言模型人工智能数据数据语言模型人工智能

ggplot2箱线图绘制教程

箱线图是什么？箱线图（Boxplot），也称为盒须图或盒式图，是一种用于展示数据分布的统计图表。它通过展示数据的五个关键统计量，即最小值、下四分位数（Q1）、中位数、上四分位数（Q3）和最大值，帮助我们了解数据的中心趋势、离散程度以及可能存在的异常值。箱线图如何看？箱线图由一个矩形框和两条延伸出去的线段组成。矩形框的上边界表示上四分位数（Q3），下边界表示下四分位数（Q1），而矩形框内部的线表示中位数。上下两条延伸线段（也称为"盒须"）连接到最小值和最大值，它们可以延伸至一定的距离之外，来展示可能存在的异常值。箱线图可以用于比较不同组或变量之间的数据分布，以及检测异常值。通过观察箱线图...

IwAQx7pW1xBE 2023年11月02日 17 0 0 箱线图箱线图数据可视化数据可视化

94页《ChatGPT调研报告》，哈工大最新出品，文末附下载！

本文所有内容整理自网络。完整内容可以点击这里获取：完整资料下载地址 2022年11月30日，OpenAI推出全新的对话式通用人工智能工具——ChatGPT。ChatGPT表现出了非常惊艳的语言理解、生成、知识推理能力，它可以很好地理解用户意图，做到有效的多轮沟通，并且回答内容完整、重点清晰、有概括、有逻辑、有条理。 ChatGPT上线后，5天活跃用户数高达100万，2个月活跃用户数已达1个亿，成为历史上增长最快的消费者应用程序。除了被广大用户追捧外，ChatGPT还受到了各国政府、企业界、学术界的广泛关注，使人们看到了解决自然语言处理这一认知智能核心问题的一条可能的路径，并被认为向通用人工智能...

IwAQx7pW1xBE 2023年11月02日 19 0 0 ChatGPT 知识推理自然语言处理自然语言处理知识推理 ChatGPT

福利篇：你无法拒绝的BAT机器学习面试题

本文所有内容整理自网络。完整内容可以点击这里获取：完整资料下载地址 1.请简要介绍下SVM。 SVM，全称是supportvectormachine，中文名叫支持向量机。SVM是一个面向数据的分类算法，它的目标是为确定一个分类超平面，从而将不同的数据分隔开。扩展：支持向量机学习方法包括构建由简至繁的模型：线性可分支持向量机、线性支持向量机及非线性支持向量机。当训练数据线性可分时，通过硬间隔最大化，学习一个线性的分类器，即线性可分支持向量机，又称为硬间隔支持向量机；当训练数据近似线性可分时，通过软间隔最大化，也学习一个线性的分类器，即线性支持向量机，又称为软间隔支持向量机；当训练数据线性不可...

IwAQx7pW1xBE 2023年11月02日 16 0 0 线性回归线性回归迭代支持向量机迭代支持向量机

支持向量机入门介绍

机器学习面试题，可以点击这里获取：完整资料下载地址支持向量机（SVM）是一种强大的机器学习算法，用于线性或非线性分类、回归，甚至异常检测任务。SVM可以用于各种任务，如文本分类、图像分类、垃圾邮件检测、手写识别、基因表达分析、人脸检测和异常检测。SVM在各种应用中都表现出色，因为它能够处理高维数据和非线性关系。 SVM算法的主要目标是在N维空间中找到一个最优超平面，可以在特征空间中将数据点分开成不同的类别。这个超平面试图使不同类别之间最接近的点之间的间隔尽可能大。超平面的维度取决于特征的数量。如果输入特征的数量为两个，那么超平面就是一条直线。如果输入特征的数量为三个，那么超平面就变成了一个...

IwAQx7pW1xBE 2023年11月02日 57 0 0 核函数数据数据核函数支持向量机支持向量机

215篇【大模型医疗】论文合集(附PDF)

ChatGPT的横空出世引发了新一轮生成式大模型热潮，作为最新技术的"试验场"，医疗也成为众多大模型的热门首选。通过大规模的数据和模型训练，实现对医疗领域中各种问题的预测、诊断和治疗的应用的医疗大模型，正迎来全新的变局，为了让大家更好的抢占先机，我们整理了2022-2023年大模型及医疗领域的研究文献，供大家学习。我整理了215篇医疗和大模型的论文，供大家学习和参考。资源获取方式：点击链接，领215篇医疗和大模型论文。

IwAQx7pW1xBE 2023年11月02日 42 0 0 新技术大模型大模型新技术生成式生成式

215篇【大模型医疗】论文合集(附PDF)

ChatGPT的横空出世引发了新一轮生成式大模型热潮，作为最新技术的"试验场"，医疗也成为众多大模型的热门首选。通过大规模的数据和模型训练，实现对医疗领域中各种问题的预测、诊断和治疗的应用的医疗大模型，正迎来全新的变局，为了让大家更好的抢占先机，我们整理了2022-2023年大模型及医疗领域的研究文献，供大家学习。我整理了215篇医疗和大模型的论文，供大家学习和参考。资源获取方式：点击链接，领215篇医疗和大模型论文。

IwAQx7pW1xBE 2023年11月02日 39 0 0 新技术大模型大模型新技术生成式生成式