摩杜云开发者社区-摩杜云

算法金 | 平均数、众数、中位数、极差、方差，标准差、频数、频率一“统”江湖

大侠幸会，在下全网同名「算法金」0基础转AI上岸，多个算法赛Top「日更万日，让更多人享受智能乐趣」抱个拳，送个礼更多内容，见微公号往期文章，阅读人数已破10,000：协方差、方差、标准差、协方差矩阵好的，让我们开始这段统计学的江湖之旅，早日实现一“统”江湖大业。 1.什么是平均数 1.1定义平均数，江湖人称“均值”，是一帮数字里的“老大”，它把一伙数字的总和给分了，分给每个数字一样多。就像是帮派里的老大，把抢来的金银财宝平均分给手下的兄弟们。 1.2计算方法要算出平均数，得把一帮数字都加起来，然后除以这帮数字的人数。就像分钱一样，先数数有多少钱，再数数有多少人，最后把钱一分，...

dteHY1Qz83GN 2024年08月07日 45 0 0 机器学习

算法金 | 一个强大的算法模型，GPR ！！

大侠幸会，在下全网同名「算法金」0基础转AI上岸，多个算法赛Top「日更万日，让更多人享受智能乐趣」抱个拳，送个礼高斯过程回归（GPR）是一种非参数化的贝叶斯方法，用于解决回归问题。与传统的线性回归模型不同，GPR能够通过指定的核函数捕捉复杂的非线性关系，并提供不确定性的估计。在本文中，我们将详细介绍GPR算法的定义、核心思想和数学基础，并通过实例展示其在实际应用中的效果。 GPR算法简介 GPR的定义高斯过程回归（GaussianProcessRegression,GPR）是一种基于高斯过程的统计模型，用于处理回归问题。高斯过程是一种分布，每个样本点都遵循一个高斯分布，这使得GP...

dteHY1Qz83GN 2024年08月07日 40 0 0 机器学习

算法金 | 推导式、生成器、向量化、map、filter、reduce、itertools，再见 for 循环

大侠幸会，在下全网同名「算法金」0基础转AI上岸，多个算法赛Top「日更万日，让更多人享受智能乐趣」不要轻易使用For循环 For循环，老铁们在编程中经常用到的一个基本结构，特别是在处理列表、字典这类数据结构时。但是，这东西真的是个双刃剑。虽然看起来挺直白，一用就上手，但是，有时候用多了，问题也跟着来了。性能问题首先得说说性能问题。铁子们可能都有感觉，当你的数据量一大起来，用For循环去跑，这速度简直能让人急死。因为For循环处理大数据集时，每次迭代都要进行函数调用，这中间的开销可不小。尤其是在Python这样的解释型语言里，每一次循环的效率都非常关键。可读性问题再来看看可读性...

dteHY1Qz83GN 2024年08月07日 34 0 0 机器学习

算法金 | 时间序列预测真的需要深度学习模型吗？是的，我需要。不，你不需要？

大侠幸会，在下全网同名「算法金」0基础转AI上岸，多个算法赛Top「日更万日，让更多人享受智能乐趣」参考论文：https://arxiv.org/abs/2101.02118 更多内容，见微公号往期文章：审稿人：拜托，请把模型时间序列去趋势！！使用Python快速上手LSTM模型预测时间序列 1.时间序列预测的重要性时间序列预测，这玩意儿在数据分析界可是个香饽饽，尤其在电力、交通、空气质量这些领域里，预测得准，资源分配更合理，还能让相关部门提前做好准备。但深度学习这小子横空出世，开始抢传统统计学方法的风头。那么问题来了，时间序列预测非得用深度学习吗？咱们今天就来掰扯掰扯。 2.传...

dteHY1Qz83GN 2024年08月07日 51 0 0 机器学习

算法金 | 最难的来了：超参数网格搜索、贝叶斯优化、遗传算法、模型特异化、Hyperopt、Optuna、多目标优化、异步并行优化

大侠幸会，在下全网同名「算法金」0基础转AI上岸，多个算法赛Top「日更万日，让更多人享受智能乐趣」今日215/10000 为模型找到最好的超参数是机器学习实践中最困难的部分之一 1.超参数调优的基本概念机器学习模型中的参数通常分为两类：模型参数和超参数。模型参数是模型通过训练数据自动学习得来的，而超参数则是在训练过程开始前需要人为设置的参数。理解这两者的区别是进行有效模型调优的基础。 1.1超参数与模型参数的区别模型参数是在模型训练过程中通过优化算法学习得来的。例如，线性回归中的权重系数、神经网络中的权重和偏置都是模型参数。这些参数直接影响模型的预测能力，是模型从数据中提取到...

dteHY1Qz83GN 2024年08月07日 69 0 0 机器学习

算法金 | DL 骚操作扫盲，神经网络设计与选择、参数初始化与优化、学习率调整与正则化、Loss Function、Bad Gradient

大侠幸会，在下全网同名「算法金」0基础转AI上岸，多个算法赛Top「日更万日，让更多人享受智能乐趣」今日216/10000 抱个拳，送个礼神经网络设计与选择参数初始化与优化学习率调整与正则化数据预处理与标准化训练过程与监控特定模型技巧其他训练技巧 1.神经网络设计与选择网络结构选择多层感知器（MLP）是最基本的神经网络结构，由输入层、若干隐藏层和输出层组成。每一层的神经元与前一层的神经元全连接。这种结构适用于各种一般性任务，但对于图像和序列数据效果较差循环神经网络（RNN）适用于处理序列数据，如时间序列和自然语言处理。RNN的特点是拥有记忆能力，通过隐状态（hid...

dteHY1Qz83GN 2024年08月07日 61 0 0 机器学习

算法金 | 来了，pandas 2.0

大侠幸会，在下全网同名「算法金」0基础转AI上岸，多个算法赛Top「日更万日，让更多人享受智能乐趣」今日210+/10000，内含 Pandas是一个强大的数据分析库，广泛应用于科学研究、金融分析、商业智能等领域。它提供了高效的数据结构和数据分析工具，使得处理和分析数据变得更加简单和高效。Pandas的核心数据结构是DataFrame，它可以方便地进行数据清洗、变换、合并和聚合操作，这使得Pandas成为数据科学家和分析师的必备工具。数据清洗：Pandas提供了丰富的功能来处理缺失值、重复数据和数据类型转换。数据变换：可以轻松地对数据进行排序、过滤、分组和变换操作。数据合并：支...

dteHY1Qz83GN 2024年08月07日 52 0 0 机器学习

算法金 | 深度学习图像增强方法总结

图像增强方法在数字图像处理中占有重要地位，它能够有效提高图像的视觉效果，增强图像的细节信息，从而在医学、遥感、工业检测等多个领域发挥重要作用 1.空间域增强方法空间域增强方法是通过直接对图像像素进行操作来实现图像增强的技术。以下是几种常见的空间域增强方法： 1.1直方图均衡化直方图均衡化是一种简单且有效的图像增强方法，主要通过调整图像的灰度直方图，使得图像的灰度级分布更加均匀，从而提高图像的对比度应用场景包括医学影像中的组织对比增强、卫星图像中的地物对比增强等 1.2对比度拉伸对比度拉伸通过扩大图像的灰度级范围来提高对比度。这种方法通常用于提高低对比度图像的视觉效果例如，对于一个灰...

dteHY1Qz83GN 2024年08月07日 63 0 0 机器学习

算法金 | 秒懂 AI - 深度学习五大模型：RNN、CNN、Transformer、BERT、GPT 简介

1.RNN（RecurrentNeuralNetwork）时间轴 1986年，RNN模型首次由DavidRumelhart等人提出，旨在处理序列数据。关键技术循环结构序列处理长短时记忆网络（LSTM）和门控循环单元（GRU）核心原理 RNN通过循环结构让网络记住以前的输入信息，使其能够处理序列数据。每个节点不仅接收当前输入，还接收前一个节点的输出，从而形成记忆能力。创新点 RNN的创新点在于其循环结构，这使其能处理时间序列数据。但原始RNN容易出现梯度消失问题，后来的LSTM和GRU模型通过引入门控机制，极大地改善了这一问题。适用数据时间序列数据语音信号文本数据 ...

dteHY1Qz83GN 2024年08月07日 40 0 0 机器学习

算法金 | 这绝对是不一样的，独一无二的逻辑回归算法体验

大侠幸会，在下全网同名「算法金」0基础转AI上岸，多个算法赛Top「日更万日，让更多人享受智能乐趣」今日220+/10000 在回归求助&送教程这篇文章中，我放出来最近在做的揭榜挂帅的PPT初稿，很多读者表示感兴趣，还有小伙伴问啥时候出书，更有同学贴心的给对象要了份PPT（撒。。既视感hhh）相比上次，我自己对今天的课件更满意，借机做一个新的尝试：同样是请大家帮忙捉虫子（bug），看有什么需要调整的（内容修改/顺序修改/增加/删除等），如果你发现了什么bug或者你的建议被采纳，我会邀请你免费参加我接下去的付费算法专栏的内测，同时在我付费专栏成稿时我会免费送你两份；对，是两份，...

dteHY1Qz83GN 2024年08月07日 35 0 0 机器学习

算法金 | 线性回归：不能忽视的五个问题

大侠幸会，在下全网同名「算法金」0基础转AI上岸，多个算法赛Top「日更万日，让更多人享受智能乐趣」线性回归的理论依据是什么？多重共线性是什么，它如何影响线性回归模型？什么是自相关性，自相关性对线性回归有什么影响？什么是异方差性，如何检测和处理异方差性？训练数据与测试数据分布不一致会带来什么问题，如何确保数据分布一致性？ 1.线性回归的理论依据是什么？定义和背景线性回归是一种统计方法，用于研究因变量𝑌和一个或多个自变量𝑋之间的线性关系。其理论依据主要基于以下几个方面：最小二乘法（OLS）：线性回归通过最小化残差平方和（即观测值与预测值之间的差值的平方和）来确定最...

dteHY1Qz83GN 2024年08月07日 29 0 0 机器学习

算法金 | Transformer，一个神奇的算法模型！！

大侠幸会，在下全网同名「算法金」0基础转AI上岸，多个算法赛Top「日更万日，让更多人享受智能乐趣」抱个拳，送个礼在现代自然语言处理（NLP）领域，Transformer模型的出现带来了革命性的变化。它极大地提升了语言模型的性能和效率，而自注意力机制是其中的核心组件。今个儿我们将通过五个阶段，逐步深入讲解自注意力机制，帮助大侠一窥其原理和应用，成功实现变身（装X）第一阶段：自注意力机制基础在处理语言和文字时，我们经常需要理解一个句子中的单词是如何相互关联的。例如，在句子“猫追着老鼠跑”中，我们需要知道“猫”是追的主体，“老鼠”是被追的对象。传统的方法在理解这些关系时有一些困难...

dteHY1Qz83GN 2024年08月07日 54 0 0 机器学习

算法金 | 欧氏距离算法、余弦相似度、汉明、曼哈顿、切比雪夫、闵可夫斯基、雅卡尔指数、半正矢、Sørensen-Dice

大侠幸会，在下全网同名「算法金」0基础转AI上岸，多个算法赛Top「日更万日，让更多人享受智能乐趣」在算法模型构建中，我们经常需要计算样本之间的相似度，通常的做法是计算样本之间的距离。今天，一键拿下九种距离算法。走你一、欧氏距离(EuclideanDistance) 定义与公式欧氏距离是两个点在n维空间中直线距离的度量。它是最常见的距离度量方法之一，用于计算两个向量之间的距离。欧氏距离的公式如下：应用场景欧氏距离广泛应用于许多领域，如机器学习、统计学、模式识别和数据挖掘。常见的应用场景包括：分类算法：如k近邻(k-NearestNeighbors,KNN)算法，通过计...

dteHY1Qz83GN 2024年08月07日 28 0 0 机器学习

算法金 | 协方差、方差、标准差、协方差矩阵

大侠幸会，在下全网同名「算法金」0基础转AI上岸，多个算法赛Top「日更万日，让更多人享受智能乐趣」 1.方差方差是统计学中用来度量一组数据分散程度的重要指标。它反映了数据点与其均值之间的偏离程度。在数据分析和机器学习中，方差常用于描述数据集的变异情况 1.1定义与计算方法方差的计算方法如下：计算数据集的均值（平均值）计算每个数据点与均值的差值将这些差值平方将平方后的差值相加将总和除以数据点的数量方差的公式为： 1.2实际应用方差在许多领域都有广泛应用。例如，在金融领域，方差用来衡量投资回报率的波动性。在质量控制中，方差用来衡量生产过程的稳定性。在机器学习中，方差用于...

dteHY1Qz83GN 2024年08月07日 25 0 0 机器学习

算法金 | 必会的机器学习评估指标

大侠幸会，在下全网同名[算法金]0基础转AI上岸，多个算法赛Top[日更万日，让更多人享受智能乐趣] 构建机器学习模型的关键步骤是检查其性能，这是通过使用验证指标来完成的。选择正确的验证指标就像选择一副水晶球：它使我们能够以清晰的视野看到模型的性能。在本指南中，我们将探讨分类和回归的基本指标和有效评估模型的知识。学习何时使用每个指标、优点和缺点以及如何在Python中实现它们。 1分类指标 1.1分类结果在深入研究分类指标之前，我们必须了解以下概念：真正例(TP)：模型正确预测正类的情况。假正例(FP)：模型预测为正类，但实际类为负类的情况。真反例(TN)：模型正确预测负类的情况...

dteHY1Qz83GN 2024年08月07日 53 0 0 机器学习

算法金 | 没有思考过 Embedding，不足以谈 AI

大侠幸会，在下全网同名「算法金」0基础转AI上岸，多个算法赛Top「日更万日，让更多人享受智能乐趣」抱个拳，送个礼在当今的人工智能（AI）领域，Embedding是一个不可或缺的概念。如果你没有深入理解过Embedding，那么就无法真正掌握AI的精髓。接下来，我们将深入探讨Embedding的基本概念。 1.Embedding的基本概念 1.1什么是Embedding Embedding是一种将高维数据映射到低维空间的技术。简单来说，它就是把复杂的、难以处理的数据转换成便于计算的形式。举个例子，假设我们有一个包含上千个词汇的文本数据，每个词汇可以看作是一个维度，这样的数据在计算机...

dteHY1Qz83GN 2024年08月07日 43 0 0 机器学习

资深博导：我以为数据预处理是常识，直到遇到自己的学生

大侠幸会，在下全网同名「算法金」0基础转AI上岸，多个算法赛Top「日更万日，让更多人享受智能乐趣」在光谱学领域，数据预处理是不可或缺的一环。本文将基于NIRsoil近红外光谱数据，运用Python语言进行数据处理，并通过图表直观反映预处理带来的变化。（数据集：后台回复[NIRsoil]获取）常用的光谱数据预处理技术包括： MSC（多元散射校正） SNV（标准正规化变换）光谱微分基线校正去趋势一、MSC（多元散射校正） importpandasaspd importnumpyasnp importmatplotlib.pyplotasplt fromsklearn...

dteHY1Qz83GN 2024年08月07日 26 0 0 机器学习

算法金 | 决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost 算法大全

大侠幸会，在下全网同名「算法金」0基础转AI上岸，多个算法赛Top「日更万日，让更多人享受智能乐趣」决策树是一种简单直观的机器学习算法，它广泛应用于分类和回归问题中。它的核心思想是将复杂的决策过程分解成一系列简单的决策，通过不断地将数据集分割成更小的子集来进行预测。本文将带你详细了解决策树系列算法的定义、原理、构建方法、剪枝与优化技术，以及它的优缺点。一、决策树 1.1决策树的定义与原理决策树的定义：决策树是一种树形结构，其中每个节点表示一个特征的测试，每个分支表示一个测试结果，每个叶子节点表示一个类别或回归值。决策树的目标是通过一系列的特征测试，将数据分成尽可能纯的子集。决策...

dteHY1Qz83GN 2024年08月07日 60 0 0 机器学习

算法金 | K-均值、层次、DBSCAN聚类方法解析

大侠幸会，在下全网同名「算法金」0基础转AI上岸，多个算法赛Top「日更万日，让更多人享受智能乐趣」接微公号往期文章：10种顶流聚类算法，附Python实现聚类分析概述聚类分析的定义与意义聚类分析（ClusteringAnalysis）是一种将数据对象分成多个簇（Cluster）的技术，使得同一簇内的对象具有较高的相似性，而不同簇之间的对象具有较大的差异性。这种方法在无监督学习（UnsupervisedLearning）中广泛应用，常用于数据预处理、模式识别、图像处理和市场分析等领域通过聚类分析，可以有效地发现数据中的结构和模式，为进一步的数据分析和挖掘提供基础。例如，在市场...

dteHY1Qz83GN 2024年08月07日 38 0 0 机器学习

算法金 | 统计学的回归和机器学习中的回归有什么差别？

大侠幸会，在下全网同名「算法金」0基础转AI上岸，多个算法赛Top「日更万日，让更多人享受智能乐趣」统计学中的回归目标：主要用于解释和推断自变量（independentvariables）和因变量（dependentvariables）之间的关系。强调模型的解释性，了解各个自变量对因变量的影响。假设：假设数据符合特定统计假设，如正态分布、独立性和同方差性。需要满足严格的模型假设。模型复杂性：通常使用简单模型，如线性回归。模型形式固定，主要是线性或加性模型。数据量：通常处理较小的数据集。评估方法：强调参数的显著性检验（significancetests）。...

dteHY1Qz83GN 2024年08月07日 25 0 0 机器学习