摩杜云开发者社区-摩杜云

大模型高效微调详解-从Adpter、PrefixTuning到LoRA

一、背景目前NLP主流范式是在大量通用数据上进行预训练语言模型训练，然后再针对特定下游任务进行微调，达到领域适应（迁移学习）的目的。指令微调是预训练语言模型微调的主流范式其目的是尽量让下游任务的形式尽量接近预训练任务，从而减少下游任务和预训练任务之间的Gap,实现预训练语言模型适应下游任务，而非下游任务去适应模型。指令微调的效果要优于基于Zero/Few-shot的提示词工程的上下文学习。但随着预训练语言模型进入LLM时代，其参数量愈发庞大。全量微调模型所有参数所需的显存早已水涨船高。例如：全参微调Qwen1.5-7B-Chat预估要2张80GB的A800，160GB显...

5OTSDeIZ9rqt 13天前 30 0 0 大模型

【预训练语言模型】使用Transformers库进行GPT2预训练

基于HuggingFace的Transformer库，在Colab或Kaggle进行预训练。本教程提供：英文数据集wikitext-2和代码数据集的预训练。注：可以自行上传数据集进行训练目的：跑通自回归语言模型的预训练流程一、准备 1.1安装依赖 !pipinstall-Udatasets !pipinstallaccelerate-U 注意：在Colab上训练时，最好将datasets更新到最新版（再重启kernel），避免版本低报错 colab和kaggle已经预安装transformers库 1.2数据准备加载数据 fromdatasetsimportload_dataset...

5OTSDeIZ9rqt 2024年03月14日 17 0 0 大模型

【预训练语言模型】使用Transformers库进行BERT预训练

基于HuggingFace的Transformer库，在Colab或Kaggle进行预训练。鉴于算力限制，选用了较小的英文数据集wikitext-2 目的：跑通Mask语言模型的预训练流程一、准备 1.1安装依赖 !pip3install--upgradepip !pipinstall-Udatasets !pipinstallaccelerate-U 注意：在Kaggle上训练时，最好将datasets更新到最新版（再重启kernel），避免版本低报错 colab和kaggle已经预安装transformers库 1.2数据准备加载数据 fromdatasetsimportconca...

5OTSDeIZ9rqt 2024年03月14日 76 0 0 AI综合

数据结构之哈夫曼树与哈夫曼编码

一、背景编码是信息处理的基础（重新表示信息）。普通的编码是等长编码，例如7位的ASCIL编码，对出现频率不同的字符都使用相同的编码长度。但其在传输和存储等情况下编码效率不高。可使用不等长编码，来压缩编码：高频字符编码长度更短，低频字符编码长度更长。   [例]将百分制的考试成绩转换成五分制的成绩按顺序分别编码。按频率分别编码（高频短编码，类似于香农熵衡量随机变量的编码长度下界）。这种贪心思想，可以找到一种平均最短编码长度-霍夫曼编码。可将构造平均最短编码转化为，构造平均查找长度最小的编码树（构造更有效的搜索树）二、哈夫曼...

5OTSDeIZ9rqt 2023年11月01日 60 0 0 算法与数据结构

预训练模型-从BERT原理到BERT调包和微调

 一、BERT原理 BERT取名来自BidirectionalEncoderRepresentationsfromTransformers。架构为：预训练+fine-tuning（对于特定的任务只需要添加一个输出层)。 1、引言       通过预训练语言模型可显著提高NLP下游任务。限制模型潜力的主要原因在于现有模型使用的都是单向的语言模型，无法充分了解到单词所在的上下文结构。       受完形填空的启发，BERT通过使用“MaskedLangu...

5OTSDeIZ9rqt 2023年11月01日 50 0 0 其他技术区

Neural Dynamics on Complex Networks-KDD20

一、摘要学习复杂网络上的连续时间动态对于理解、预测和控制科学和工程中的复杂系统至关重要。然而，由于高维系统结构中的组合复杂性、它们难以捉摸的连续时间非线性动力学以及它们的结构-动力学依赖性，使得这项任务非常具有挑战。为了解决这些挑战，我们提出将常微分方程系统（ODEs）和图神经网络（GNNs）相结合，以数据驱动的范式来学习复杂网络上的连续时间动态变化。我们用GNN来建模微分方程系统。我们并未在前向过程中使用离散数量的神经网络层进行映射，而是在连续时间上数值地整合GNN层，从而捕获图上的连续时间动态。我们的模型可以解释为连续时间GNN模型或图神经ode模型。我们的模型可以用于：连续时间...

5OTSDeIZ9rqt 2023年11月01日 95 0 0 AI综合

统计学习方法读书笔记-期望最大化算法（EM算法）

ExpectationMaximization，EM算法是带有隐变量的概率模型参数的极大似然估计（MLE为给定参数，观测数据出现/生成的可能性）。如下为《统计机器学习》中对应EM算法的笔记。观测数据Y和隐变量X合称，完全数据观测数据Y称，不完全数据 E步：（期望步）求Q函数（上一轮参数固定，模型参数为变量的函数），即期望（原始似然函数的下界） M步：（极大步）求Q函数的局部极值通过迭代法逐步逼近原始似然函数的解  EM算法本质是，有隐变量的似然函数的MLE。通过计算Q函数，得到似然函数的下界，然后最大化下界这一迭代过程，来优化参数...

5OTSDeIZ9rqt 2023年11月01日 87 0 0 AI综合

Transformer网络-Self-attention is all your need

一、Transformer Transformer最开始用于机器翻译任务，其架构是seq2seq的编码器解码器架构。其核心是自注意力机制：每个输入都可以看到全局信息，从而缓解RNN的长期依赖问题。输入： （待学习的）输入词嵌入+位置编码（相对位置）编码器结构：6层编码器：一层编码器=多头注意力+残差（LN）+FFN+残差（LN）输出：每一个位置上输出预测概率分布（K类类别分布） 1.1自注意力分解式         缩放内积注意力 1.自注意力的优势   &nb...

5OTSDeIZ9rqt 2023年11月01日 251 0 0 AI综合

基于GPT3.5的代码编辑器Cursor试用-你的智能代码编辑助手

一、安装和使用官网下载安装Cursor，然后创建一个代码文件。 Ctrl+ K生成，Ctrl+L提问。默认每小时30词。  1.TrygeneratingwithcommandKonanewline.Askforapytorchscriptofafeedforwardneuralnetwork 2.Then,selecttheoutputtedcodeandhitchat.Askifthere'sabug.Askhowtoimprove. 3.Tryselectingsomecodeandhittingedit.Askthebottoaddresiduallayers...

5OTSDeIZ9rqt 2023年11月01日 68 0 0 AI综合

KMeans算法与GMM混合高斯聚类

一、K-Means K-Means是GMM的特例（硬聚类，基于原型的聚类）。假设多元高斯分布的协方差为0，方差相同。   K-Means算法思想对于给定的样本集，按照样本间的距离，将样本集划分为K个簇。簇内的点尽量紧密连接，而簇间的距离尽量的大。本质上是个组合优化问题，类似于将N个球分配到K个箱子。启发式求解（局部最优解）初始K个类（簇心） E步：对每个样本，计算到K个类的欧式距离，并分配类标签O(kNd) M步：基于类内的样本，以样本均值更新类（均值最小化，类到类内样本的误差）O(Nd) 重复2-3步，直到聚类结果不变化或收...

5OTSDeIZ9rqt 2023年11月01日 130 0 0 AI综合

优化算法-从梯度下降到深度学习非凸优化

一、数学优化 1.1定义 MathematicalOptimization（数学优化）问题，亦称最优化问题，是指在一定约束条件下，求解一个目标函数的最大值（或最小值）问题。根据输入变量𝑿的值域是否为实数域，数学优化问题可分为离散优化问题和连续优化问题。在连续优化问题中，根据是否有变量的约束条件，可将优化问题分为无约束优化问题和约束优化问题。 1.2线性优化和非线性优化如果目标函数和所有的约束函数都为线性函数，则该问题为线性规划（LinearProgramming）问题。相反，如果目标函数或任何一个约束函数为非线性函数，则该问题为非线性规划（NonlinearProgramming...

5OTSDeIZ9rqt 2023年11月01日 73 0 0 AI综合