摩杜云开发者社区-摩杜云

Pytorch分布式训练，其他GPU进程占用GPU0的原因

问题最近跑师兄21年的论文代码，代码里使用了Pytorch分布式训练，在单机8卡的情况下，运行代码，出现如下问题。也就是说GPU(1..7)上的进程占用了GPU0，这导致GPU0占的显存太多，以至于我的batchsize不能和原论文保持一致。解决方法我一点一点进行debug。首先，在数据加载部分，由于没有将local_rank和world_size传入get_cifar_iter函数，导致后续使用DALI创建pipeline时使用了默认的local_rank=0，因此会在GPU0上多出该GPU下的进程其次，在使用torch.load加载模型权重时，没有设置map_location，于是...

B5pePHcsyPxf 2024年02月19日 100 0 0 大模型

报错Intel MKL FATAL ERROR: Cannot load libmkl_core.so.的一种解决方法

问题今天上80服务器跑mdistiller的代码时，意外发现torch、numpy都不能用了T_T 以torch为例，出现如下报错情况以numpy为例，出现如下报错情况我们先看看报错信息，这个报错来自InterMKL。InterMKL全称是TheIntelMathKernelLibrary，它是一个主要是用于科学计算的共享库，提供了很多与数学优化程序，例如向量矩阵操作什么的。报错信息说明我们在导入torch/numpy库时，无法载入libmkl_core.so.和libmkl_rt.so.1. 这两个文件以so结尾，属于共享库文件。在Linux系统上一般以.so文件扩展名(sharedo...

B5pePHcsyPxf 2023年11月02日 88 0 0 AI综合

conda环境下使用nvcc -V报错nvcc: command not found的一种解决方法

前言缘起实验室的学弟问我为什么他使用nvcc命令报错，起先我以为他用的是老师给的root账户，按照参考文献1便可以解决问题。但由于并非root用户，/usr/local下没有cuda，于是便无法按照参考1中的方法去做。这里提供一种方法，其实是参考了文献2，但似乎是歪打正着，因为2要解决的问题和我的不一样O_o。问题使用nvcc-V报错如下解决方法报错原因在于当前conda环境没有安装nvcc，于是使用如下命令安装即可 condainstall-cnvidiacuda-nvcc 补充：执行上述命令后会默认安装cuda-nvcc的最新版本，于是这里涉及到cuda-nvcc...

B5pePHcsyPxf 2023年11月02日 84 0 0 Python

报错ValueError: Can't find 'adapter_config.json'

前言在做组内2030项目时，我具体做的一个工作是对大模型进行LoRA微调，在整个过程中有许多坑，其中有些值得记录的问题，于是便产生了这篇博客。问题我在得到微调好的模型后，需要对模型进行性能测评。在加载模型时，遇到如下报错 ValueError:Can'tfind'adapter_config.json' 补充：报错截图忘截了，但关键报错信息如上。解决方法这个问题我找了几种解决方法都没用，看到朋友进行微调生成的模型能够成功评测，才明白原来是微调后的模型文件不完整的原因啊～T_T 下面是可以进行成功加载并进行评测的模型文件构成：下面是我微调后不能成功加载的模型文件构成：两相对比，发...

B5pePHcsyPxf 2023年11月01日 162 0 0 大模型

报错AttributeError: Attempted to set WANDB to False, but CfgNode is immutable

问题今天在跑代码的时候，使用到了wandb记录训练数据。我在23服务器上跑的好好的，但将环境迁移到80服务器上重新开始跑时，却遇到了如下报错看这个报错信息是由于wandb没有apis这个属性，于是我定位到具体的报错代码 😯原来程序在importwandb时就抛出异常了。解决方法我尝试验证是报错的原因在于程序导入wandb不成功而导致报错。因此，我在终端打开python解释器，执行importwandb，果然出现了一模一样的报错信息既然是wandb库的原因，一个很自然的想法便是对比27和80服务器上两个wandb库的版本号。 23服务器上wandb的版本号为0.15.11 ...

B5pePHcsyPxf 2023年11月01日 53 0 0 大模型

在Pycharm上使用远程服务器进行调试

前言缘起 Mac上没有GPU，需要用到学校服务器进行调试，于是产生了这篇博客。0.0bb 前提首先确保已经将Pycharm配置好，通过SSH连接到服务器上的开发环境，这一步网络上有许多教程，在此不再赘述。解决方法 1.在Addconfiguration里添加PythonDebugServer2.注意设置界面里的信息，在这个界面上Pycharm其实已经为我们指明了如何配置DebugServer。如上图红框部分，pycharm需要我们在当前Pyhton解释器上执行pipinstallpydevd-pycharm=212.4746.96安装pydevd-pycharm包，这里的版本号因...

B5pePHcsyPxf 2023年11月01日 100 0 0 AI综合

Learning with Mini-Batch

最近在看一些深度学习相关的书，感觉对于参考文献1中的mini-batch部分理解得不是很透彻，主要是因为神经网络的输入开始变成批数据，加之对python的numpy不是很熟了。所以总想写点什么，一来有助于加深对于知识的理解，二来也算是分享知识咯。闲话少叙，让我们进入正题。在机器学习中，学习的目标是选择期望风险\(R_{exp}\)(expectedloss)最小的模型，但在实际情况下，我们不知道数据的真实分布（包含已知样本和训练样本），仅知道训练集上的数据分布。因此，我们的目标转化为最小化训练集上的平均损失，这也被称为经验风险\(R_{emp}\)(empiricalloss)。严格地说，...

B5pePHcsyPxf 2023年11月01日 150 0 0 AI综合

抢占GPU的脚本

前言同样的，这篇博客也源自于我在做组内2030项目所产生的结果。当时，5个硕士生需要进行类似的微调工作，偶尔还会有博士生使用服务器上的GPU，但服务器上仅有8块GPU。因此，如何快速抢占到\(n\)块GPU，从而高效完成手里的工作，便是一个很重要的问题啦～^ _ ^ 问题我首先在网上看了下现有的抢GPU的脚本，但发现简单的脚本要么只能抢1块GPU，要么是一个复杂项目操作起来较麻烦。于是便萌生了自己写个Python脚本，这样以后凡是涉及到需要抢GPU的场景，我都可以通过运行该脚本抢占到\(n\)块GPU后，便开始我的模型训练或是其他。这样一种一劳永逸的工作，何乐而不为呢？闲话少叙，下面开始介...

B5pePHcsyPxf 2023年11月01日 73 0 0 AI综合