问题 最近跑师兄21年的论文代码,代码里使用了Pytorch分布式训练,在单机8卡的情况下,运行代码,出现如下问题。也就是说GPU(1..7)上的进程占用了GPU0,这导致GPU0占的显存太多,以至于我的batchsize不能和原论文保持一致。 解决方法 我一点一点进行debug。首先,在数据加载部分,由于没有将local_rank和world_size传入get_cifar_iter函数,导致后续使用DALI创建pipeline时使用了默认的local_rank=0,因此会在GPU0上多出该GPU下的进程 其次,在使用torch.load加载模型权重时,没有设置map_location,于是...

  B5pePHcsyPxf   2024年02月19日   100   0   0 大模型

问题 今天上80服务器跑mdistiller的代码时,意外发现torch、numpy都不能用了T_T 以torch为例,出现如下报错情况以numpy为例,出现如下报错情况 我们先看看报错信息,这个报错来自InterMKL。InterMKL全称是TheIntelMathKernelLibrary,它是一个主要是用于科学计算的共享库,提供了很多与数学优化程序,例如向量矩阵操作什么的。 报错信息说明我们在导入torch/numpy库时,无法载入libmkl_core.so.和libmkl_rt.so.1. 这两个文件以so结尾,属于共享库文件。在Linux系统上一般以.so文件扩展名(sharedo...

  B5pePHcsyPxf   2023年11月02日   88   0   0 AI综合

前言 缘起  实验室的学弟问我为什么他使用nvcc命令报错,起先我以为他用的是老师给的root账户,按照参考文献1便可以解决问题。 但由于并非root用户,/usr/local下没有cuda,于是便无法按照参考1中的方法去做。 这里提供一种方法,其实是参考了文献2,但似乎是歪打正着,因为2要解决的问题和我的不一样O_o。 问题  使用nvcc-V报错如下 解决方法  报错原因在于当前conda环境没有安装nvcc,于是使用如下命令安装即可 condainstall-cnvidiacuda-nvcc  补充:执行上述命令后会默认安装cuda-nvcc的最新版本,于是这里涉及到cuda-nvcc...

  B5pePHcsyPxf   2023年11月02日   84   0   0 Python

前言 在做组内2030项目时,我具体做的一个工作是对大模型进行LoRA微调,在整个过程中有许多坑,其中有些值得记录的问题,于是便产生了这篇博客。 问题 我在得到微调好的模型后,需要对模型进行性能测评。在加载模型时,遇到如下报错 ValueError:Can'tfind'adapter_config.json' 补充:报错截图忘截了,但关键报错信息如上。 解决方法 这个问题我找了几种解决方法都没用,看到朋友进行微调生成的模型能够成功评测,才明白原来是微调后的模型文件不完整的原因啊~T_T 下面是可以进行成功加载并进行评测的模型文件构成: 下面是我微调后不能成功加载的模型文件构成: 两相对比,发...

  B5pePHcsyPxf   2023年11月01日   162   0   0 大模型

问题  今天在跑代码的时候,使用到了wandb记录训练数据。 我在23服务器上跑的好好的,但将环境迁移到80服务器上重新开始跑时,却遇到了如下报错  看这个报错信息是由于wandb没有apis这个属性,于是我定位到具体的报错代码 😯原来程序在importwandb时就抛出异常了。 解决方法  我尝试验证是报错的原因在于程序导入wandb不成功而导致报错。 因此,我在终端打开python解释器,执行importwandb,果然出现了一模一样的报错信息 既然是wandb库的原因,一个很自然的想法便是对比27和80服务器上两个wandb库的版本号。 23服务器上wandb的版本号为0.15.11 ...

  B5pePHcsyPxf   2023年11月01日   53   0   0 大模型

前言 缘起   Mac上没有GPU,需要用到学校服务器进行调试,于是产生了这篇博客。0.0bb 前提   首先确保已经将Pycharm配置好,通过SSH连接到服务器上的开发环境,这一步网络上有许多教程,在此不再赘述。 解决方法 1.在Addconfiguration里添加PythonDebugServer2.注意设置界面里的信息,在这个界面上Pycharm其实已经为我们指明了如何配置DebugServer。如上图红框部分,pycharm需要我们在当前Pyhton解释器上执行pipinstallpydevd-pycharm=212.4746.96安装pydevd-pycharm包,这里的版本号因...

  B5pePHcsyPxf   2023年11月01日   100   0   0 AI综合

最近在看一些深度学习相关的书,感觉对于参考文献1中的mini-batch部分理解得不是很透彻,主要是因为神经网络的输入开始变成批数据,加之对python的numpy不是很熟了。所以总想写点什么,一来有助于加深对于知识的理解,二来也算是分享知识咯。闲话少叙,让我们进入正题。 在机器学习中,学习的目标是选择期望风险\(R_{exp}\)(expectedloss)最小的模型,但在实际情况下,我们不知道数据的真实分布(包含已知样本和训练样本),仅知道训练集上的数据分布。因此,我们的目标转化为最小化训练集上的平均损失,这也被称为经验风险\(R_{emp}\)(empiricalloss)。 严格地说,...

  B5pePHcsyPxf   2023年11月01日   150   0   0 AI综合

前言 同样的,这篇博客也源自于我在做组内2030项目所产生的结果。当时,5个硕士生需要进行类似的微调工作,偶尔还会有博士生使用服务器上的GPU,但服务器上仅有8块GPU。因此,如何快速抢占到\(n\)块GPU,从而高效完成手里的工作,便是一个很重要的问题啦~^ _ ^ 问题 我首先在网上看了下现有的抢GPU的脚本,但发现简单的脚本要么只能抢1块GPU,要么是一个复杂项目操作起来较麻烦。于是便萌生了自己写个Python脚本,这样以后凡是涉及到需要抢GPU的场景,我都可以通过运行该脚本抢占到\(n\)块GPU后,便开始我的模型训练或是其他。这样一种一劳永逸的工作,何乐而不为呢?闲话少叙,下面开始介...

  B5pePHcsyPxf   2023年11月01日   73   0   0 AI综合
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~