Pytorch分布式训练，其他GPU进程占用GPU0的原因

B5pePHcsyPxf 2024年02月19日 99 0

大模型

问题

最近跑师兄21年的论文代码，代码里使用了Pytorch分布式训练，在单机8卡的情况下，运行代码，出现如下问题。

也就是说GPU(1..7)上的进程占用了GPU0，这导致GPU0占的显存太多，以至于我的batchsize不能和原论文保持一致。

解决方法

我一点一点进行debug。
首先，在数据加载部分，由于没有将local_rank和world_size传入get_cifar_iter函数，导致后续使用DALI创建pipeline时使用了默认的local_rank=0，因此会在GPU0上多出该GPU下的进程

其次，在使用torch.load加载模型权重时，没有设置map_location，于是会默认加载到GPU0上，下图我选择将模型权重加载到cpu。虽然，这会使训练速度变慢，但为了和论文的batchsize保持一致也不得不这样做了。-.-

参考文献

nn.parallel.DistributedDataParallel多卡训练，第一张卡会多出进程？

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇： 4个大语言模型训练中的典型开源数据集下一篇： PWN学习之格式化字符串及CTF常见利用手法

分享：

最后一次编辑于 2024年02月19日 0

暂无评论

推荐阅读

大模型高效微调详解-从Adpter、PrefixTuning到LoRA

5OTSDeIZ9rqt 2024年05月08日 67 0 0 大模型

解密Prompt系列28. LLM Agent之金融领域摸索：FinMem & FinAgent

rYK3XVfHhGRB 2024年05月08日 72 0 0 大模型

Lora训练的参数和性能

NnaYPU9EV93V 2024年05月08日 50 0 0 大模型

开源医疗大模型排行榜: 健康领域大模型基准测试

QKcLjRV1cZqV 2024年05月01日 60 0 0 大模型

BiLSTM算法（二）

7B6SM42ujHWs 2024年04月10日 58 0 0 大模型

一文彻底整明白，基于Ollama工具的LLM大语言模型Web可视化对话机器人部署指南

CCMY6VB0yzoR 2024年05月18日 67 0 0 大模型

解密prompt系列27. LLM对齐经验之如何降低通用能力损失

rYK3XVfHhGRB 2024年04月13日 120 0 0 大模型

DashVector + ModelScope 玩转多模态检索

MhG91MnAND4r 2024年05月17日 35 0 0 大模型

一键部署，玩转AI！天翼云Llama 3大模型学习机来了！

1H97ZBKLEqYv 2024年05月17日 49 0 0 大模型

欢迎 Llama 3：Meta 的新一代开源大语言模型

QKcLjRV1cZqV 2024年04月23日 60 0 0 大模型

如何拥有自己的专属GPT-本地部署目前最强大模型llama3

O2yjgOPqUj0W 2024年04月26日 83 0 0 大模型

使用ollama分别在我的window、mac、小米手机上部署体验llama3-8b

p3KwAFlRikPF 2024年04月22日 99 0 0 大模型

聊聊从大模型来看NLP解决方案之UIE

zhNCThJtfE8g 2024年04月22日 46 0 0 大模型

玩转AI，笔记本电脑安装属于自己的Llama 3 8B大模型和对话客户端

CCMY6VB0yzoR 2024年05月17日 42 0 0 大模型

大模型+电力预测？

eKreP5gc7PAg 2024年04月20日 51 0 0 大模型

从零在win10上测试whisper、faster-whisper、whisperx在CPU和GPU的各自表现情况

p3KwAFlRikPF 2024年05月17日 64 0 0 大模型

华为云引领首个代码大模型国际标准立项

YqbaJkf98QJO 2024年05月17日 58 0 0 大模型

通过ORPO技术微调 llama3大模型(Fine-tune Llama 3 with ORPO)

p3KwAFlRikPF 2024年04月23日 51 0 0 大模型

聊聊大模型的屏蔽词工程

zhNCThJtfE8g 2024年04月16日 104 0 0 大模型

“大模型驱动的软件研发” 华为云助推企业研发智能化升级

YqbaJkf98QJO 2024年04月12日 81 0 0 大模型

B5pePHcsyPxf

作者其他文章更多

Pytorch分布式训练，其他GPU进程占用GPU0的原因

2024-02-19

报错Intel MKL FATAL ERROR: Cannot load libmkl_core.so.的一种解决方法

2023-11-02

conda环境下使用nvcc -V报错nvcc: command not found的一种解决方法

2023-11-02

报错ValueError: Can't find 'adapter_config.json'

2023-11-01

报错AttributeError: Attempted to set WANDB to False, but CfgNode is immutable

2023-11-01

在Pycharm上使用远程服务器进行调试

2023-11-01

Learning with Mini-Batch

2023-11-01

抢占GPU的脚本

2023-11-01

最新推荐更多

聊聊大模型的屏蔽词工程

2024-04-16

深度学习基本概念简介

2024-04-16

读天才与算法：人脑与AI的数学思维笔记01_洛夫莱斯测试

2024-04-16

RAG算法优化+新增代码仓库支持，CodeGeeX的@repo功能效果提升

2024-04-16

机器学习基本概念简介

2024-04-15

GPT连问工具随想

2024-04-15

读所罗门的密码笔记20_更好的自己

2024-04-15

Pytorch DistributedDataParallel（DDP）教程一：快速入门理论篇

2024-04-15

Pytorch DistributedDataParallel（DDP）教程二：快速入门实践篇

2024-04-15

向量数据库之Lancedb学习记录

2024-04-15

读所罗门的密码笔记19_治理模式

2024-04-14

解密prompt系列27. LLM对齐经验之如何降低通用能力损失

2024-04-13

读所罗门的密码笔记18_大宪章

2024-04-13

向量数据库Chroma学习记录

2024-04-13

最全能的AI换脸软件，FaceFusion下载介绍（可直播）

2024-04-13

“大模型驱动的软件研发” 华为云助推企业研发智能化升级

2024-04-12

读所罗门的密码笔记17_网络安全

2024-04-12

基于香橙派AIpro将开源框架模型转换为昇腾模型

2024-04-12

元启发式算法库 MEALPY 初体验-遗传算法为例

2024-04-11

读所罗门的密码笔记16_直通心智

2024-04-11