记录TritonServer部署多模型到多GPU踩坑 | 京东云技术团队-摩杜云开发者社区

记录TritonServer部署多模型到多GPU踩坑 | 京东云技术团队

GlkGUhBxsw3T 2023年11月02日 52 0

解决方案加载人工智能人工智能加载 GPU 解决方案 GPU

一、问题是怎么发现的

部署chatglm2和llama2到一个4*V100的GPU机器上遇到问题

config.pbtxt

中设置模型分别在指定gpu上部署实例配置不生效

如以下配置为在gpu0上部署本模型,部署count=1个实例,在gpu1上部署本模型,部署count=2个实例

instance\_group \[ { count: 1 kind: KIND\_GPU gpus: \[ 0 \] },

{ count: 2

kind: KIND_GPU

gpus: \[ 1 \] } \]

部署时发现,所有模型实例都会被部署到gpu0上面, 由于gpu只有16g显存,在部署第一个模型实例成功后,第二个模型实例也会往gpu0上进行加载,最终导致cuda out of memery.

网上搜索发现有人遇到同样的问题,链接: https://github.com/triton-inference-server/server/issues/6124

记录TritonServer部署多模型到多GPU踩坑 | 京东云技术团队_加载

二、排查问题的详细过程

大佬回答解决方案:

记录TritonServer部署多模型到多GPU踩坑 | 京东云技术团队_解决方案_02

三、如何解决问题

1.在model.py手动获取config.pbtxt配置的gpu编号gpus:\[0\]

instance_group \[

{

count: 1

kind: KIND_GPU

gpus: \[ 0 \]

}

\]

2.设置可用的GPU编号

os.environ\["CUDA\_VISIBLE\_DEVICES"\] = str(device_id)

3.启动成功

记录TritonServer部署多模型到多GPU踩坑 | 京东云技术团队_人工智能_03

四、总结反思:是否可以更快发现问题?如何再次避免等。

triton启动的使用使用 nvidia-smi -l 2 监控显卡想显存, 可以发现所有模型都在往第一个gpu,gpu\[0\]内加载,发现配置config.pbtxt不生效

作者：京东科技杨建

来源：京东云开发者社区转载请注明来源

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇：记录TritonServer部署多模型到多GPU踩坑 | 京东云技术团队下一篇： AI原生应用速通指南

分享：

最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读

pytorch在训练过程中如何保存最好的模型

WB6LihfPs90J 2023年12月23日 147 0 0 加载示例代码 python python 加载示例代码

浪潮信息大突破：全面开源1026亿参数模型源2.0

BfeTe3rB0Jc5 2023年12月23日 137 0 0 数据集人工智能开发者人工智能数据集开发者

人工智能中的文本分类：技术突破与实战指导

RV1gsisgsnyu 2023年12月23日 92 0 0 机器学习人工智能人工智能深度学习深度学习机器学习

机器人行业赛道火热，还是存在泡沫？来看看风险投资家如何看待机器人产业

NFuyy6GgPVw8 2023年12月23日 41 0 0 估值商业模式商业模式解决方案估值解决方案

AI PC元年会带火PC集群吗？云游戏迎来黄金时代。Stable Diffusion显存之选：12G及格，16G自由，24G上天

5t1SOGTEp6c1 2023年12月23日 35 0 0 解决方案服务器服务器数据数据解决方案

山姆·奥特曼重新掌舵OpenAI，为人工智能“保驾护航”

NFuyy6GgPVw8 2023年12月23日 75 0 0 人工智能人工智能计算机系统计算机系统

紫光展锐T820与飞桨完成I级兼容性测试助推端侧AI融合创新

xlSZiuI98z7y 2023年12月23日 62 0 0 兼容性测试机器学习人工智能兼容性测试机器学习硬件人工智能硬件

从信息量角度看人类智能与机器智能

Ogga3uE37pyy 2023年12月23日 61 0 0 AI 人工智能白海科技语言模型 LLM 人工智能 AI 语言模型 LLM 白海科技

NLP项目实战02：英文文本识别

2YSLYthvppn3 2023年12月23日 61 0 0 人工智能词云 NLP 人工智能 Test 词云数据数据 Test NLP

解放生产力！苏哒智能加入飞桨技术伙伴计划，用大模型革新企业办公工具

xlSZiuI98z7y 2023年12月23日 34 0 0 解决方案核心技术百度百度核心技术企业办公企业办公解决方案

【博主新书】《OpenCV应用开发：入门、进阶与工程化实践》

wG3Bp6gOGHoh 2023年12月23日 64 0 0 深度学习人工智能 OpenCV 深度学习人工智能 CUDA 图像处理图像处理 CUDA OpenCV

GPT-4恢复了不再偷懒并且提高了其推理能力和生成能力

E6L4pNGARErG 2023年12月23日 64 0 0 ChatGPT GPT 人工智能 API API 人工智能数据源 GPT 数据源 ChatGPT

羚通视频智能分析平台车辆检测：科技引领交通管理新时代

bhI5HKfMRQFj 2023年12月23日 77 0 0 人工智能人工智能数据实时监控实时监控数据

深度学习letterbox

NHaurzrhyr04 2023年12月23日 155 0 0 Python 加载深度学习深度学习 python 加载

OpenAI 重新开放 ChatGPT Plus 新用户注册

KDk97yxRQlQU 2023年12月23日 111 0 0 人工智能用户注册开发者人工智能开发者用户注册

AI智能写作助手：你的私人写作教练，助你成就写作梦想

vS46sZhaV5hJ 2023年12月23日 71 0 0 AI写作人工智能人工智能 AI写作 AI写作软件 AI写作软件

GlkGUhBxsw3T

作者其他文章更多

一种轻量分表方案-MyBatis拦截器分表实践

2024-01-26

让错误码规范起来吧

2024-01-26

画眉（京东科技设计稿转代码平台）介绍

2024-01-22

ElasticSearch降本增效常见的方法 | 京东云技术团队

2024-01-15

京东ES支持ZSTD压缩算法上线了:高性能，低成本 | 京东云技术团队

2024-01-15

线索系统性能优化实践

2024-01-11

你还在“垃圾”调优？快来看看JDK17的ZGC如何解放双手 | 京东云技术团队

2024-01-10

系统存储架构升级分享

2024-01-09

数字化时代下的数字化资产及其治理 |京东云技术团队

2024-01-09

Mybatis 拦截器实现单数据源内多数据库切换 | 京东物流技术团队

2024-01-08

最新推荐更多

聊聊大模型的屏蔽词工程

2024-04-16

深度学习基本概念简介

2024-04-16

读天才与算法：人脑与AI的数学思维笔记01_洛夫莱斯测试

2024-04-16

RAG算法优化+新增代码仓库支持，CodeGeeX的@repo功能效果提升

2024-04-16

机器学习基本概念简介

2024-04-15

GPT连问工具随想

2024-04-15

读所罗门的密码笔记20_更好的自己

2024-04-15

Pytorch DistributedDataParallel（DDP）教程一：快速入门理论篇

2024-04-15

Pytorch DistributedDataParallel（DDP）教程二：快速入门实践篇

2024-04-15

向量数据库之Lancedb学习记录

2024-04-15

读所罗门的密码笔记19_治理模式

2024-04-14

解密prompt系列27. LLM对齐经验之如何降低通用能力损失

2024-04-13

读所罗门的密码笔记18_大宪章

2024-04-13

向量数据库Chroma学习记录

2024-04-13

最全能的AI换脸软件，FaceFusion下载介绍（可直播）

2024-04-13

“大模型驱动的软件研发” 华为云助推企业研发智能化升级

2024-04-12

读所罗门的密码笔记17_网络安全

2024-04-12

基于香橙派AIpro将开源框架模型转换为昇腾模型

2024-04-12

元启发式算法库 MEALPY 初体验-遗传算法为例

2024-04-11

读所罗门的密码笔记16_直通心智

2024-04-11