k8s调用GPU-摩杜云开发者社区

k8s调用GPU

TEZNKK3IfmPf 2023年11月13日 40 0

k8s GPU

apiVersion: apps/v1
kind: Deployment
metadata:
  name: gpu-master
  namespace: gpu
spec:
  replicas: 1
  selector:
    matchLabels:
      app: gpu-master
  template:
    metadata:
      labels:
        app: gpu-master
    spec:
      hostname: gpu-master
      containers:
      - name: gpu-master
        image: 192.168.168.10:5000/library/pytorch-gpu:v3
        env:
        - name: NVIDIA_DRIVER_CAPABILITIES
          value: compute,utility
        - name: NVIDIA_VISIBLE_DEVICES
          value: all
        securityContext:
          privileged: true
          runAsUser: 0
        resources:
           limits:
             nvidia.com/gpu: "1"
           requests:
             nvidia.com/gpu: "1"
        volumeMounts:
        - name: code-host-path
          mountPath: /persistent
      volumes:
      - name: code-host-path
        hostPath:
           path: /root/gpu/gpucode

创建可调用GPU的job

apiVersion: batch/v1
kind: Job
metadata:
  labels:
    app-name: gpu-job
    job-name: gpu-job
  name: gpu-job
  namespace: gpu
spec:
  backoffLimit: 6
  parallelism: 1
  template:
    metadata:
      labels:
        app-name: gpu-job
        job-name: gpu-job
      name: gpu-job
    spec:
      containers:
      - command:
        - /bin/bash
        - -c
        - '/usr/local/anaconda2/envs/edu_pytorch/bin/python3.6 /persistent/test.py '
        image: 192.168.168.10:5000/library/pytorch-gpu:v3
        env:
        - name: NVIDIA_DRIVER_CAPABILITIES
          value: compute,utility
        - name: NVIDIA_VISIBLE_DEVICES
          value: all
        imagePullPolicy: IfNotPresent
        name: gpu-job
        resources:
          limits:
            nvidia.com/gpu: "1"
          requests:
            nvidia.com/gpu: "1"
        securityContext:
          privileged: true
          procMount: Default
        volumeMounts:
        - name: code-host-path
          mountPath: /persistent
      dnsPolicy: ClusterFirst
      hostname: gpu-job
      restartPolicy: OnFailure
      schedulerName: default-scheduler
      securityContext: {}
      volumes:
      - name: code-host-path
        hostPath:
           path: /root/gpu/gpucode

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇： cpu和gpu有什么区别？下一篇：用通配符批量同步MySQL部分数据表

分享：

最后一次编辑于 2023年11月13日 0

暂无评论

推荐阅读

k8s prometheus的语法检查

TEZNKK3IfmPf 2023年11月15日 20 0 0 k8s prometheus

K8S系列（六）DaemonSet详解

TEZNKK3IfmPf 2024年05月31日 25 0 0 k8s kubernetes

二进制部署K8s集群第11节Node节点之kubelet部署

TEZNKK3IfmPf 2023年11月15日 34 0 0 k8s kubernetes

K8S系列（七）应用配置管理

TEZNKK3IfmPf 2024年05月31日 24 0 0 k8s kubernetes

卸载kubeadm安装的K8s集群

TEZNKK3IfmPf 2023年11月15日 33 0 0 k8s

二进制部署K8s集群第10节Master节点之部署四层反向代理

TEZNKK3IfmPf 2023年11月15日 32 0 0 k8s kubernetes

常见的 Kubernetes 面试题总结

TEZNKK3IfmPf 2023年11月14日 24 0 0 Pod k8s

二进制部署K8s集群第1节前置准备工作之服务器初始化

TEZNKK3IfmPf 2023年11月15日 38 0 0 k8s kubernetes

二进制部署K8s集群第17节控制器使用

TEZNKK3IfmPf 2023年11月15日 25 0 0 k8s kubernetes

二进制部署K8s集群第9节Master节点之controller-manager集群部署

TEZNKK3IfmPf 2023年11月15日 29 0 0 k8s kubernetes

二进制部署K8s集群第12节Node节点之kube-proxy部署

TEZNKK3IfmPf 2023年11月15日 34 0 0 k8s kubernetes

二进制部署K8s集群第18节K8s服务暴露之NodePort型Service

TEZNKK3IfmPf 2023年11月15日 43 0 0 k8s kubernetes

二进制部署K8s集群第20节addons之flanneld优化SNAT规则

TEZNKK3IfmPf 2023年11月15日 32 0 0 k8s kubernetes

2022-03-16 k8s的operator接收数据到数据队列的过程

TEZNKK3IfmPf 2023年11月15日 19 0 0 operator queue sed k8s

二进制部署K8s集群第24节平滑切换版本技巧

TEZNKK3IfmPf 2023年11月15日 36 0 0 k8s kubernetes

一次文件句柄消耗过多的排查过程

TEZNKK3IfmPf 2023年11月15日 33 0 0 nodejs k8s

二进制部署K8s集群第26节之storageClass动态挂载对接NFS存储

TEZNKK3IfmPf 2023年11月15日 35 0 0 k8s kubernetes

通过Annotation配置负载均衡

TEZNKK3IfmPf 2023年11月15日 22 0 0 k8s

2022-04-01 访问k8s内的etcd的数据

TEZNKK3IfmPf 2023年11月15日 26 0 0 etcd k8s 数据 ide

如何远程调试k8s里的jettypod

TEZNKK3IfmPf 2023年11月15日 24 0 0 k8s java jar

TEZNKK3IfmPf

作者其他文章更多

使用代码获得所有适用于创建的transaction type

2024-06-14

C/C++ realloc()函数解析

2024-06-14

生成一个文件保存在指定的文件夹中思路 python

2024-06-14

Windows 10封装中出现“无法验证你的Windows安装”错误解决方法

2024-06-14

109-修改返回体的内容RestControllerAdvice

2024-06-14

C/C++ 判断进程是否存在

2024-06-14

使用面向对象重构之-使用接口完成行为抽象

2024-06-14

使用面向对象重构之-把抽象控制在一处：提高内聚性

2024-06-14

重操旧业障碍多

2024-06-14

关于关闭自动装配

2024-06-14

最新推荐更多

使用代码获得所有适用于创建的transaction type

2024-06-14

C/C++ realloc()函数解析

2024-06-14

生成一个文件保存在指定的文件夹中思路 python

2024-06-14

Windows 10封装中出现“无法验证你的Windows安装”错误解决方法

2024-06-14

109-修改返回体的内容RestControllerAdvice

2024-06-14

C/C++ 判断进程是否存在

2024-06-14

使用面向对象重构之-使用接口完成行为抽象

2024-06-14

使用面向对象重构之-把抽象控制在一处：提高内聚性

2024-06-14

重操旧业障碍多

2024-06-14

关于关闭自动装配

2024-06-14

使用面向对象重构之-从过程式设计到面向对象

2024-06-14

nodejs部署神器pm2的使用体验

2024-06-14

java虚拟机启动过程解析

2024-06-14

mysql-忘记密码时重置操作

2024-06-14

Callable和runnable的区别

2024-06-14

python的粘包和分包

2024-06-14

tftp文件服务（udp端口：69）

2024-06-14

C语言反汇编 - 流程控制与循环结构

2024-06-14

python-列表包字典-根据字典的某一个键的值来进行排序

2024-06-14

使用面向对象重构之-使用接口抽象完成不同维度的扩展

2024-06-14