注:如下是在做深度学习框架开发时,用到的火焰图pprof和CUDANsys配置指南,可能对大家有一些帮助,就此分享。一些是基于飞桨的Docker镜像配置的。 一、环境&工具配置 0.开发机配置 1.构建镜像,记得映射端口,可以多映射几个;记得挂载ssd目录,因为数据都在ssd盘上 nvidia-dockerrun-it--name=profile_dev--shm-size128G--ulimitcore=-1--cap-addALL-v$PWD:/workspace-v/ssd1:/ssd1-v/ssd2:/ssd2-v/ssd3:/ssd3--net=host-p9422:22...

  1XHMWPmbm7U6   12天前   21   0   0 AI综合

参考自NvidiacuRand官方API文档 一、具体使用场景 如下是是在dropout优化中手写的uniform_random的Kernel: include<cuda_runtime.h> include<curand_kernel.h> __device__inlinefloatcinn_nvgpu_uniform_random_fp32(intseed){ curandStatePhilox4_32_10_tstate; intidx=threadIdx.x+blockIdx.xblockDim.x; curand_init(seed,idx,1,&amp...

  1XHMWPmbm7U6   2023年11月01日   49   0   0 AI综合
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~