摩杜云开发者社区-摩杜云

cuda vectorized实现矩阵转置

使用了共享内存和向量化传输，目前为止效果最好的一个实现 __global__voidtransposeSmemVec(floatinput,floatoutput,constintX,constintY){ __shared__floatsmem[32432]; unsignedintix=4(blockDim.xblockIdx.x+threadIdx.x); unsignedintiy=blockDim.yblockIdx.y+threadIdx.y; unsignedintti=iyX+ix; floatreg[4]; unsignedintthread_index=threadId...

BFG2ummqUuMW 2023年11月24日 33 0 0 函数调用函数调用核函数向量化向量化核函数

关注更多

空空如也 ~ ~

粉丝更多

空空如也 ~ ~