使用了共享内存和向量化传输,目前为止效果最好的一个实现 __global__voidtransposeSmemVec(floatinput,floatoutput,constintX,constintY){ __shared__floatsmem[32432]; unsignedintix=4(blockDim.xblockIdx.x+threadIdx.x); unsignedintiy=blockDim.yblockIdx.y+threadIdx.y; unsignedintti=iyX+ix; floatreg[4]; unsignedintthread_index=threadId...

关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~