OpenCL Matrix transpose#
OpenCL(GPU)程序,矩阵转置,对如下的8*8矩阵进行转置运算:
分块大小为:22,一共有(8/2)(8/2)个矩阵块,分对角线和非对角线上的矩阵块;对角线上的块是矩阵内部行列互换,非对角线上的块与自己对称的矩阵块行列互换,需要处理的工作项的个数为上三角矩阵块的个数:4*(4+1)/2=10个,程序的运行结果如下:
【Ref】:
[1] OpenCL实现矩阵转置
[2] source code
OpenCL(GPU)程序,矩阵转置,对如下的8*8矩阵进行转置运算:
分块大小为:22,一共有(8/2)(8/2)个矩阵块,分对角线和非对角线上的矩阵块;对角线上的块是矩阵内部行列互换,非对角线上的块与自己对称的矩阵块行列互换,需要处理的工作项的个数为上三角矩阵块的个数:4*(4+1)/2=10个,程序的运行结果如下:
【Ref】:
[1] OpenCL实现矩阵转置
[2] source code
下一篇 ldd command