你好, CUDA默认的都是pageabled的memory,page-locked也就是pinned memory可以加快host和device之间的数据传输速度,但是使用太多的page-locked的memory会带来整个程序的效率降低。如果程序中存在频繁的cudaMemcpy
我们需要在MFC中调用CUDA程序,显示出GPU和CPU计算两个1024*1024矩阵相乘所消耗的时间。在Matrix Multiplication_KahanMFCView.cpp中包含(include)"CUDA_Transfer.h"文件;在CMatrixMultiplication_KahanMFCView::OnDraw(CDC* pDC)中添加如下代码:float GPU;float CPU;run_cuda(&GPU, &CPU);CString str...