ストリーム
をテンプレートにして作成
[
トップ
|
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
]
開始行:
*非同期同時実行 [#h9e0d186]
ホストとデバイスの同時実行を簡単にするために,
以下の関数は非同期(デバイスが要求されたタスクを完了する前...
-カーネル起動関数
-接尾辞が''Async''のメモリコピー処理関数
-デバイス-デバイス間メモリコピー処理関数
-メモリ設定関数
[[ページロックホストメモリ]]でも述べたように,デバイスに...
Page-lockedホストメモリとデバイスメモリ間のコピーもカーネ...
これらの非同期関数を管理するためにストリーム,モニターす...
*ストリーム [#v841adb6]
ストリームは順に実行される命令列で,非同期の処理の流れを...
ストリームを作成することで,メモリの確保,データ転送,カ...
の基本的なGPUの処理の流れを並列に実行できます.
ストリームはストリームオブジェクトを作成して,
各非同期関数の引数にそれを指定することでその中で実行する...
以下にストリーム作成と命令の指定例として,1からmax_numま...
実行するコードです.ただし,max_numはnstreamの倍数である...
カーネルにはCUDA SDKに同梱のサンプルコードReductionのredu...
#code(C){{
void CuStreamTest(int max_num)
{
int nstream = 2;
int n = max_num/nstream;
int size = n*sizeof(int);
int **dInData = (int**)malloc(nstream*sizeof(int*));
int **hInData = (int**)malloc(nstream*sizeof(int*));
for(int i = 0; i < nstream; ++i){
cutilSafeCall(cudaMallocHost((void**)&hInData[i], size));
cutilSafeCall(cudaMalloc((void**)&dInData[i], size));
for(int j = 0; j < n; ++j){
hInData[i][j] = i*n+j;
}
}
uint numThreads, numBlocks;
numThreads = min(64, n);
numBlocks = iDivUp(n, numThreads);
int smemSize = numThreads*sizeof(int);
int **hOutData = (int**)malloc(nstream*sizeof(int*));
int **dOutData = (int**)malloc(nstream*sizeof(int*));
for(int i = 0; i < nstream; ++i){
cutilSafeCall(cudaMallocHost((void**)&hOutData[i], numB...
cutilSafeCall(cudaMalloc((void**)&dOutData[i], numBlock...
}
cudaStream_t *streams = (cudaStream_t*)malloc(nstream*si...
for(int i = 0; i < nstream; ++i){
cutilSafeCall(cudaStreamCreate(&streams[i]));
}
for(int i = 0; i < nstream; ++i){
cutilSafeCall(cudaMemcpyAsync(dInData[i], hInData[i]...
}
for(int i = 0; i < nstream; ++i){
reduce2<int><<< numBlocks, numThreads, smemSize, stream...
}
for(int i = 0; i < nstream; ++i){
cutilSafeCall(cudaMemcpyAsync(hOutData[i], dOutData[...
}
cudaThreadSynchronize();
int sum_gpu = 0;
for(int i = 0; i < nstream; ++i){
for(int j = 0; j < numBlocks; ++j){
sum_gpu += hOutData[i][j];
}
}
int sum_cpu = 0;
for(int j = 0; j < n*nstream; ++j){
sum_cpu += j;
}
printf("gpu : %d\n", sum_gpu);
printf("cpu : %d\n", sum_cpu);
for(int i = 0; i < nstream; i++){
cudaStreamDestroy(streams[i]);
}
for(int i = 0; i < nstream; i++){
cudaFreeHost(hInData[i]);
cudaFreeHost(hOutData[i]);
cudaFree(dInData[i]);
cudaFree(dOutData[i]);
}
cudaThreadExit();
}
}}
実行結果は,
gpu : 8256
cpu : 8256
です.
*イベント [#w4c43312]
終了行:
*非同期同時実行 [#h9e0d186]
ホストとデバイスの同時実行を簡単にするために,
以下の関数は非同期(デバイスが要求されたタスクを完了する前...
-カーネル起動関数
-接尾辞が''Async''のメモリコピー処理関数
-デバイス-デバイス間メモリコピー処理関数
-メモリ設定関数
[[ページロックホストメモリ]]でも述べたように,デバイスに...
Page-lockedホストメモリとデバイスメモリ間のコピーもカーネ...
これらの非同期関数を管理するためにストリーム,モニターす...
*ストリーム [#v841adb6]
ストリームは順に実行される命令列で,非同期の処理の流れを...
ストリームを作成することで,メモリの確保,データ転送,カ...
の基本的なGPUの処理の流れを並列に実行できます.
ストリームはストリームオブジェクトを作成して,
各非同期関数の引数にそれを指定することでその中で実行する...
以下にストリーム作成と命令の指定例として,1からmax_numま...
実行するコードです.ただし,max_numはnstreamの倍数である...
カーネルにはCUDA SDKに同梱のサンプルコードReductionのredu...
#code(C){{
void CuStreamTest(int max_num)
{
int nstream = 2;
int n = max_num/nstream;
int size = n*sizeof(int);
int **dInData = (int**)malloc(nstream*sizeof(int*));
int **hInData = (int**)malloc(nstream*sizeof(int*));
for(int i = 0; i < nstream; ++i){
cutilSafeCall(cudaMallocHost((void**)&hInData[i], size));
cutilSafeCall(cudaMalloc((void**)&dInData[i], size));
for(int j = 0; j < n; ++j){
hInData[i][j] = i*n+j;
}
}
uint numThreads, numBlocks;
numThreads = min(64, n);
numBlocks = iDivUp(n, numThreads);
int smemSize = numThreads*sizeof(int);
int **hOutData = (int**)malloc(nstream*sizeof(int*));
int **dOutData = (int**)malloc(nstream*sizeof(int*));
for(int i = 0; i < nstream; ++i){
cutilSafeCall(cudaMallocHost((void**)&hOutData[i], numB...
cutilSafeCall(cudaMalloc((void**)&dOutData[i], numBlock...
}
cudaStream_t *streams = (cudaStream_t*)malloc(nstream*si...
for(int i = 0; i < nstream; ++i){
cutilSafeCall(cudaStreamCreate(&streams[i]));
}
for(int i = 0; i < nstream; ++i){
cutilSafeCall(cudaMemcpyAsync(dInData[i], hInData[i]...
}
for(int i = 0; i < nstream; ++i){
reduce2<int><<< numBlocks, numThreads, smemSize, stream...
}
for(int i = 0; i < nstream; ++i){
cutilSafeCall(cudaMemcpyAsync(hOutData[i], dOutData[...
}
cudaThreadSynchronize();
int sum_gpu = 0;
for(int i = 0; i < nstream; ++i){
for(int j = 0; j < numBlocks; ++j){
sum_gpu += hOutData[i][j];
}
}
int sum_cpu = 0;
for(int j = 0; j < n*nstream; ++j){
sum_cpu += j;
}
printf("gpu : %d\n", sum_gpu);
printf("cpu : %d\n", sum_cpu);
for(int i = 0; i < nstream; i++){
cudaStreamDestroy(streams[i]);
}
for(int i = 0; i < nstream; i++){
cudaFreeHost(hInData[i]);
cudaFreeHost(hOutData[i]);
cudaFree(dInData[i]);
cudaFree(dOutData[i]);
}
cudaThreadExit();
}
}}
実行結果は,
gpu : 8256
cpu : 8256
です.
*イベント [#w4c43312]
ページ名: