CUDAアーキテクチャ
をテンプレートにして作成
[
トップ
|
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
]
開始行:
*GPUアーキテクチャ [#n47580cd]
NVIDIAのGT200アーキテクチャでは,個々が次のユニットを内蔵...
-8個のスカラプロセッサ「SP(Streaming Processor)」
-1個の倍精度ユニット
-シェアードメモリ
を持っています.
よって,1GPUが用いることができる並列スレッドプロセッサの...
SM数,SP数はGPUの種類によって異なり,並列化のスケーラビリ...
並列スレッドはCUDAにより以下の図のように階層的にグループ...
&ref(gpu_architecture.gif);
階層は上から「グリッド」「ブロック」「スレッド」.
スレッドはC for CUDAのプログラムにおいて関数として表され...
カーネルは呼び出されたとき,ユーザの指定したN個の異なるス...
C for CUDAでは,<<< ... >>> 構文でグリッドあたりのブロッ...
ブロックあたりのスレッド数を指定することができます.
ハードウェアは各マルチプロセッサごとにブロックを割り当て...
プロセッサ数に対するスケーラビリティを確保しています.
*メモリ [#q6d034c5]
各マルチプロセッサは以下の4つのタイプのオンチップメモリを...
-32bitレジスター群(各プロセッサ毎)
-シェアードメモリ(SM内のSPが共有)
-コンスタントキャッシュ(読み込み専用)
-テクスチャキャッシュ(読み込み専用)
また,大容量のデバイスメモリを別に持っています.
デバイスメモリはGPUボード上のメモリで,
CPU側のホストメモリとPCIバスを通してデータをやりとりする...
&ref(cuda_memory.jpg);
終了行:
*GPUアーキテクチャ [#n47580cd]
NVIDIAのGT200アーキテクチャでは,個々が次のユニットを内蔵...
-8個のスカラプロセッサ「SP(Streaming Processor)」
-1個の倍精度ユニット
-シェアードメモリ
を持っています.
よって,1GPUが用いることができる並列スレッドプロセッサの...
SM数,SP数はGPUの種類によって異なり,並列化のスケーラビリ...
並列スレッドはCUDAにより以下の図のように階層的にグループ...
&ref(gpu_architecture.gif);
階層は上から「グリッド」「ブロック」「スレッド」.
スレッドはC for CUDAのプログラムにおいて関数として表され...
カーネルは呼び出されたとき,ユーザの指定したN個の異なるス...
C for CUDAでは,<<< ... >>> 構文でグリッドあたりのブロッ...
ブロックあたりのスレッド数を指定することができます.
ハードウェアは各マルチプロセッサごとにブロックを割り当て...
プロセッサ数に対するスケーラビリティを確保しています.
*メモリ [#q6d034c5]
各マルチプロセッサは以下の4つのタイプのオンチップメモリを...
-32bitレジスター群(各プロセッサ毎)
-シェアードメモリ(SM内のSPが共有)
-コンスタントキャッシュ(読み込み専用)
-テクスチャキャッシュ(読み込み専用)
また,大容量のデバイスメモリを別に持っています.
デバイスメモリはGPUボード上のメモリで,
CPU側のホストメモリとPCIバスを通してデータをやりとりする...
&ref(cuda_memory.jpg);
ページ名: