CUDAIntro
19/21 並列計算(4/4)

【テロップ】
※各テロップ文字をクリックすると該当の場所がピンポイントで閲覧できます。



【ノート】
最後に、ここまでのまとめとして、プログラム例の全体を示します。この例は、256スレッドを用いて、256要素の配列の計算をするものになっています。また、ブロック内のスレッド数の32の倍数である、64にしています。 流れとしては、 クーダマロックを用いて、 デバイスメモリ上に配列を確保します。 次に、クーダメムコピーにより、ホストのメモリからデバイスのメモリに、 データを移動します。 ここで、GPUの実行を 開始します。 GPUでの計算はカーネル関数で 記述します。 GPUでの計算が終われば、クーダメムコピーで、 計算結果を、デバイスメモリからホストメモリに移動します。 最後に、デバイス上の配列を 解放します。