[IT] NVIDIA CUDA Toolkit v4.1 RC2 案内を訳してみた。
[IT] NVIDIA CUDA Toolkit v4.1 RC2 案内を訳してみた。
自分用にしておくより、関心を持つ方に共有できたら素敵だなと思い公開します。登録開発者の方も、そうでない方も最新の情報はキャッチアップしておきたいですよね。カッコ内は私の所感です。(開発経験ない方はそのまま読み飛ばしてください)
[amazon_enhanced asin=”4862461336″ container=”” container_class=”” price=”All” background_color=”FFFFFF” link_color=”000000″ text_color=”0000FF” /] [amazon_enhanced asin=”4906608000″ container=”” container_class=”” price=”All” background_color=”FFFFFF” link_color=”000000″ text_color=”0000FF” /] [amazon_enhanced asin=”484432814X” container=”” container_class=”” price=”All” background_color=”FFFFFF” link_color=”000000″ text_color=”0000FF” /] [amazon_enhanced asin=”B003114OTS” container=”” container_class=”” price=”All” background_color=”FFFFFF” link_color=”000000″ text_color=”0000FF” /]
===
原文:http://developer.nvidia.com/cuda-toolkit-41
このリリースは 新しいLLVMベースのCUDAコンパイラ、1,000以上の新しい画像処理機能、および自動化されたパフォーマンス分析と統合されたエキスパートガイドラインで再設計されたビジュアルプロファイラが含まれています。(Low Level Virtual Machine / 言語非依存環境なので、本当に素晴らしい設計思想です)
我々は、CUDA登録開発者のフィードバックフォームを通じて、このリリースであなたの経験(良し悪し)を聞くのを楽しみにしている。 → CUDA Registered Developer Program .
リリースハイライト
新しいコンパイラを試しませう!
- 新しいLLVMベースのコンパイラは、多くのアプリケーションで10%の高速化を提供します
GPUアクセラレーションライブラリを使用して新しく&改良された”ドロップイン”アクセラレーション
- NVIDIA Performance Primitivesライブラリ (NPP) で1,000以上の画像処理機能
- 最大6コアのCPU上でMKLより10倍以上高速化した新しいcuSPARSE三角対象ソルバー
- MRG32k3aとメルセンヌツイスタ乱数(MTGP11213)RNGアルゴリズムのためのcuRANDを新サポート
- 現在CUDA標準のMathライブラリでサポートされているベッセル関数
- ELLハイブリッド形式を使ってより高速な疎行列とベクトルの乗算を2倍以上高速化
- より詳しい情報は素晴らしい GPU-Accelerated Libraries をご覧ください
強化&再設計された開発者向けツール
- 自動化されたパフォーマンス分析およびエキスパートガイダンスで再設計されたビジュアルプロファイラ
- デバイスコードで ルチコンテキストデバッグと assert() のためのCUDA_GDBをサポート
- CUDA-memcheckは、現在のデバイスのコードに割り当てられたメモリ境界のアクセスを検出
- Parallel Nsight 2.1 CUDA warpは、CUDA全体warpの変数と式を縦断し視覚化
- Parallel Nsight 2.1 CUDAプロファイラは、現在のカーネルメモリの活動、実行ストールとインストラクションのスループットを解析
- GPUの開発者のためのより詳しいデバッギングとパフォーマン解析デバッグツールの詳細はこちら CUDA Tools and Ecosystem Summary Page
高度なプログラミング機能
- デバイスコードから3Dサーフェス(3次元面)とキューブマップへのアクセス
- システムメモリの強化されたコピー無し固定化(これまでメモリコピーにはピン留めするようなイメージがあったと思います、それが不要になったというか)と、cudaHostRegister()配置とサイズ制限がなくなった
- プロセス間のピアツーピア通信
- nvidia-SMIに、システムリブートせずにGPUをリセットするためのサポート(これ便利だね)
新しい&改良されたSDKのコードサンプル
- simpleP2Pサンプルは現在、どのようなFermi (アーキテクチャ)GPUとのピアツーピア通信をサポートする。
- 新しいgrabcutNPPサンプルは、グラフ分割の反復処理を用いたインタラクティブな前景抽出を描画する。
- オプティカルフロー(視覚表現)のためのホーンシャンク(Horn-Schunck)メソッドを実装する新しいサンプルは、ボリュームフィルタリングを演算し、キューブマップテクスチャを読み込む。