答え:root権限を与えてnvprofを実行する。
例:(「CUDAプロフェッショナルプログラミング」を読んでいるところなので)
sudo /usr/local/cuda-10.0/bin/nvprof --metrics gld_throughput ./sumMatrix 32 32
ちなみに、私の環境は以下のとおり。
$ nvprof --version nvprof: NVIDIA (R) Cuda command line profiler Copyright (c) 2012 - 2018 NVIDIA Corporation Release version 10.0.117 (21) $ nvcc --version nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2018 NVIDIA Corporation Built on Sun_Aug_12_21:08:25_CDT_2018 Cuda compilation tools, release 10.0, V10.0.117
デバイスは、Jetpack Xavier です。