алгоритм такой:
Функция ядра проводит некоторые вычисления и записывает в переменную в памяти GPU флаг о корректности расчетов,
Этот флаг затем считывается из памяти GPU через cudaMemcpyFromSymbol(...) и делается заключение о правильности расчета.
Если расчет неверный - снова запуск ядра с другими параметрами.
На вызов cudaMemcpyFromSymbol(...) тратится слишком много времени.
Вернуть надо только один бит. Ради этого бита приходится вызывать cudaMemcpyFromSymbol, что резко снижает скорость.
Вопрос: можно ли из функции ядра каким либо иным образом вернуть этот флаг в хост нежели через память GPU ?
Заранее спасибо.