对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
中国与敌国发生战争,哪些国家会帮中国?
Meovv和Babymonster哪个会越来越火?
Node.js是谁发明的?
你被哪个后来知道很sb的BUG困扰过一周以上吗?
社保断缴的后果有些什么?
为什么一部分 Go 布道师的博客不更新了?
乡镇公务员既然提拔快为什么没人主动去乡镇?我很好奇?
修仙文明可能以怎样的方式碾压星际文明?
Switch模拟器哪个好?
有哪些小众的开源项目养活了一大批人?
为什么 Windows 没有比较成熟的第三方桌面环境(explorer.exe)?
有哪些事,是社会底层人认识不到的?
有一个***约你出去,你会去吗?
为什么王楚钦之前被喷三大赛挂0,世乒赛夺冠之后依然被黑?
女孩子腿非常白是什么体验?
为什么负荷那么大的腰部力量训练的人不会受伤,长期无载荷久坐的人会出现腰肌劳损?