对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
如何评价茅台暂停京东供货?
为什么没有人在意iPad Pro 2024标准版仅搭载的8GB内存(RAM)?
为什么Steam Deck能做好Windows游戏转译但是Apple Mac就做不好?
长期使用的大佬来说说,MacOS 真的比 Windows 稳定吗?
lcd屏幕如此护眼,为什么现在没有了?
为什么大家不再提星链了(包括外网)?
既然显卡发热量那么大,为什么不把热量收集利用起来,比如烧水和供暖?
为什么几乎没人用电视屏幕连主机或者笔记本当显示器?
开源掌机值得买吗?
如何把nas中的电影通过网络与蓝光播放器链接并播放?
为什么闺蜜做了妈妈后就像变了个人?
为何 Linus 一个人就能写出这么强的系统,中国却做不出来?
为什么微软会允许中国有那么多盗版?
你们的腰椎间盘突出,怎么治好的?
照骗能骗到什么程度?
只能选一个,你选谁?