对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
为什么这次以色列打伊朗,网上声讨的人少了,反而都是嘲笑调侃伊朗?
据报道称“浏览器内核有上千万行代码”,浏览器内核真的很复杂吗?
女生穿超短裙就是为了给别人看吗?
arxiv国内有镜像网站吗?
中国外交部及有关使领馆正迅速组织撤离在以、伊的中国公民,目前当地情况如何?
如果两辆同型号的车换了车牌,电子警察会发现吗?
5499元的iPhone16Pro 16号晚 8 点开抢,苹果耳机也能用88VIP券了,有哪些攻略?
systemd吞并了什么?
Obsidian git 插件不能使用,请问有人知道怎么解决吗?
30岁了,你在深圳过着什么样的生活?
理论上flutter性能应该非常高才对,为什么好些flutter应用性能一般?
为什么全世界无一人能实现新mac直接全功能稳定装Win 11 arm,或PC直接装macOS arm?
为什么小时候去计算机教室(微机室)要穿鞋套?电脑那么金贵吗?
鱼缸氨氮含量低,但是硝酸盐和亚硝酸盐爆表,已经一个多周了,咋办?
个人做量化,买不起专业数据库,如何获取 L2数据?
苹果电脑的 macOS 系统有多难用?