对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
国密加密算法有多安全呢?
中国民间中小工厂能快速造出武器吗?
鱼缸的硝酸盐含量为多少比较合适?
DeepSeek 那么厉害为什么要开源?
如何看待rust编写的zed编辑器?
Rust、Go、Zig、Dart、C3、C++、C,仓颉、moonbit、凹语言哪个语言更有未来?
如何看待不超过1879元的Mac mini(M4+16/256GB+票),易用性吊打同级其他台式电脑?
如何看待 Rust 的应用前景?
Rust开发Web后端效率如何?
为什么买了Switch后,却发现它并没有那么好玩?
postgresql也很强大,为何在中国大陆,mysql成为主流,postgresql屈居二线呢?
生活中怎样的美女才能被称为「大」美女?
golang是目前最完美的语言吗?
以色列伊朗持续多日空对空轰炸,谁会先撑不住?双方的***还能支撑多久?还有哪些「杀手锏」没投入战场?
中国军队有多强,在世界能排第几?
鱼缸的硝酸盐含量为多少比较合适?