有人说,我做一款AI芯片,只要原生支持PyTorch就好了呀,用户直接用PyTorch跑模型,根本接触不到CUDA呀。
没错,一般的用户只要在PyTorch层面做应用,但是总是有新的模型架构出来,这些架构都需要做特定的性能优化才能在一个芯片上得到较高的性能,这时候就涉及到算子开发了。
比如说一开始LLM在GPU上的性能不好,后来社区针对Nvidia GPU做了flash attention等的优化才把LLM的性能提升到了比较可观的程度。
CUDA已经被各种开源AI框…。
{dede:pagebreak/}
高德地图红绿灯读秒怎么实现的?
你见过最沉着住气的人是什么样子?
手机的运行内存真的有必要上16GB吗?
鱼缸的硝酸盐含量为多少比较合适?
为什么都认为无GC语言一定会比有GC语言要快?
请问照片里这个人是谁呀?
Windows上有没有一分多屏和多屏合一的软件?
做引体向上可能会诱发腰肌劳损吗?
毕设答辩,老师说node不可能写后台怎么办?
电脑有64G的物理内存(DDR5 5200),完全够用了,可以关闭系统的虚拟内存吗?
为什么不用rust重写Nginx?
什么是微软式中文?
有谁现在正在使用苹果mac mini 吗?能分享一下使用感受不?
想自己DIY一个NAS,想听听大家的意见。?
哪张夏天的老照片,让你一想起来就嘴角上扬?
为什么盗版音乐已经被严格限制了,而中国音乐却还是没有发展起来?