关闭广告

华为版CUDA,全面开源了

量子位2025-08-07 00:00:014876人阅读

红交 发自 凹非寺
量子位 | 公众号 QbitAI

华为版本CUDA,全面开源开放!

最新消息,华为宣布为其昇腾AI GPU开源其CANN软件工具包。



华为轮值董事长徐直军在主题演讲中强调:华为AI战略的核心是算力,并坚持昇腾硬件变现。

基于这一背景下,徐直军在会上宣布华为昇腾硬件使能CANN全面开源开放,Mind系列应用使能套件及工具链全面开源,支持用户自主的深度挖潜和自定义开发,加速广大开发者的创新步伐,让昇腾更好用、更易用

CANN,神经网络计算架构,提供多层编程接口,帮助用户构建针对华为昇腾的AI应用程序。

它是一个由多种技能栈和算子加速库等组成的软件生态系统,换句话说,它就像是华为版本的CUDA,为GPU提供相同的接口。

巧合的是,同一天,一传奇GPU大佬创业公司终于浮出水面,他们不搞消费级GPU,而是做CUDA类似软件生态系统。



看来,想要挑战英伟达的玩家可真不少。

华为版CUDA全面开源

过去,开发者苦于CUDA封闭生态系统久矣。

除了英伟达自身硬件,CUDA几乎不支持其他第三方,因此开发者如果想用CUDA来构建软件,就只能使用英伟达的GPU。这其实也构成了英伟达的核心壁垒。

因为一旦开发者想要迁移到其他产品。那么就需要重写代码,使用生态相对不成熟的替代库,同时也会失去英伟达围绕CUDA建立起来的庞大技术社区的支持。

之前有项目尝试将CUDA功能(通过转换层)引入其他 GPU供应商,但由于英伟达阻拦,这些项目大多未能成功。2024年CUDA 11.6版开始,就禁止使用转换层。

如今,在昇腾计算产业发展峰会上,华为宣布开源CANN架构,以及Mind系列应用使能套件及工具链也跟着开源,那么开发者可以自主深度挖掘昇腾GPU的潜力。

目前CANN已经升级到8.0版本,它主要提供两个版本:社区版,提供新功能的早期体验;商业版,提供专为企业用户量身定制的稳定版本。两个版本都更新到了8.2.RC1版本,新增适配12款操作系统。

与CANN配套的,还有华为自研深度学习框架MindSpore,其作用类似于PyTorch,这些工具共同构成了华为原生的AI软硬件方案。



截至目前,CANN已支持包括PyTorch、MindSpore、TensorFlow、飞桨、ONNX、计图、OpenCV和OpenMMLab等深度学习框架与第三方库。



在会上,与会代表和华为还共同发起了《CANN开源开放生态共建倡议》。

看来在构建开源开放的昇腾生态这件事儿上,华为已经开始大力出手了。

传奇GPU架构师创业,对标英伟达CUDA

而挑战英伟达CUDA生态的,业内还有不少玩家。

比如就有一位传奇GPU架构师Raja Koduri,宣布创立了一家GPU初创公司Oxmiq Labs。



他曾效力于AMD、苹果、英特尔等,曾在英特尔担任加速计算系统和图形(AXG)业务执行副总裁。加入英特尔之前,他曾担任AMD的图形部门Radeon Technologies Group的高级副总裁兼首席架构师。

而现在创立的这家公司专注于开发GPU硬件和软件IP,并将其授权给各方。他将这家公司定位为硅谷25年以来第一家GPU初创公司。



不过他们不打造消费级GPU,也不开发GPU所需的所有IP模块,他们提供一个垂直集成平台,该平台将GPU硬件IP与功能齐全的软件堆栈相结合,旨在满足AI、图形和多模态工作负载的需求,在这些工作负载中,显式并行处理至关重要。



在硬件方面,Oxmiq提供了一个基于RISC-V指令集架构(ISA)的GPU IP核OxCore,该核将标量、矢量和张量计算引擎集成在一个模块化架构中,并支持近内存和内存计算功能。

Oxmiq还提供基于芯片集(chiplet)的系统级芯片(SoC)构建器OxQuilt,使客户能够根据特定工作负载需求,快速且经济高效地创建集成计算集群桥接器(CCB,可能集成OxCores)、内存集群桥接器(MCB)和互连集群桥接器(ICB)模块的SoC。



例如,用于边缘应用的推理AI加速器可以封装一个或两个CCB和一个ICB,推理SoC则需要更多CCB、MCB和ICB,而用于AI训练的大规模SoC则可能封装数十个芯片集。

Oxmiq尚未透露其OxQuilt是仅支持构建多芯片集系统级封装(SiP),还是也可用于组装单片处理器。

不过他们的软件业务似乎更为核心和关键。他们提供的软件包可以兼容第三方的硬件,支持在各种硬件平台上部署AI和图形工作负载。



该软件堆栈的核心是OXCapsule,这是一个统一的运行时和调度层,用于管理工作负载分配、资源平衡和硬件抽象。

该堆栈的一个突出组件是OXPython,它是一个兼容层,将以CUDA为中心的工作负载转换为Oxmiq的运行时,并允许基于Python的CUDA应用程序在非英伟达硬件上无需修改即可运行,无需重新编译。

OXPython最初不会在Oxmiq的IP上发布,而是在Tenstorrent的Wormhole和Blackhole AI加速器上发布。

事实上,Oxmiq的软件堆栈从根本上设计为独立于Oxmiq硬件,这是其战略的核心部分。

不管最后结果如何,但竞争的号角已经吹响,最终受益的究竟还是开发者。

参考链接:
[1]https://x.com/RajaXg/status/1952633159818060164
[2]https://www.tomshardware.com/tech-industry/artificial-intelligence/huawei-is-making-its-ascend-ai-gpu-software-toolkit-open-source-to-better-compete-against-cuda
[3]https://www.tomshardware.com/tech-industry/artificial-intelligence/legendary-gpu-architect-raja-koduris-new-startup-leverages-risc-v-and-targets-cuda-workloads-oxmiq-labs-supports-running-python-based-cuda-applications-unmodified-on-non-nvidia-hardware
[4]https://mp.weixin.qq.com/s/cK7REZ9_ToHPEq4iyWoRqA

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

台湾艺人修杰楷、陈柏霖涉嫌逃避兵役被台检拘提问话

界面新闻 浏览 45 10-22

闹大了!荣梓杉被女友控诉出轨家暴,回应否认,评论区沦陷了

娱乐圈笔娱君 浏览 56 10-17

曼联6500万签塞门约计划细节曝光!只有20天操作,已讨论个人待遇

罗米的曼联博客 浏览 27 12-21

马卡:因辩方要求评估法官回避情况,马拉多纳死亡案预审暂停

懂球帝 浏览 5222 07-19

全球首台8cm宽体光子计数CT,东软集团光子计数CT获药监局批准上市

财闻 浏览 69 08-26

50+女人不被年龄束缚,也能赶时髦!学会这3个技巧美得更轻松

静儿时尚达人 浏览 8257 06-05

女人夏天穿衣别发愁,试试这27套日常穿搭,每天穿衣有灵感

静儿时尚达人 浏览 9844 06-03

这个攒钱计划,看着还不错

炒基蛋 浏览 9732 07-24

美媒披露普京停火条件:基辅必须彻底放弃顿涅茨克

参考消息 浏览 47 10-20

记者:莱斯特城就哈努斯标价3500万镑,水晶宫引进谈判破裂

懂球帝 浏览 73 08-27

从9亿诈骗案到短剧女主,王丽坤的逆袭比剧情更精彩!

Yuki女人故事 浏览 3347 08-13

更帅更智能 吉利全新博越预售9.19万起

网易汽车 浏览 6157 08-04

多名男女当街爬行学狗叫 官方:企业团建行为已致歉

极目新闻 浏览 49 10-18

她9岁入伍15岁进央视 今凭《生万物》逆袭

乡野小珥 浏览 93 08-29

Meta 雷朋联名智能眼镜销量今年激增 300%,第三代产品 10 月发售

IT之家 浏览 2175 08-03

哈格里夫斯:希望拉什福德能回曼联,俱乐部完全可以用得上他

懂球帝 浏览 16 01-06

福特总部70年来首次搬家

MOTO 浏览 75 09-17

男子花50万买的奔驰被3名男孩偷开走 遗弃在百公里外

极目新闻 浏览 3505 08-02

汪小菲晒儿子正面照

古希腊掌管月桂的神 浏览 71 10-13

孤独的职场中层,如何找到安全感?

时代周报 浏览 3444 07-25

在桃浦,解锁未来发展无限可能

上观新闻 浏览 34 12-16
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3