关闭广告

华为版CUDA,全面开源了

量子位2025-08-07 00:00:014789人阅读

红交 发自 凹非寺
量子位 | 公众号 QbitAI

华为版本CUDA,全面开源开放!

最新消息,华为宣布为其昇腾AI GPU开源其CANN软件工具包。



华为轮值董事长徐直军在主题演讲中强调:华为AI战略的核心是算力,并坚持昇腾硬件变现。

基于这一背景下,徐直军在会上宣布华为昇腾硬件使能CANN全面开源开放,Mind系列应用使能套件及工具链全面开源,支持用户自主的深度挖潜和自定义开发,加速广大开发者的创新步伐,让昇腾更好用、更易用

CANN,神经网络计算架构,提供多层编程接口,帮助用户构建针对华为昇腾的AI应用程序。

它是一个由多种技能栈和算子加速库等组成的软件生态系统,换句话说,它就像是华为版本的CUDA,为GPU提供相同的接口。

巧合的是,同一天,一传奇GPU大佬创业公司终于浮出水面,他们不搞消费级GPU,而是做CUDA类似软件生态系统。



看来,想要挑战英伟达的玩家可真不少。

华为版CUDA全面开源

过去,开发者苦于CUDA封闭生态系统久矣。

除了英伟达自身硬件,CUDA几乎不支持其他第三方,因此开发者如果想用CUDA来构建软件,就只能使用英伟达的GPU。这其实也构成了英伟达的核心壁垒。

因为一旦开发者想要迁移到其他产品。那么就需要重写代码,使用生态相对不成熟的替代库,同时也会失去英伟达围绕CUDA建立起来的庞大技术社区的支持。

之前有项目尝试将CUDA功能(通过转换层)引入其他 GPU供应商,但由于英伟达阻拦,这些项目大多未能成功。2024年CUDA 11.6版开始,就禁止使用转换层。

如今,在昇腾计算产业发展峰会上,华为宣布开源CANN架构,以及Mind系列应用使能套件及工具链也跟着开源,那么开发者可以自主深度挖掘昇腾GPU的潜力。

目前CANN已经升级到8.0版本,它主要提供两个版本:社区版,提供新功能的早期体验;商业版,提供专为企业用户量身定制的稳定版本。两个版本都更新到了8.2.RC1版本,新增适配12款操作系统。

与CANN配套的,还有华为自研深度学习框架MindSpore,其作用类似于PyTorch,这些工具共同构成了华为原生的AI软硬件方案。



截至目前,CANN已支持包括PyTorch、MindSpore、TensorFlow、飞桨、ONNX、计图、OpenCV和OpenMMLab等深度学习框架与第三方库。



在会上,与会代表和华为还共同发起了《CANN开源开放生态共建倡议》。

看来在构建开源开放的昇腾生态这件事儿上,华为已经开始大力出手了。

传奇GPU架构师创业,对标英伟达CUDA

而挑战英伟达CUDA生态的,业内还有不少玩家。

比如就有一位传奇GPU架构师Raja Koduri,宣布创立了一家GPU初创公司Oxmiq Labs。



他曾效力于AMD、苹果、英特尔等,曾在英特尔担任加速计算系统和图形(AXG)业务执行副总裁。加入英特尔之前,他曾担任AMD的图形部门Radeon Technologies Group的高级副总裁兼首席架构师。

而现在创立的这家公司专注于开发GPU硬件和软件IP,并将其授权给各方。他将这家公司定位为硅谷25年以来第一家GPU初创公司。



不过他们不打造消费级GPU,也不开发GPU所需的所有IP模块,他们提供一个垂直集成平台,该平台将GPU硬件IP与功能齐全的软件堆栈相结合,旨在满足AI、图形和多模态工作负载的需求,在这些工作负载中,显式并行处理至关重要。



在硬件方面,Oxmiq提供了一个基于RISC-V指令集架构(ISA)的GPU IP核OxCore,该核将标量、矢量和张量计算引擎集成在一个模块化架构中,并支持近内存和内存计算功能。

Oxmiq还提供基于芯片集(chiplet)的系统级芯片(SoC)构建器OxQuilt,使客户能够根据特定工作负载需求,快速且经济高效地创建集成计算集群桥接器(CCB,可能集成OxCores)、内存集群桥接器(MCB)和互连集群桥接器(ICB)模块的SoC。



例如,用于边缘应用的推理AI加速器可以封装一个或两个CCB和一个ICB,推理SoC则需要更多CCB、MCB和ICB,而用于AI训练的大规模SoC则可能封装数十个芯片集。

Oxmiq尚未透露其OxQuilt是仅支持构建多芯片集系统级封装(SiP),还是也可用于组装单片处理器。

不过他们的软件业务似乎更为核心和关键。他们提供的软件包可以兼容第三方的硬件,支持在各种硬件平台上部署AI和图形工作负载。



该软件堆栈的核心是OXCapsule,这是一个统一的运行时和调度层,用于管理工作负载分配、资源平衡和硬件抽象。

该堆栈的一个突出组件是OXPython,它是一个兼容层,将以CUDA为中心的工作负载转换为Oxmiq的运行时,并允许基于Python的CUDA应用程序在非英伟达硬件上无需修改即可运行,无需重新编译。

OXPython最初不会在Oxmiq的IP上发布,而是在Tenstorrent的Wormhole和Blackhole AI加速器上发布。

事实上,Oxmiq的软件堆栈从根本上设计为独立于Oxmiq硬件,这是其战略的核心部分。

不管最后结果如何,但竞争的号角已经吹响,最终受益的究竟还是开发者。

参考链接:
[1]https://x.com/RajaXg/status/1952633159818060164
[2]https://www.tomshardware.com/tech-industry/artificial-intelligence/huawei-is-making-its-ascend-ai-gpu-software-toolkit-open-source-to-better-compete-against-cuda
[3]https://www.tomshardware.com/tech-industry/artificial-intelligence/legendary-gpu-architect-raja-koduris-new-startup-leverages-risc-v-and-targets-cuda-workloads-oxmiq-labs-supports-running-python-based-cuda-applications-unmodified-on-non-nvidia-hardware
[4]https://mp.weixin.qq.com/s/cK7REZ9_ToHPEq4iyWoRqA

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

残酷真相:盈利很好,仍要裁员15000!微软CEO内部信透露新常态

华尔街见闻官方 浏览 2782 07-29

母子俩联手干出一个IPO!今年0营收,去年也才26万

财通社 浏览 6598 08-19

英伟达、富士康合作打造的人形机器人预计11月首秀

IT之家 浏览 8665 08-19

泰柬领导人将在马来西亚会晤 马来西亚外长最新回应

每日经济新闻 浏览 5038 07-28

赛诺菲降脂药波立达退市 百亿PCSK9抑制剂市场格局重塑

21世纪经济报道 浏览 8467 08-06

全新MG4预售价7.38万 实力剑指比亚迪海豚

隔壁说车老王 浏览 1693 08-18

3-2翻盘!马琳离奇战术,给王曼昱带来2困难,国乒3人进女单八强

侃球熊弟 浏览 18 08-22

内娱最「狠」的真人秀,杀疯了

独立鱼 浏览 2118 07-20

居然智家公告:汪林朋在家中不幸身故

达摩财经 浏览 8136 07-29

天空体育记者:伊萨克已抵达纽卡训练基地,将进行单独训练/恢复

直播吧 浏览 2107 08-07

理想i6纯电五座SUV新谍照曝光,有望于9月发布

皆电 浏览 7094 06-23

预售29.99万起 新款一汽-大众揽境即将上市

车质网 浏览 4247 07-28

可灵AI宣布多图参考生视频升级:模型效果提升102%

网易科技报道 浏览 3671 07-26

大二医学生在飞机上救人 被网友质疑没有执业资格

潇湘晨报 浏览 3626 07-28

女人会不会穿衣区别很大,夏季学会这些穿搭,清爽大方又显瘦

静儿时尚达人 浏览 19 08-21

今夜,重要的一步!

博闻财经 浏览 9923 08-09

女子1997年到银行存入2万定期 27年后利息不到5千元

极目新闻 浏览 3372 08-10

医生强奸2名未成年女孩被判6年 其检察官父亲任辩护人

澎湃新闻 浏览 8518 08-07

上海一博物馆循环播放"熊孩子"损坏展品视频 馆方回应

上游新闻 浏览 2041 07-25

小米汽车磁吸物理按键已接入米家,还可以放在家里使用

环球网资讯 浏览 6584 08-06

全市场:桑德兰、森林和曼联均有意签下佛罗伦萨后卫科穆佐

懂球帝 浏览 5124 07-29
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3