关闭广告

WAIC前线|摩尔线程张建中:为AGI时代造生产模型的“超级工厂”

网易科技报道2025-07-27 00:00:025887人阅读

7月26日消息,在世界人工智能大会(WAIC 2025)开幕前夕,线程召开发布会,提出“AI工厂”理念。摩尔线程创始人兼CEO表示,为应对生成式AI爆发式增长下的大模型训练效率瓶颈,摩尔线程将通过系统级工程创新,构建新一代AI训练基础设施,致力于为时代打造生产先进模型的“”。

据介绍,摩尔线程提出的“AI工厂”,如同芯片晶圆厂的制程升级,是一个系统性、全方位的变革,需要实现从底层芯片架构创新、到集群整体架构的优化,再到软件算法调优和资源调度系统的全面升级。这种全方位的基础设施变革,将推动AI训练从千卡级向万卡级乃至十万卡级规模演进,以系统级工程实现生产力和创新效率的飞跃。

据了解,这座“AI工厂”的智能“产能”,由五大核心要素共同决定,其效率公式可概括为:AI工厂生产效率 = 加速计算通用性 × 单芯片有效算力 × 单节点效率 × 集群效率 × 集群稳定性

技术一:全功能GPU

在AI基础设施建设中,计算功能的完备性与精度完整性是支撑多元场景的核心基石。摩尔线程以自主研发的全功能GPU为核心,构建了“功能完备”与“精度完整”的通用性底座,全面覆盖从AI训练、推理到科学计算的全场景需求。

1,创新突破:单芯片覆盖多场景。基于MUSA架构的突破性设计,摩尔线程的GPU单芯片即可集成AI计算加速、图形渲染、物理仿真及超高清视频编解码能力,充分适配AI训推、具身智能、AIGC等多样化应用场景。

2,精度标杆:性能跃升20%~30%。在计算精度方面,摩尔线程支持从FP64至INT8的完整精度谱系,并通过FP8混合精度技术,在主流前沿大模型训练中实现20%~30%的性能跃升,为国产GPU的算力效率树立行业标杆。

3,前瞻布局:推动AI基础设施进化。这一技术体系不仅满足大模型时代的高效计算需求,更为世界模型和新兴AI架构的演化提供前瞻性支撑,助力AI基础设施向高通用性、高精度方向持续升级。

技术二:自研MUSA架构

据介绍,摩尔线程基于自研MUSA架构,通过计算、内存、通信三重突破,显著提升单GPU运算效率。

1,创新架构突破传统限制:摩尔线程采用多引擎、可伸缩GPU架构,通过硬件资源池化及动态资源调度技术,构建了全局共享的计算、内存与通信资源池。这一设计不仅突破了传统GPU功能单一的限制,还在保障通用性的同时显著提升了资源利用率。其参数化配置可伸缩架构允许面向目标市场快速裁剪出优化的芯片配置,大幅降低了新品芯片的开发成本。

2,计算性能显著提升:在计算层面,摩尔线程的AI加速系统(TCE/TME)全面支持INT8/FP8/FP16/BF16/TF32等多种混合精度计算。作为国内首批实现FP8算力量产的GPU厂商,其FP8技术通过快速格式转换、动态范围智能适配和高精度累加器等创新设计,在保证计算精度的同时,将Transformer计算性能提升约30%。

3,内存与通信效率全面优化:内存系统方面,通过多精度近存规约引擎、低延迟Scale-Up、通算并行资源隔离等技术,实现了50%的带宽节省和60%的延迟降低。在通信和互联领域,独创的ACE异步通信引擎减少了15%的计算资源损耗,MTLink2.0互联技术提供了高出国内行业平均水平60%的带宽,为大规模集群部署奠定了坚实基础。

技术三:MUSA全栈系统软件

据介绍,摩尔线程通过MUSA全栈系统软件实现关键技术突破,推动AI工厂从单点创新转向系统级效能提升。其核心创新包括:

1,任务调度优化:核函数启动时间缩短50%;

2,极致性能库:GEMM算子算力利用率达98%,Flash Attention 算子算力利用率突破95%;

3,通信效能跃升:MCCL通信库实现RDMA网络97%带宽利用率;基于异步通信引擎优化计算通信并行,集群性能提升10%;

4,低精度计算效率革新:FP8优化与重计算技术显著降低训练开销;

5,开发生态完善:基于Triton-MUSA编译器 + MUSA Graph 实现DeepSeek R1推理加速1.5倍,全面兼容Triton等主流框架。

技术四:自研KUAE大规模集群

摩尔线程自研KUAE计算集群通过5D大规模分布式并行计算技术,实现上千节点的高效协作,推动AI基础设施从单点优化迈向系统工程级突破。

1,创新5D并行训练:摩尔线程整合数据、模型、张量、流水线和专家并行技术,全面支持Transformer等主流架构,显著提升大规模集群训练效率。

2,性能仿真与优化:自主研发的Simumax工具面向超大规模集群自动搜索最优并行策略,精准模拟FP8混合精度训练与算子融合,为DeepSeek等模型缩短训练周期提供科学依据。

3,秒级备份恢复:针对大模型稳定性难题,创新CheckPoint加速方案利用RDMA技术,将百GB级备份恢复时间从数分钟压缩至1秒,提升GPU有效算力利用率。

技术五:零中断容错技术

在构建高效集群的基础上,稳定可靠的运行环境是“AI工厂”持续产出的保障。特别在万卡级AI集群中,硬件故障导致的训练中断会严重浪费算力。摩尔线程推出零中断容错技术,故障发生时仅隔离受影响节点组,其余节点继续训练,备机无缝接入,全程无中断。这一方案使KUAE集群有效训练时间占比超99%,大幅降低恢复开销。

同时,KUAE集群通过多维度训练洞察体系实现动态监测与智能诊断,异常处理效率提升50%;结合集群巡检与起飞检查,训练成功率提高10%,为大规模AI训练提供稳定保障。

与此同时,完善的“AI工厂”不仅需要高效训练大模型,还需具备推理验证能力。摩尔线程基于自研MUSA技术栈,构建覆盖LLM、视觉、生成类模型的全流程推理解决方案,实现“训练-验证-部署”的无缝衔接。其MT Transformer自研推理引擎、TensorX自研推理引擎和vLLM-MUSA推理框架,为模型验证和部署提供极致性能支持。

据透露,摩尔线程将于今年10月举办首届MUSA开发者大会

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

罗马诺:利物浦准备向16岁的小将恩古莫哈提供一份新合同

懂球帝 浏览 70 08-26

网传C罗见面会18万一位?王涛:这价格就是纯骗你,压根没见面会

直播吧 浏览 1863 08-10

缅北四大电诈头目被押解回国 特写画面首次披露

大风新闻 浏览 13 01-11

德赫亚专访上篇:爱曼联所以拒绝英超报价;有些年轻人太浮躁

懂球帝 浏览 2264 07-22

中美关税再延90天,特朗普真实目的暴露,中国成了大赢家?

北向财经 浏览 9821 08-13

彭博社:iOS 26 的首个公开测试版将于本周发布

威锋网 浏览 1646 07-22

官方:石家庄功夫外援奥拉维奥离队

懂球帝 浏览 3323 07-22

全球最大容器镜像库Docker Hub安全调查:10000+镜像泄露敏感密钥

IT之家 浏览 22 12-11

消失1年,王子异自称得了抑郁症

失宠的小野猪 浏览 26 12-19

十年之约终兑现!《灵魂摆渡 十年》官宣,原班主创能否再铸辉煌?

Yuki女人故事 浏览 6887 05-13

业内人士:拟修订多晶硅单位产品综合能耗标准 以推动落后产能出清

科创板日报 浏览 10053 07-24

傻傻分不清楚:是升职,还是陷阱?是提拔,还是炮灰?

识局 浏览 9118 08-21

贵州2亿元殡仪馆荒废8年至今 两位投资人到死没见开业

大风新闻 浏览 111 09-22

"中国钓王"钓获73斤野生花鲢:觉得好重 现场看鱼真大

芒果都市 浏览 144 08-25

维尔茨:梅西是史上最佳,我搭档过的最佳球员是克罗斯

直播吧 浏览 4045 08-06

00后女孩被"高富帅男友"骗至缅甸妙瓦底 有人称见过她

极目新闻 浏览 8922 08-12

马卡: 姆巴佩在皇马达成50球里程碑,本赛季点球命中率显著提升

直播吧 浏览 73 09-22

特朗普:泽连斯基阻挠俄乌达成和平协议

环球网资讯 浏览 6 01-17

健身教练避让逆行外卖员摔成高位截瘫:天塌了

封面新闻 浏览 3641 07-17

RTX Pro 5000 Blackwell移动版首次跑分!与RTX 5090移动版相当

快科技 浏览 9960 08-07

纳指再创新高,苹果本周累涨逾13%

第一财经资讯 浏览 6786 08-09
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3