关闭广告

WAIC前线|摩尔线程张建中:为AGI时代造生产模型的“超级工厂”

网易科技报道2025-07-27 00:00:025832人阅读

7月26日消息,在世界人工智能大会(WAIC 2025)开幕前夕,线程召开发布会,提出“AI工厂”理念。摩尔线程创始人兼CEO表示,为应对生成式AI爆发式增长下的大模型训练效率瓶颈,摩尔线程将通过系统级工程创新,构建新一代AI训练基础设施,致力于为时代打造生产先进模型的“”。

据介绍,摩尔线程提出的“AI工厂”,如同芯片晶圆厂的制程升级,是一个系统性、全方位的变革,需要实现从底层芯片架构创新、到集群整体架构的优化,再到软件算法调优和资源调度系统的全面升级。这种全方位的基础设施变革,将推动AI训练从千卡级向万卡级乃至十万卡级规模演进,以系统级工程实现生产力和创新效率的飞跃。

据了解,这座“AI工厂”的智能“产能”,由五大核心要素共同决定,其效率公式可概括为:AI工厂生产效率 = 加速计算通用性 × 单芯片有效算力 × 单节点效率 × 集群效率 × 集群稳定性

技术一:全功能GPU

在AI基础设施建设中,计算功能的完备性与精度完整性是支撑多元场景的核心基石。摩尔线程以自主研发的全功能GPU为核心,构建了“功能完备”与“精度完整”的通用性底座,全面覆盖从AI训练、推理到科学计算的全场景需求。

1,创新突破:单芯片覆盖多场景。基于MUSA架构的突破性设计,摩尔线程的GPU单芯片即可集成AI计算加速、图形渲染、物理仿真及超高清视频编解码能力,充分适配AI训推、具身智能、AIGC等多样化应用场景。

2,精度标杆:性能跃升20%~30%。在计算精度方面,摩尔线程支持从FP64至INT8的完整精度谱系,并通过FP8混合精度技术,在主流前沿大模型训练中实现20%~30%的性能跃升,为国产GPU的算力效率树立行业标杆。

3,前瞻布局:推动AI基础设施进化。这一技术体系不仅满足大模型时代的高效计算需求,更为世界模型和新兴AI架构的演化提供前瞻性支撑,助力AI基础设施向高通用性、高精度方向持续升级。

技术二:自研MUSA架构

据介绍,摩尔线程基于自研MUSA架构,通过计算、内存、通信三重突破,显著提升单GPU运算效率。

1,创新架构突破传统限制:摩尔线程采用多引擎、可伸缩GPU架构,通过硬件资源池化及动态资源调度技术,构建了全局共享的计算、内存与通信资源池。这一设计不仅突破了传统GPU功能单一的限制,还在保障通用性的同时显著提升了资源利用率。其参数化配置可伸缩架构允许面向目标市场快速裁剪出优化的芯片配置,大幅降低了新品芯片的开发成本。

2,计算性能显著提升:在计算层面,摩尔线程的AI加速系统(TCE/TME)全面支持INT8/FP8/FP16/BF16/TF32等多种混合精度计算。作为国内首批实现FP8算力量产的GPU厂商,其FP8技术通过快速格式转换、动态范围智能适配和高精度累加器等创新设计,在保证计算精度的同时,将Transformer计算性能提升约30%。

3,内存与通信效率全面优化:内存系统方面,通过多精度近存规约引擎、低延迟Scale-Up、通算并行资源隔离等技术,实现了50%的带宽节省和60%的延迟降低。在通信和互联领域,独创的ACE异步通信引擎减少了15%的计算资源损耗,MTLink2.0互联技术提供了高出国内行业平均水平60%的带宽,为大规模集群部署奠定了坚实基础。

技术三:MUSA全栈系统软件

据介绍,摩尔线程通过MUSA全栈系统软件实现关键技术突破,推动AI工厂从单点创新转向系统级效能提升。其核心创新包括:

1,任务调度优化:核函数启动时间缩短50%;

2,极致性能库:GEMM算子算力利用率达98%,Flash Attention 算子算力利用率突破95%;

3,通信效能跃升:MCCL通信库实现RDMA网络97%带宽利用率;基于异步通信引擎优化计算通信并行,集群性能提升10%;

4,低精度计算效率革新:FP8优化与重计算技术显著降低训练开销;

5,开发生态完善:基于Triton-MUSA编译器 + MUSA Graph 实现DeepSeek R1推理加速1.5倍,全面兼容Triton等主流框架。

技术四:自研KUAE大规模集群

摩尔线程自研KUAE计算集群通过5D大规模分布式并行计算技术,实现上千节点的高效协作,推动AI基础设施从单点优化迈向系统工程级突破。

1,创新5D并行训练:摩尔线程整合数据、模型、张量、流水线和专家并行技术,全面支持Transformer等主流架构,显著提升大规模集群训练效率。

2,性能仿真与优化:自主研发的Simumax工具面向超大规模集群自动搜索最优并行策略,精准模拟FP8混合精度训练与算子融合,为DeepSeek等模型缩短训练周期提供科学依据。

3,秒级备份恢复:针对大模型稳定性难题,创新CheckPoint加速方案利用RDMA技术,将百GB级备份恢复时间从数分钟压缩至1秒,提升GPU有效算力利用率。

技术五:零中断容错技术

在构建高效集群的基础上,稳定可靠的运行环境是“AI工厂”持续产出的保障。特别在万卡级AI集群中,硬件故障导致的训练中断会严重浪费算力。摩尔线程推出零中断容错技术,故障发生时仅隔离受影响节点组,其余节点继续训练,备机无缝接入,全程无中断。这一方案使KUAE集群有效训练时间占比超99%,大幅降低恢复开销。

同时,KUAE集群通过多维度训练洞察体系实现动态监测与智能诊断,异常处理效率提升50%;结合集群巡检与起飞检查,训练成功率提高10%,为大规模AI训练提供稳定保障。

与此同时,完善的“AI工厂”不仅需要高效训练大模型,还需具备推理验证能力。摩尔线程基于自研MUSA技术栈,构建覆盖LLM、视觉、生成类模型的全流程推理解决方案,实现“训练-验证-部署”的无缝衔接。其MT Transformer自研推理引擎、TensorX自研推理引擎和vLLM-MUSA推理框架,为模型验证和部署提供极致性能支持。

据透露,摩尔线程将于今年10月举办首届MUSA开发者大会

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

媒体人:CBA新赛季12月12日开赛,单节可能缩短为10分钟

懂球帝 浏览 852 08-04

从“交易驱动”转向“价值创造”!世纪证券探索普惠金融新路径

券商中国 浏览 25 09-26

人民大会堂镜头下的明星,吴京沧桑,张译白头发抢镜,宋佳扛住了

娱乐圈笔娱君 浏览 7000 07-11

斯柯达Fabia 130发布,174匹马力小钢炮

MOTO 浏览 15 10-09

父亲去世后兄妹俩各拿出了一份遗嘱争房产 法院判了

鲁中晨报 浏览 45 09-21

马蜂窝首发“旅游超级智能体”

网易科技报道 浏览 3752 07-25

邓肯效力单一球队1158胜历史第一 斯托克顿&马龙分列二三

直播吧 浏览 5982 07-31

德约六王赛退赛向观众道歉遭网友怒喷来捞钱,球迷用成绩狠狠打脸

网球之家 浏览 8 10-20

铁威马推出 F2-425 双盘位 NAS:英特尔 N5095,单 2.5GbE 网口

IT之家 浏览 6839 08-13

特朗普称将会见泽连斯基 讨论防空与远程导弹援助等

新京报 浏览 17 10-14

泡泡玛特,引爆1100亿元潮玩市场

21世纪经济报道 浏览 5459 07-28

媒体:印度宣布要进行种姓普查 "最隐秘伤疤"要被揭开

环球时报新闻 浏览 401 08-05

1胜2平,本轮海港、成都、申花均获本赛季亚冠首分

懂球帝 浏览 17 10-02

AI代写论文公司曾申请精英人才商标

大象新闻 浏览 15 10-13

博士,突然过剩了

智谷趋势 浏览 3890 07-24

记者:拓王之战转播源取自现场大屏,所以直播视角混乱+回放过多

懂球帝 浏览 12 10-11

两场梅开二度,官方:蓉城前锋费利佩当选中超联赛8月最佳球员

直播吧 浏览 31 09-25

林依晨二胎喜讯背后:被造谣7年生吃青蛙的十年婚变史

Yuki女人故事 浏览 43 09-20

桂林16.5亿烂尾项目被通报 时任官员挪6500万强行上马

中国能源网 浏览 9320 07-15

娱乐圈颜值天花板,还是翻车了

独立鱼 浏览 48 08-25

10周年,说10句实在话,为了下一个10年

无冕财经 浏览 6717 08-19
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3