关闭广告

WAIC前线|摩尔线程张建中:为AGI时代造生产模型的“超级工厂”

网易科技报道2025-07-27 00:00:025794人阅读

7月26日消息,在世界人工智能大会(WAIC 2025)开幕前夕,线程召开发布会,提出“AI工厂”理念。摩尔线程创始人兼CEO表示,为应对生成式AI爆发式增长下的大模型训练效率瓶颈,摩尔线程将通过系统级工程创新,构建新一代AI训练基础设施,致力于为时代打造生产先进模型的“”。

据介绍,摩尔线程提出的“AI工厂”,如同芯片晶圆厂的制程升级,是一个系统性、全方位的变革,需要实现从底层芯片架构创新、到集群整体架构的优化,再到软件算法调优和资源调度系统的全面升级。这种全方位的基础设施变革,将推动AI训练从千卡级向万卡级乃至十万卡级规模演进,以系统级工程实现生产力和创新效率的飞跃。

据了解,这座“AI工厂”的智能“产能”,由五大核心要素共同决定,其效率公式可概括为:AI工厂生产效率 = 加速计算通用性 × 单芯片有效算力 × 单节点效率 × 集群效率 × 集群稳定性

技术一:全功能GPU

在AI基础设施建设中,计算功能的完备性与精度完整性是支撑多元场景的核心基石。摩尔线程以自主研发的全功能GPU为核心,构建了“功能完备”与“精度完整”的通用性底座,全面覆盖从AI训练、推理到科学计算的全场景需求。

1,创新突破:单芯片覆盖多场景。基于MUSA架构的突破性设计,摩尔线程的GPU单芯片即可集成AI计算加速、图形渲染、物理仿真及超高清视频编解码能力,充分适配AI训推、具身智能、AIGC等多样化应用场景。

2,精度标杆:性能跃升20%~30%。在计算精度方面,摩尔线程支持从FP64至INT8的完整精度谱系,并通过FP8混合精度技术,在主流前沿大模型训练中实现20%~30%的性能跃升,为国产GPU的算力效率树立行业标杆。

3,前瞻布局:推动AI基础设施进化。这一技术体系不仅满足大模型时代的高效计算需求,更为世界模型和新兴AI架构的演化提供前瞻性支撑,助力AI基础设施向高通用性、高精度方向持续升级。

技术二:自研MUSA架构

据介绍,摩尔线程基于自研MUSA架构,通过计算、内存、通信三重突破,显著提升单GPU运算效率。

1,创新架构突破传统限制:摩尔线程采用多引擎、可伸缩GPU架构,通过硬件资源池化及动态资源调度技术,构建了全局共享的计算、内存与通信资源池。这一设计不仅突破了传统GPU功能单一的限制,还在保障通用性的同时显著提升了资源利用率。其参数化配置可伸缩架构允许面向目标市场快速裁剪出优化的芯片配置,大幅降低了新品芯片的开发成本。

2,计算性能显著提升:在计算层面,摩尔线程的AI加速系统(TCE/TME)全面支持INT8/FP8/FP16/BF16/TF32等多种混合精度计算。作为国内首批实现FP8算力量产的GPU厂商,其FP8技术通过快速格式转换、动态范围智能适配和高精度累加器等创新设计,在保证计算精度的同时,将Transformer计算性能提升约30%。

3,内存与通信效率全面优化:内存系统方面,通过多精度近存规约引擎、低延迟Scale-Up、通算并行资源隔离等技术,实现了50%的带宽节省和60%的延迟降低。在通信和互联领域,独创的ACE异步通信引擎减少了15%的计算资源损耗,MTLink2.0互联技术提供了高出国内行业平均水平60%的带宽,为大规模集群部署奠定了坚实基础。

技术三:MUSA全栈系统软件

据介绍,摩尔线程通过MUSA全栈系统软件实现关键技术突破,推动AI工厂从单点创新转向系统级效能提升。其核心创新包括:

1,任务调度优化:核函数启动时间缩短50%;

2,极致性能库:GEMM算子算力利用率达98%,Flash Attention 算子算力利用率突破95%;

3,通信效能跃升:MCCL通信库实现RDMA网络97%带宽利用率;基于异步通信引擎优化计算通信并行,集群性能提升10%;

4,低精度计算效率革新:FP8优化与重计算技术显著降低训练开销;

5,开发生态完善:基于Triton-MUSA编译器 + MUSA Graph 实现DeepSeek R1推理加速1.5倍,全面兼容Triton等主流框架。

技术四:自研KUAE大规模集群

摩尔线程自研KUAE计算集群通过5D大规模分布式并行计算技术,实现上千节点的高效协作,推动AI基础设施从单点优化迈向系统工程级突破。

1,创新5D并行训练:摩尔线程整合数据、模型、张量、流水线和专家并行技术,全面支持Transformer等主流架构,显著提升大规模集群训练效率。

2,性能仿真与优化:自主研发的Simumax工具面向超大规模集群自动搜索最优并行策略,精准模拟FP8混合精度训练与算子融合,为DeepSeek等模型缩短训练周期提供科学依据。

3,秒级备份恢复:针对大模型稳定性难题,创新CheckPoint加速方案利用RDMA技术,将百GB级备份恢复时间从数分钟压缩至1秒,提升GPU有效算力利用率。

技术五:零中断容错技术

在构建高效集群的基础上,稳定可靠的运行环境是“AI工厂”持续产出的保障。特别在万卡级AI集群中,硬件故障导致的训练中断会严重浪费算力。摩尔线程推出零中断容错技术,故障发生时仅隔离受影响节点组,其余节点继续训练,备机无缝接入,全程无中断。这一方案使KUAE集群有效训练时间占比超99%,大幅降低恢复开销。

同时,KUAE集群通过多维度训练洞察体系实现动态监测与智能诊断,异常处理效率提升50%;结合集群巡检与起飞检查,训练成功率提高10%,为大规模AI训练提供稳定保障。

与此同时,完善的“AI工厂”不仅需要高效训练大模型,还需具备推理验证能力。摩尔线程基于自研MUSA技术栈,构建覆盖LLM、视觉、生成类模型的全流程推理解决方案,实现“训练-验证-部署”的无缝衔接。其MT Transformer自研推理引擎、TensorX自研推理引擎和vLLM-MUSA推理框架,为模型验证和部署提供极致性能支持。

据透露,摩尔线程将于今年10月举办首届MUSA开发者大会

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

腾讯想做机器人的“大脑”供应商,现阶段不追求商业化

南方都市报 浏览 4920 07-29

从月销20.9万辆到4.5万辆,某车企无奈承认:已站在生死存亡边缘

小李车评李建红 浏览 9503 08-15

韩方澄清外长涉华言论:主旨是继续致力于韩中关系发展

环球网资讯 浏览 247 08-06

美记:魔术今夏操作属于联盟顶尖 班凯罗有望进入MVP讨论

直播吧 浏览 8847 08-13

桂林16.5亿烂尾项目被通报 时任官员挪6500万强行上马

中国能源网 浏览 9273 07-15

华晨宇绯闻女友黑料被扒?牵扯黄晓明

清风品历史 浏览 2834 08-05

618大汇总|| 不乱买!精挑细选的超全功课都在这了

黎贝卡的异想世界 浏览 7077 06-11

10样回购N次的解馋小零食!好吃到嗦手指

Yuki女人故事 浏览 686 07-26

变天了,大学学费暴涨,什么信号?

智谷趋势 浏览 5247 07-27

原以为《侠之大者》是金庸剧下限,没想到还有更差的,乱改一气

最爱酷影视 浏览 5576 08-02

普通人夏天就该这样穿衣!不花哨俗气、不沉闷呆板,舒适轻盈

静儿时尚达人 浏览 1460 06-24

今年夏天流行的“多巴胺裙子”太美了,时髦又减龄!

LinkFashion 浏览 1172 07-25

发挥国际数据港优势,香港人工智能×数据蓬勃发展

中国基金报 浏览 5998 07-21

路透断言王鹤棣新剧未播先火?怕是粉丝自我狂欢

最爱酷影视 浏览 5057 07-08

「“NESTA六维电安全”技术验证」小米YU7

海外网 浏览 8627 07-21

百万级舒适感!东风风神L8真实力打脸杨子

网易汽车 浏览 252 08-10

李国旭:给球迷道歉,我的团队包括球员没有全力以赴对待比赛

懂球帝 浏览 15 08-25

2025年“数据要素X”大赛上海分赛收官,首批数商入库名单发布

上观新闻 浏览 18 08-25

聚力攻坚先进封装!长电科技上半年营收超186亿元,锚定高附加值市场

时代周报 浏览 41 08-23

男篮热身赛再挖奇兵!雷蒙防守奠定胜局,进攻把握三分,太香了!

篮球资讯达人 浏览 5767 07-30

炒港美股"补税潮"突袭?一文了解始末

财联社 浏览 9586 07-22
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3