快斗优选

7月26日消息，在世界人工智能大会（WAIC 2025）开幕前夕，线程召开发布会，提出“AI工厂”理念。摩尔线程创始人兼CEO表示，为应对生成式AI爆发式增长下的大模型训练效率瓶颈，摩尔线程将通过系统级工程创新，构建新一代AI训练基础设施，致力于为时代打造生产先进模型的“”。

据介绍，摩尔线程提出的“AI工厂”，如同芯片晶圆厂的制程升级，是一个系统性、全方位的变革，需要实现从底层芯片架构创新、到集群整体架构的优化，再到软件算法调优和资源调度系统的全面升级。这种全方位的基础设施变革，将推动AI训练从千卡级向万卡级乃至十万卡级规模演进，以系统级工程实现生产力和创新效率的飞跃。

据了解，这座“AI工厂”的智能“产能”，由五大核心要素共同决定，其效率公式可概括为：AI工厂生产效率 = 加速计算通用性 × 单芯片有效算力 × 单节点效率 × 集群效率 × 集群稳定性

技术一：全功能GPU

在AI基础设施建设中，计算功能的完备性与精度完整性是支撑多元场景的核心基石。摩尔线程以自主研发的全功能GPU为核心，构建了“功能完备”与“精度完整”的通用性底座，全面覆盖从AI训练、推理到科学计算的全场景需求。

1，创新突破：单芯片覆盖多场景。基于MUSA架构的突破性设计，摩尔线程的GPU单芯片即可集成AI计算加速、图形渲染、物理仿真及超高清视频编解码能力，充分适配AI训推、具身智能、AIGC等多样化应用场景。

2，精度标杆：性能跃升20%~30%。在计算精度方面，摩尔线程支持从FP64至INT8的完整精度谱系，并通过FP8混合精度技术，在主流前沿大模型训练中实现20%~30%的性能跃升，为国产GPU的算力效率树立行业标杆。

3，前瞻布局：推动AI基础设施进化。这一技术体系不仅满足大模型时代的高效计算需求，更为世界模型和新兴AI架构的演化提供前瞻性支撑，助力AI基础设施向高通用性、高精度方向持续升级。

技术二：自研MUSA架构

据介绍，摩尔线程基于自研MUSA架构，通过计算、内存、通信三重突破，显著提升单GPU运算效率。

1，创新架构突破传统限制：摩尔线程采用多引擎、可伸缩GPU架构，通过硬件资源池化及动态资源调度技术，构建了全局共享的计算、内存与通信资源池。这一设计不仅突破了传统GPU功能单一的限制，还在保障通用性的同时显著提升了资源利用率。其参数化配置可伸缩架构允许面向目标市场快速裁剪出优化的芯片配置，大幅降低了新品芯片的开发成本。

2，计算性能显著提升：在计算层面，摩尔线程的AI加速系统（TCE/TME）全面支持INT8/FP8/FP16/BF16/TF32等多种混合精度计算。作为国内首批实现FP8算力量产的GPU厂商，其FP8技术通过快速格式转换、动态范围智能适配和高精度累加器等创新设计，在保证计算精度的同时，将Transformer计算性能提升约30%。

3，内存与通信效率全面优化：内存系统方面，通过多精度近存规约引擎、低延迟Scale-Up、通算并行资源隔离等技术，实现了50%的带宽节省和60%的延迟降低。在通信和互联领域，独创的ACE异步通信引擎减少了15%的计算资源损耗，MTLink2.0互联技术提供了高出国内行业平均水平60%的带宽，为大规模集群部署奠定了坚实基础。

技术三：MUSA全栈系统软件

据介绍，摩尔线程通过MUSA全栈系统软件实现关键技术突破，推动AI工厂从单点创新转向系统级效能提升。其核心创新包括：

1，任务调度优化：核函数启动时间缩短50%；

2，极致性能库：GEMM算子算力利用率达98%，Flash Attention 算子算力利用率突破95%；

3，通信效能跃升：MCCL通信库实现RDMA网络97%带宽利用率；基于异步通信引擎优化计算通信并行，集群性能提升10%；

4，低精度计算效率革新：FP8优化与重计算技术显著降低训练开销；

5，开发生态完善：基于Triton-MUSA编译器 + MUSA Graph 实现DeepSeek R1推理加速1.5倍，全面兼容Triton等主流框架。

技术四：自研KUAE大规模集群

摩尔线程自研KUAE计算集群通过5D大规模分布式并行计算技术，实现上千节点的高效协作，推动AI基础设施从单点优化迈向系统工程级突破。

1，创新5D并行训练：摩尔线程整合数据、模型、张量、流水线和专家并行技术，全面支持Transformer等主流架构，显著提升大规模集群训练效率。

2，性能仿真与优化：自主研发的Simumax工具面向超大规模集群自动搜索最优并行策略，精准模拟FP8混合精度训练与算子融合，为DeepSeek等模型缩短训练周期提供科学依据。

3，秒级备份恢复：针对大模型稳定性难题，创新CheckPoint加速方案利用RDMA技术，将百GB级备份恢复时间从数分钟压缩至1秒，提升GPU有效算力利用率。

技术五：零中断容错技术

在构建高效集群的基础上，稳定可靠的运行环境是“AI工厂”持续产出的保障。特别在万卡级AI集群中，硬件故障导致的训练中断会严重浪费算力。摩尔线程推出零中断容错技术，故障发生时仅隔离受影响节点组，其余节点继续训练，备机无缝接入，全程无中断。这一方案使KUAE集群有效训练时间占比超99%，大幅降低恢复开销。

同时，KUAE集群通过多维度训练洞察体系实现动态监测与智能诊断，异常处理效率提升50%；结合集群巡检与起飞检查，训练成功率提高10%，为大规模AI训练提供稳定保障。

与此同时，完善的“AI工厂”不仅需要高效训练大模型，还需具备推理验证能力。摩尔线程基于自研MUSA技术栈，构建覆盖LLM、视觉、生成类模型的全流程推理解决方案，实现“训练-验证-部署”的无缝衔接。其MT Transformer自研推理引擎、TensorX自研推理引擎和vLLM-MUSA推理框架，为模型验证和部署提供极致性能支持。

据透露，摩尔线程将于今年10月举办首届MUSA开发者大会。

WAIC前线｜摩尔线程张建中：为AGI时代造生产模型的“超级工厂”

“长安系”再...

一盘大棋！O...

两大巨头女掌...

4岁女童在温...

马斯克的Gr...

服装店起火老...

《共和报》评意大利杯：“是机会还是阻碍？”

谷歌翻译加入文本翻译AI模型，有快速与进阶模式可选

2026CES：奔驰CLA将首搭英伟达DRIVE AV

海报荐读｜AI产品情绪价值开始“分化”；无障碍出租车为何预约难

看了日本主妇的搭配才明白，年纪大了这么穿，优雅又不油腻

雷军回应小米召回SU7

中国最强县级市借助“人工智能+”打造新千亿产业群

第122期：50.55

媒体：鲁比奥说对付中国却砍关键部门美国人看不会了

全球首个“痛岛”迎来首批玩家

台电“高端平板电脑”ArtPad Pro 规格公布：联发科 G99 + 8G RAM

吃水煮菜练出好身材，47岁吴建豪空中劈叉惊艳全网，太自律了！

俄总统助理：俄在海洋上面临的挑战和威胁正大幅增加

伍佰英里科技入局，危机下江特电机的最优选择？

内娱又一爆雷，内幕没那么简单

詹姆斯正建造两栋豪宅！11000平米一分为二：为布朗尼准备婚房？

亲爸被判15年亲妈18线，黄奕女儿被卡的不是颜值

业主称楼顶渗水致室内屋顶＂长毛＂物业:属实正处理

50岁龚琳娜自曝曾“几乎瘫痪”，演出前需拄拐杖

今年最流行的穿法：裤子+针织、裙子+针织，时髦又减龄！

躺不平，50岁后找工作...

smart精灵#3艺术特别版上市售18.49万

41岁张靓颖的现状，给所有中年女性提了个醒

泰柬新一轮边境冲突持续一周数十万人逃离家园