7月25日消息,在2025世界人工智能大会前夕,后摩智能发布端边 AI 芯片后摩漫界®M50,同步推出力擎™系列 M.2卡、力谋®系列加速卡及计算盒子等硬件组合。
据介绍,M50芯片实现了160TOPS@INT8、100TFLOPS@bFP16的物理,搭配最大48GB 内存与153.6 GB/s 的超高带宽,典型功耗仅10W,相当于手机快充的功率,就能让PC、智能语音设备、机器人等智能移动终端高效运行1.5B 到70B 参数的本地大模型,实现了"高算力、、即插即用"。
据了解, 致力于高算力、高带宽、低功耗的存算一体技术,后摩智能通过把计算和存储单元集成在一起,让数据就近处理,解决了传统芯片“数据传输慢、功耗高”的问题。据介绍,M50芯片作为这项技术的集大成之作,其第二代SRAM-CIM双端口存算架构能让权重加载和矩阵计算同时进行,支持多精度混合运算,可兼顾模型部署的各项需求;后摩智能自主研发的第二代 IPU 架构天璇,通过压缩自适应计算周期实现弹性计算(Elastic Computing),最高可提供160% 的加速效果;通过内建的高速多芯互联技术,可实现算力与带宽扩展;同时适配后摩智能新一代编译器后摩大道®,可根据芯片架构自动选择最优算子,无需开发者手动尝试;支持浮点运算,无需量化参数和精度调优。和传统架构相比,M50的能效提升5~10倍,适配了端边设备"算得快又吃得少"的需求。
与此同时,除了 M50芯片,后摩智能此次发布的产品矩阵形成了覆盖端侧到边缘的多元算力方案。力擎™️LQ50 M.2卡以口香糖大小的标准 M.2规格,为 AI PC、AI Stick、陪伴机器人等移动终端提供 "即插即用" 的端侧 AI 能力,支持7B/8B 模型推理超25tokens/s;力擎™️LQ50 Duo M.2卡集成双 M50芯片,以320TOPS 算力突破14B/32B 大模型端侧部署瓶颈;力谋®LM5050加速卡与力谋®LM5070加速卡分别集成2颗、4颗 M50芯片,为单机及超大模型推理提供高密度算力,最高达640TOPS;BX50计算盒子则以紧凑机身适配边缘场景,支持32路视频分析与本地大模型运行。
这些产品可广泛应用于消费终端、智能办公、智能工业等多元领域,且均能在离线状态下实现全流程本地处理,从源头杜绝数据联网传输风险。
例如在消费终端,赋能笔记本、平板电脑、学习机等设备本地大模型推理能力,无需联网即可完成智能交互、内容生成等任务,用户隐私数据全程闭环留存;智能办公场景中,智能会议系统在断网环境下仍能实现多语种翻译、纪要生成,会议内容不触云、不泄露;智能工业领域,产线质检与车路云协同通过本地算力完成实时分析决策,生产数据与运营信息在设备端闭环处理,避免云端传输隐患。
谈及未来,后摩智能已启动下一代 DRAM-PIM 技术研发,通过将计算单元直接嵌入 DRAM 阵列,使计算与存储的协同更加紧密高效。该技术将突破1TB/s 片内带宽,能效较现有水平再提升三倍,推动百亿参数大模型在终端设备实现普及,让更强大的 AI 算力能够融入 PC、平板等日常设备。
据悉,近两年以来,后摩智能已经获得了中国移动产业链发展基金、北京市人工智能基金,北京市亦庄产业升级基金、中国国有企业混改基金等多家机构的投资。后摩智能 CEO 表示:“M50的发布只是一个开始,我们的目标是让大模型算力像电力一样随处可得、随取随用,真正走进每一条产线、每一台设备、每一个人的指尖。”(定西)