关闭广告

LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了

新智元2025-09-26 00:00:022人阅读


新智元报道

编辑:艾伦

【新智元导读】疯狂挖人的Meta,终于在今天发布了最新AI研发成果!代码世界模型CWM是本次发布的模型,创新性地将世界模型引入了代码生成任务中。这是否会成为编程模型新范式?

,终于把他们的AI研发新成果端上来了!

就在今天,Meta官宣发布了一款名为代码世界模型(Code World Model, CWM)的LLM,探索如何使用世界模型改进AI代码生成性能。


Yann LeCun也亲自下场转发撑场子了。


CWM究竟有哪些创新点?这个32B的参数相对较小的大模型,究竟有多强?

CWM创新点

本次发布的CWM,最大的创新点是,将世界模型引入了代码生成任务中。

简言之,该模型的核心正如Yann LeCun所言:生成代码时,通过提前预测即将生成的代码指令可能产生的效果,来更好地规划出能够满足人类期望达成的效果的代码,从而改进生成代码的质量。

当人类进行规划时,我们会设想不同行动可能产生的结果。

当人类思考代码时,会在脑海中模拟其部分执行过程。

而目前市面上的主流语言模型,还很难做到这一点。

专门训练一个代码世界模型,补足这一点,生成代码的效果会不会好很多,是Meta要通过本次发布的CWM验证的猜想。


CWM基于大量编程数据,加上专门定制的Python和Bash(Linux和macOS的命令行解释器脚本语言)的世界建模数据,进行该模型的训练。

通过这种训练,CWM能够模拟Python程序在Bash环境中的执行及与Agent之间的交互。

对于「数数strawberry中有多少个r」这个难倒无数大模型的问题,CWM也用类似pdb(Python Debug用的调试器)的形式演示了其工作流程:



CWM直接发布了3个不同的Checkpoint,用于不同目的。



CWM性能测试

「光说不练假把式」,我们直接看看这个32B的小参数大模型在各类编程基准测试中的表现如何。

SWE-bench Verified是一个真实开源项目修复的最常用的编程评测标准,让模型在真实的大型开源仓库里,根据 GitHub issue+failing tests,定位并修复缺陷,最终以自动化测试是否全部通过来判定是否解决。

在该项测试中,32B小参数的CWM成绩为65.8%,逊于Qwen3-Coder和Kimi-K2-Instruct,与闭源的Gemini-2.5-Thinking接近,属于开源阵营第一梯队了。


其他测试成绩Alexandr Wang也直接发出来了:

LiveCodeBench:68.6%

Math-500:96.6%

AIME 2024:76.0%


CWM模型算是Meta的一次概念验证,投入了不算多的算力训练这个小参数大模型,主要是为了检验将世界模型引入代码生成任务是否会显著提高生成代码质量。

换言之,我们今日看到的这个模型只能算Demo。大的还在后面?

参考资料:

https://ai.meta.com/research/publications/cwm-an-open-weights-llm-for-research-on-code-generation-with-world-models/

https://x.com/syhw/status/1970960837721653409

https://x.com/AIatMeta/status/1970963571753222319

https://x.com/ylecun/status/1970967341052854748

https://x.com/alexandr_wang/status/1970973317227225433

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美股再掀IPO浪潮

国际金融报 浏览 266 08-05

昊铂HT上市18.99万起 跆拳道冠军称昊铂HT超能打

网易汽车 浏览 3423 07-13

文班接受加内特指导 此前曾在少林寺练功夫

罗说NBA 浏览 6005 08-07

媒体人:杨瀚森将与青岛一线队一同亮相 7月26日与球迷见面互动

直播吧 浏览 5239 07-23

来伊份入局威士忌,零食巨头布局威士忌该咋看?

江瀚视野 浏览 5374 08-05

夏天还是穿“连衣裙”好看,裙装的穿搭可以一试,优雅显气质

静儿时尚达人 浏览 127 07-04

"普特会"前 欧洲欲与乌克兰划出"共同红线"

参考消息 浏览 7931 08-11

五十岁的优雅,从来不是靠衣服“装”出来的,这么穿体面时尚

静儿时尚达人 浏览 8558 07-30

"天降"钢筋击碎挡风玻璃 公交司机右眼流血仍救下16人

红星新闻 浏览 7 09-25

少林书画院:联系不上释永信弟弟刘应彪

第一财经资讯 浏览 9376 07-31

水光针市场乱象:“三无”产品偷着打!总台《财经调查》曝光→

央视财经 浏览 1710 08-04

中女超第12轮:武汉女足3-1江苏无锡女足,王霜点射&邓梦晔双响

直播吧 浏览 584 07-24

没补贴、收购置税,新能源车好日子到头了?现实会打服“恨电派”

小李车评李建红 浏览 2 09-29

德保罗分享迈阿密国际晋级季后赛的海报:加油!

懂球帝 浏览 7 09-25

小米预热REDMI Note 15 Pro+:通过2米50次花岗岩反复跌落测试

IT之家 浏览 6620 08-18

苏群:直接来一个暴扣!胡明轩绝杀失手!苏群:为什么打三分呢?

直播吧 浏览 9586 08-19

别克至境首款轿车预告,再不来就被市场忘了

车动态 浏览 7680 07-14

ATM 取款机差点往外吐钱:黑客改造树莓派成功突破银行安全防线

IT之家 浏览 5114 07-31

全面关停,盒马折戟会员店业态

界面新闻 浏览 5196 08-06

7月销量只有75台,时代的大浪,把飞度直接拍在沙滩上了

正在说车 浏览 7718 08-20

技嘉海外闹乌龙:捆绑销售英特尔 Z890 主板和 LGA1700 处理器

IT之家 浏览 2052 08-07
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3