关闭广告

LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了

新智元2025-09-26 00:00:0287人阅读


新智元报道

编辑:艾伦

【新智元导读】疯狂挖人的Meta,终于在今天发布了最新AI研发成果!代码世界模型CWM是本次发布的模型,创新性地将世界模型引入了代码生成任务中。这是否会成为编程模型新范式?

,终于把他们的AI研发新成果端上来了!

就在今天,Meta官宣发布了一款名为代码世界模型(Code World Model, CWM)的LLM,探索如何使用世界模型改进AI代码生成性能。


Yann LeCun也亲自下场转发撑场子了。


CWM究竟有哪些创新点?这个32B的参数相对较小的大模型,究竟有多强?

CWM创新点

本次发布的CWM,最大的创新点是,将世界模型引入了代码生成任务中。

简言之,该模型的核心正如Yann LeCun所言:生成代码时,通过提前预测即将生成的代码指令可能产生的效果,来更好地规划出能够满足人类期望达成的效果的代码,从而改进生成代码的质量。

当人类进行规划时,我们会设想不同行动可能产生的结果。

当人类思考代码时,会在脑海中模拟其部分执行过程。

而目前市面上的主流语言模型,还很难做到这一点。

专门训练一个代码世界模型,补足这一点,生成代码的效果会不会好很多,是Meta要通过本次发布的CWM验证的猜想。


CWM基于大量编程数据,加上专门定制的Python和Bash(Linux和macOS的命令行解释器脚本语言)的世界建模数据,进行该模型的训练。

通过这种训练,CWM能够模拟Python程序在Bash环境中的执行及与Agent之间的交互。

对于「数数strawberry中有多少个r」这个难倒无数大模型的问题,CWM也用类似pdb(Python Debug用的调试器)的形式演示了其工作流程:



CWM直接发布了3个不同的Checkpoint,用于不同目的。



CWM性能测试

「光说不练假把式」,我们直接看看这个32B的小参数大模型在各类编程基准测试中的表现如何。

SWE-bench Verified是一个真实开源项目修复的最常用的编程评测标准,让模型在真实的大型开源仓库里,根据 GitHub issue+failing tests,定位并修复缺陷,最终以自动化测试是否全部通过来判定是否解决。

在该项测试中,32B小参数的CWM成绩为65.8%,逊于Qwen3-Coder和Kimi-K2-Instruct,与闭源的Gemini-2.5-Thinking接近,属于开源阵营第一梯队了。


其他测试成绩Alexandr Wang也直接发出来了:

LiveCodeBench:68.6%

Math-500:96.6%

AIME 2024:76.0%


CWM模型算是Meta的一次概念验证,投入了不算多的算力训练这个小参数大模型,主要是为了检验将世界模型引入代码生成任务是否会显著提高生成代码质量。

换言之,我们今日看到的这个模型只能算Demo。大的还在后面?

参考资料:

https://ai.meta.com/research/publications/cwm-an-open-weights-llm-for-research-on-code-generation-with-world-models/

https://x.com/syhw/status/1970960837721653409

https://x.com/AIatMeta/status/1970963571753222319

https://x.com/ylecun/status/1970967341052854748

https://x.com/alexandr_wang/status/1970973317227225433

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

女童安全绳脱落从攀爬项目三层坠落骨折 多方回应

潇湘晨报 浏览 1382 07-22

五角大楼启动10亿美元新计划 采购数十万架单向攻击无人机

环球网资讯 浏览 25 12-04

陈铭:亲哥幼时因警察父亲破案遭报复 脑部被注射药物

扬子晚报 浏览 210 08-23

首发2亿超清写真镜头,荣耀Magic V Flip2发布,售价5499元起

网易科技报道 浏览 103 08-22

被美国对华鹰派施压后 特朗普对中国提了一个过分要求

梁讯 浏览 140 08-26

中方提醒中国游客避免前往日本 日媒:或造成重大影响

环球网资讯 浏览 41 11-17

郭德纲没想到岳云鹏竟给曹云金做了“嫁衣”

一家说 浏览 7458 08-10

德天空:因FIFA赛程改革,拜仁未来5年没有啤酒节主场比赛

懂球帝 浏览 60 09-26

34亿"并购造假案"判了

网易财经 浏览 8061 07-30

于正热衷庆功宴?曾舜晞不参加,白鹿做法太体面

阿废冷眼观察所 浏览 4800 08-01

标普新高背后的隐忧:曾精准预测08危机的经济学家揭秘美国经济“暴风雨前的平静”

智通财经 浏览 8840 07-25

夫妻自驾从安徽送儿子去新疆上大学:辛苦但快乐

潇湘晨报 浏览 120 09-01

具身智能何时实现“ChatGPT时刻”,王兴兴说了个关键前提丨聚焦进博会

红星资本局 浏览 48 11-06

张碧晨陷原唱风波 汪苏泷已给足体面 还是被打脸

联友军事 浏览 780 07-29

港圈一哥之死,终于揭秘了

独立鱼 浏览 119 08-26

刘宇宁表示自己会患得患失,三天没工作会开直播

芊手若 浏览 5682 07-11

2025秋冬一定要拥有的5只包包,怎么搭都好看

LinkFashion 浏览 111 09-26

何方奇兵!贝克18中11&三分10中4轰26分10板2断2帽 第三节14分!

直播吧 浏览 3794 07-19

特朗普亮明"弃台"主张 学者:美在台海已不具军事优势

台海网 浏览 13 01-13

NVIDIA推出ChronoEdit:让AI图像编辑拥有物理常识的革命性技术

科技行者 浏览 48 11-04

“比亚迪的资源不支持搞内部 ‘赛马’,只能去跟外部竞赛”

虎嗅APP 浏览 9055 07-31
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3