关闭广告

LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了

新智元2025-09-26 00:00:02160人阅读


新智元报道

编辑:艾伦

【新智元导读】疯狂挖人的Meta,终于在今天发布了最新AI研发成果!代码世界模型CWM是本次发布的模型,创新性地将世界模型引入了代码生成任务中。这是否会成为编程模型新范式?

,终于把他们的AI研发新成果端上来了!

就在今天,Meta官宣发布了一款名为代码世界模型(Code World Model, CWM)的LLM,探索如何使用世界模型改进AI代码生成性能。


Yann LeCun也亲自下场转发撑场子了。


CWM究竟有哪些创新点?这个32B的参数相对较小的大模型,究竟有多强?

CWM创新点

本次发布的CWM,最大的创新点是,将世界模型引入了代码生成任务中。

简言之,该模型的核心正如Yann LeCun所言:生成代码时,通过提前预测即将生成的代码指令可能产生的效果,来更好地规划出能够满足人类期望达成的效果的代码,从而改进生成代码的质量。

当人类进行规划时,我们会设想不同行动可能产生的结果。

当人类思考代码时,会在脑海中模拟其部分执行过程。

而目前市面上的主流语言模型,还很难做到这一点。

专门训练一个代码世界模型,补足这一点,生成代码的效果会不会好很多,是Meta要通过本次发布的CWM验证的猜想。


CWM基于大量编程数据,加上专门定制的Python和Bash(Linux和macOS的命令行解释器脚本语言)的世界建模数据,进行该模型的训练。

通过这种训练,CWM能够模拟Python程序在Bash环境中的执行及与Agent之间的交互。

对于「数数strawberry中有多少个r」这个难倒无数大模型的问题,CWM也用类似pdb(Python Debug用的调试器)的形式演示了其工作流程:



CWM直接发布了3个不同的Checkpoint,用于不同目的。



CWM性能测试

「光说不练假把式」,我们直接看看这个32B的小参数大模型在各类编程基准测试中的表现如何。

SWE-bench Verified是一个真实开源项目修复的最常用的编程评测标准,让模型在真实的大型开源仓库里,根据 GitHub issue+failing tests,定位并修复缺陷,最终以自动化测试是否全部通过来判定是否解决。

在该项测试中,32B小参数的CWM成绩为65.8%,逊于Qwen3-Coder和Kimi-K2-Instruct,与闭源的Gemini-2.5-Thinking接近,属于开源阵营第一梯队了。


其他测试成绩Alexandr Wang也直接发出来了:

LiveCodeBench:68.6%

Math-500:96.6%

AIME 2024:76.0%


CWM模型算是Meta的一次概念验证,投入了不算多的算力训练这个小参数大模型,主要是为了检验将世界模型引入代码生成任务是否会显著提高生成代码质量。

换言之,我们今日看到的这个模型只能算Demo。大的还在后面?

参考资料:

https://ai.meta.com/research/publications/cwm-an-open-weights-llm-for-research-on-code-generation-with-world-models/

https://x.com/syhw/status/1970960837721653409

https://x.com/AIatMeta/status/1970963571753222319

https://x.com/ylecun/status/1970967341052854748

https://x.com/alexandr_wang/status/1970973317227225433

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

同样是姐弟恋,陈乔恩给陈紫函上了一课

喜欢历史的阿繁 浏览 129 09-23

聊聊全新奥迪A6L 也许豪华行政市场要换风向了

网易汽车 浏览 133 10-12

高德扫街榜的加速 30 天

晚点LatePost 浏览 126 10-09

阿什拉夫:强奸指控是假的,不会再让任何人进入自己的圈子

懂球帝 浏览 157 09-25

吃水煮菜练出好身材,47岁吴建豪空中劈叉惊艳全网,太自律了!

娱乐白名单 浏览 8728 07-19

宁德时代:钠新乘用车动力电池正在与客户推进开发、落地中

IT之家 浏览 120 10-26

五到十二:财务管理不善如何将狼队置于危险境地

绿茵情报局 浏览 80 01-28

【特稿】土耳其要求伊拉克保障两国间输油管道获“充分使用”

新华社 浏览 3347 07-30

宗馥莉知道父亲遗嘱存在 宗庆后“手书”披露

天津广播 浏览 9560 08-02

外媒披露乌军工业"家底":计划年产无人机约1800万架

每日经济新闻 浏览 4727 07-20

61588人观赛创纪录!中超-英博2-0泰山 刘祝润建功

网易体育 浏览 743 07-20

那英基础,节目组就不基础

时尚COSMO 浏览 7381 08-20

香港老人登上山东舰哽咽:我们都要好好爱我们的国家

环球网资讯 浏览 8645 07-05

特朗普称"无人关心"爱泼斯坦案 马斯克嘲讽:公布得了

每日经济新闻 浏览 8814 07-14

落地工业场景,大模型要闯这三关?

时代周报 浏览 7363 07-29

多纳多尼:有小因扎吉这种级别的教练,相信有利于沙特足球的发展

直播吧 浏览 9432 08-10

曾凡博签篮网,跑龙套还是真有戏?

后厂村体工队 浏览 9063 08-05

环球:印度外长5年来首次访华 双方有鲜明的共识

环球网资讯 浏览 8121 07-15

打好价值战,吉利银河冲击「下一个百万」

网易汽车 浏览 92 01-09

记者:埃弗顿与切尔西就霍尔转会达原则性协议,费用2590万+400万

直播吧 浏览 2385 08-05

一天之内 以军空袭黎巴嫩致254死1165伤

新民晚报 浏览 23 04-09
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3