关闭广告

腾讯加码空间智能大模型,这一赛道正在成为下一个风口

首席商业评论2025-08-10 00:00:024955人阅读



混元3D模型有什么不同

2018年电影《头号玩家》横空出世,一个完全虚拟但又有较为真实体验的世界,拉开了元宇宙世界的序幕,依靠VR设备就能创造一个崭新的世界过去被视作科幻想象。但在今天这一切也许有了可能。

腾讯混元世界3D模型,让我们看到了探索这种未来可能性,低成本人人可以参与创造,虚拟且真实的世界正在到来。

在 2025 世界人工智能大会腾讯论坛上,腾讯正式发布并开源其全新「混元 3D 世界模型 1.0」,该模型不仅支持通过文本或图像生成完整 3D 场景,还具备 360° 沉浸式漫游、资产导出为标准 mesh 格式、支持主流建模软件编辑等功能,真正实现从“AI 能画”到“人能用”的跃迁。

在生成式 AI 重塑 3D 内容创作流程的浪潮中,一场场技术革新正悄然改变游戏、美术、影视等产业的生产底座。作为最受欢迎的 3D 开源模型之一,混元 3D 模型在Hugging Face 平台下载量已超过 230 万,广受全球开发者认可。

年初的时候腾讯就已经发布过了自己的3D模型,但彼时模型还不够成熟,只能生成单一物体互动性较弱。在今年 4 月的 2025 全球机器学习技术大会上,腾讯混元 3D 项目负责人郭春超接受 CSDN 专访时就提到:腾讯混元 3D 系列模型正从“重建一个物体”到“生成一个场景”,再到“理解一个世界” 迈进,他们希望生成的不只是一个‘看起来像’的模型,而是一个创作者可以直接使用的可交付资产。



这次更新的空间模型能力堪称炸裂。腾讯混元团队也从定量角度评估混元世界模型 1.0 性能,针对 360° 全景与 3D 场景生成能力,与开源或者开放接口工作进行了对比,包括纹理细节、美学质量、指令遵循等评价维度,结果显示,混元世界模型 1.0 在生成质量上全面超过了 SOTA 开源模型。

与此同时,腾讯混元还宣布了一系列后续开源计划,包括多模态理解模型、游戏视觉模型,以及适用于边缘设备的端侧大语言模型(0.5B、1.8B、4B、7B),覆盖从 3D 世界生成到小模型部署的完整生态链条。这一次,腾讯不仅把 3D 内容生成从「生成一个物体」升级到「生成一个世界」,还希望以开源的方式,撬动整个3D AIGC 创作生态。

那么从普通用户可感知的角度这事有什么可聊的呢?

混元模型可基于一句文本描述或一张图像输入,生成一个 360 度沉浸式的三维场景。例如,你只需输入「一个破旧的加油站,夜晚下着雨,远处有霓虹灯」,它就能构建出加油站主体、环境、天空光照、闪电等元素构成的完整空间。

除了能看,还能动。混元世界模型支持构建“可行走”的场景地图。生成的世界不仅是封闭空间和固定视角,也支持在场景中自由漫游,体验类似游戏或虚拟现实的交互感。“可行走”过去很多空间模型也展示过,但是多数存在视角丢失,缺少空间感连续性,更不要说拿来做连续项目开发了。

为此腾讯选择了大胆创新,不完全采用3D方式来构建。纯 3D 生成:优点是空间结构稳定,但受限于高质量 3D 数据的稀缺,生成的多样性和创造力不足。

纯 2D 视频生成(如 Google 基础世界模型 Genie):优点是交互和动态效果丰富,但缺乏三维空间的稳定性约束。你往前走再回头,场景可能已经「面目全非」,无法构建一个逻辑自洽的世界。腾讯混元团队选择了一条更聪明、也更复杂的「2D+3D 结合」的混合路线,取长补短。

对于游戏开发者而言,这是前所未有的生产力革命。 传统的游戏场景搭建,需要建模师耗费数周甚至数月的时间手动完成。现在,只需一句指令,就能快速生成一个高质量的场景原型,用于前期的玩法验证。这能极大地缩短开发周期,降低试错成本。同时,模型生成的各种道具、建筑也能作为基础素材,大大提升资产生产效率。对于普通 3D 爱好者和内容创作者,它则彻底拉低了创作的门槛。 你不需要懂复杂的三维建模软件,也能创造属于自己的虚拟世界,并将其导入到 Vision Pro 等设备中沉浸式体验。

那么是不是一个全新的空间智能时代就此来临?倒也不必这么乐观。目前的空间模型还处在相对初级的阶段,约束条件较多,仿真数据只能解决部分问题,在当前的大模型框架下,想要真正创造复杂动态多变的“世界”,还是有些科幻的。


空间智能战争打响

谈到空间智能就不能不谈世界模型,模型对空间的准确理解和构建是基础,但世界模型相对更复杂一些,会加入一些物理推理、因果推理等更维的约束,具备预测生成能力可以参与复杂决策系统。所以看上去空间智能模型更像是世界模型的前一阶段,具有一定子集性质。

但从实践上,空间智能模型,也会具有一些物理推理,比如腾讯的混元3D模型,也具备生成一个世界的能力,也可以说是一个基础世界模型。

“世界模型”被业内吹捧为是AI领域的下一个关键突破,那么“世界模型”到底指的是什么?它的重要之处在于哪里?

过去AI视频经常被人吐槽的是空间错乱不懂物理规则,比如大象跟老鼠一样重,三只手的人,悬浮的公路,汽车可以像幽灵一样穿过另一辆车等等。

因此传统AI模型集中于语言和数值数据,难以理解杂乱无章、结构不定且不断变化的真实物理世界,所以空间智能的发展存在重重挑战。直到最近两年生成式AI爆发,让机器来理解三维物理世界的技术越发成熟, AI生成可交互3D场景作为一种新兴的多模态任务,也被称为“空间智能”的领域,甚至被称为下一个AI创新重要节点,而不是Agent那样的智能体工具。

AI大神李飞飞曾提到:“空间智能让机器脱离数据中心,进入现实世界,理解丰富的三维、四维世界”,并总结为“I see,I move,I think,so I am”(我看、我动、我思,故我在),突出视觉、运动与认知的融合。

怎么理解呢?比如十年前AlphaZero学会围棋不是靠对弈,而是靠在内部模拟数十亿次对局。机器人也是一样,有了世界模型,它就能在“脑中模拟”无数种走路、抓取、跳跃的方式,从而学会最优策略。

当然,AlphaZero成本高昂不具备复杂多目标的预测和模拟,变成了“好玩的工具”。但到了大模型时代,世界模型的软硬件理论都在成熟。从过去一个点的模拟到现在整个场景的模拟不再是幻想。

想象一下,个人AI助手提前帮你规划一天日程并预测可能麻烦; 智能穿戴设备预测你的健康风险并主动干预;无人车不仅能开得安全,还能主动规避情绪激动的人。

一旦有了世界模型,AI就不只是“看到什么做什么”,而是可以在内部模拟不同路径的后果(比如机器人该走楼梯还是乘电梯?);可以进行计划和策略调整(比如机器人先拿抹布再去打扫);可以进行跨模态融合推理(声音+图像+历史数据建模);这就类似于人类的“想象力+规划能力”,真正体现了具身智能的高级阶段。

来自谷歌DeepMind的顶尖研究团队25年6月发表了一篇具有里程碑意义的论文,题为《通用智能体需要世界模型》。该研究通过严谨的数学证明,首次从理论上确立了一个核心论断:任何能够灵活适应并完成多步、复杂任务的通用人工智能(AI)体,其内部必然已经学习并编码了一个关于其环境的预测模型——即“世界模型”(World Model)。

这意味着,学习一个精确的世界模型,不是一个可选项,而是成为通用智能体的“必要条件”。AI的能力上限,被其内部世界模型的保真度牢牢锁定。

所以AI竞争的下一个大方向,就是世界模型或者空间智能,真正懂AI其实已经早有布局了。

今年1月7日,黄仁勋在2025年拉斯维加斯消费电子展(CES)上宣布,推出Cosmos世界模型(Cosmos World Foundation Models,简称Cosmos WFMs),该模型专为理解物理世界打造,可预测和生成“物理感知”的视频。

实际上,除了英伟达,谷歌以及不少初创企业也在追逐世界模型,谷歌旗下DeepMind组建世界模型研究团队,聘请Sora核心人员Tim Brooks掌舵。此外,“AI教母”李飞飞的World Labs、初创公司Decart、 Odyssey也都涉足其中。

8月5日Google DeepMind发布的Genie 3带来了新的技术想象力,而是直接生成一个可交互的3D世界。



对比 Genie 1 和 Genie 2,这次 Google DeepMind 团队实现了一次关键的升级,从「生成可互动视频」变成了「实时生成可互动世界」。

Genie 3 的升级除了「可漫游」这一方面,它的强大之处主要体现在以下几点。实时交互性:Genie 3 生成的世界不是预先渲染好的视频。它能以 720p 分辨率和 24fps 的帧率实时运行,让我们像玩游戏一样在其中自由移动。更长的持续性和一致性:这是最令人惊艳的升级。相比前代模型十几秒的互动时间,Genie 3 将这个时长提升到了「几分钟」。更重要的是,它拥有长达一分钟的视觉记忆。



Genie 3虽然还不够长,用于生产力工作稍显不足,但以及证明了生产互动性世界是可以的,实现了1的开始还怕后面没有0吗?

其实不管是对互联网企业来说,还是个人用户,都可以通过空间智能3D模型,来用于游戏、视频制作、3D动画等,将会创造完全不同于以往的体验,对于影音娱乐的革命或许就在眼下。


腾讯AI在下什么大棋

过去大家对腾讯的印象是喜欢“后发制人”在科技创新上略显保守,但今年以来这个评价或许不那么合适了。

今年3月19日,腾讯发布新一季财报。2024年,腾讯在AI战略推动下,全年资本开支达到767亿元,同比增长 221%,创下历史新高。财报电话会上,腾讯总裁刘炽平表示:“我们计划在2025年进一步加大资本支出,预计资本支出将占收入的十几个百分点。”

卷基础技术腾讯也是认真的。基础模型方面,腾讯的混元大模型体系已形成完整梯队。最新开源的0.5B-7B小模型 与之前52B的Hunyuan large、MoE架构的Hunyuan-A13B共同构成从端侧到云端的覆盖。

今年上半年混元TurboS理科推理提升超10%,代码能力提升24%,竞赛数学成绩大幅提升了39%。在全球公认的权威大语言模型评测平台Chatbot Arena上,混元TurboS排名已攀升至全球前八,与OpenAI GPT、谷歌Gemini、xAI 的Grok 等最领先大模型共同上榜,国内仅次于DeepSeek。

除了力推自家元宝之外,腾讯还是展现了以往以来的开放合作的胸怀,愿意成为行业基础设施,为中小开发者创业者搭建基础平台。



在智能体开发层面,将大模型知识引擎全面升级为“腾讯云智能体开发平台”,升级后的平台,整合了腾讯云行业领先的RAG(检索增强生成)技术、全面的 Agent(智能体)能力以及实战打磨出来的贴合用户需求的功能,帮助企业快速激活私域知识、构建专属智能体。

从企业角度来看,眼下,企业知识库落地痛点很大,大量的内部文档、数据、经验等知识散落各处,亟待整合利用,而 AI 技术恰好能对这些知识进行高效收集、精准分类与智能检索。基于这一判断,今年上半年,腾讯内部的知识库产品升级速度大大加快,腾讯乐享全面升级为乐享知识库,提供企业级的知识管理方案。

后来科沃斯将产品手册、故障代码库、用户常见问题等导入腾讯乐享知识库,利用 AI 分类技术自动打标签、关联相似问题,员工和客服可通过搜索快速定位答案。科沃斯整体营销效率大大提升,人效两位数提升,每年可以省下百万的运营成本。只有这样真实的帮助企业“降本增效”,才能吸引更多企业参与生态建设,而不是挟持企业加入自家生态。

可以说腾讯已经找到了自己的节奏,基础模型研发和产品应用,两手都要硬。在C端,发挥优势打造AI原生的产品,力争跑出爆款,在B端,延续健康可持续的策略,不盲目跟风,贴合场景做落地。


写在最后

AI的下一个竞争焦点,正在转向世界模型或者空间模型,这没有问题,但距离真正的预测和自主生成决策感知空间的能力,还非常遥远。所以眼下要做或许不是各种激进落地,而是统一行业3D数据收集标准打好基础,以及模型架构创新把算力成本降下来才有大规模商业化可能。

参考资料:

谷歌Genie 3让你秒变造物主 来源:Appso

腾讯AI加速狂飙这半年 来源:雷峰网

AI下一个必争之地 来源:华尔街见闻

大模型潜力在空间智能 来源:腾讯研究院

腾讯混元发布即开源 来源:CSDN

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

彭博社:印度人耿耿于怀之际 发现特朗普不敢欺负中国

澎湃新闻 浏览 9119 08-09

45岁大威横扫新星引爆网坛:不同时代球员,何必分高下?

网球之家 浏览 739 07-25

退出演艺圈10年,“婉瑜”赵霁分享近况

八斗小先生 浏览 3766 07-26

女子称骑车被外卖小哥撞伤本想私了:对方说只有3块钱

极目新闻 浏览 7855 07-21

高德地图宣布入局低空经济

网易科技报道 浏览 2495 07-31

莱万:哈维在那段艰难岁月为巴萨所做的一切堪称非凡

直播吧 浏览 5252 08-14

深蓝L07 2026款上市 售13.59万元起全系标配华为智驾

智车情报局 浏览 2752 08-14

车企自建高速超充站第一,理想汽车现金储备达 1107 亿元

IT之家 浏览 1944 07-20

女明星恋爱结婚愈发不看脸!太多女强男弱,男方槽点一个比一个多

萌神木木 浏览 9540 07-17

佩斯科夫:三天停火已结束 未看到乌方停火举措

界面新闻 浏览 9993 05-11

李璇:浙江队还有对阵中超前四4场比赛,他们有实力决定冠军归属

直播吧 浏览 7822 08-10

特朗普暗示俄乌或将有领土交换:泽连斯基准备签字吧

看看新闻Knews 浏览 6854 08-10

奔驰:预计在“本十年结束前”推出量产版固态电池电动汽车

IT之家 浏览 6927 07-25

特朗普宣称"巴西是个糟糕的贸易伙伴" 巴西总统回应

国际在线 浏览 4697 08-15

联想加速中东地区战略扩张 在沙特设立区域总部

网易科技报道 浏览 8623 08-19

鲍文:两场比赛西汉姆就丢了8个球,作为队长我对开局感到愤怒

直播吧 浏览 15 08-23

媒体人:与白鸥大学交手后 有清华男篮队员收到B联赛经纪人邀约

直播吧 浏览 5159 08-20

意媒:波贝加、埃默森、阿德利和本纳塞尔未被列入米兰亚洲行名单

直播吧 浏览 5619 07-20

Meta二季度营收475.2亿美元,预期448.3亿美元

华尔街见闻官方 浏览 6750 07-31

普京提议在莫斯科和泽连斯基"一对一" 白宫想三方会面

红星新闻 浏览 1649 08-21

大疆、影石刺向彼此腹地:智能影像市场硝烟再起

蓝鲸新闻 浏览 3675 07-29
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3