关闭广告

对话商汤科技首席科学家林达华:生成不等于完成,AI创作的关键是理解人的意图

时代周报2025-07-29 00:00:024428人阅读

本文来源:时代周报 作者:雨辰

在AIGC技术快速迭代的当下,图生视频正在从实验室走进创作室、工作坊和工业一线。

2025世界人工智能大会(WAIC 2025)期间,商汤科技联合创始人、执行董事、首席科学家林达华博士在接受时代周报等媒体采访时,深入剖析了多模态大模型的演进趋势、技术挑战与商汤的战略布局。他强调:“多模态能力是通向通用人工智能(AGI)的必经之路。”

今年5月,CreateAI发布《多模态生成技术在动画制作领域的应用与发展白皮书》,该报告首次以中国动漫电影《哪吒2》为案例,结合权威数据,揭示了AI在激发创意与优化流程方面如何实现“降本增效”。

林达华认为,生成式AI的未来,不应仅仅追求“从文字直接生成图像或视频”的技术炫技,而应聚焦于创作者意图与结果之间的精准对接。“AIGC的终极形态,是一个真正服务创作过程的交互工具。”


商汤科技联合创始人、执行董事、首席科学家林达华博士

时代周报:从技术角度来看,在视频生成过程中,如何实现对空间结构和物理逻辑的有效把控?

林达华:商汤很早就布局了数字人、三维建模等方向,因此在三维空间建构方面积累深厚。在Sora引发关注时,我们也研究了它的视频质量,的确在视觉效果上令人惊艳,但它在物理规律的掌握上存在明显不足——它采用的是基于时间的一帧帧生成逻辑,本质上并不具备三维结构的建模与控制能力。相比之下,商汤内部一直在探索如何将三维结构能力应用于视频合成,让生成视频在空间结构和物理逻辑上都更加真实可控。

这一优势也体现在我们参与的奥运场景应用中。例如在去年奥运会乒乓球等项目中,我们把三维的结构的这种信号,用于控制视频的生成,使得它生成的结果符合物理的结构、物理的规律。成功实现对球拍与球体轨迹的精准还原,为赛事回放与辅助判罚提供了强有力的技术支持。

时代周报:在实际运用中视频生成结果“符合物理逻辑”有多重要?

林达华:这是我们高度重视的关键能力。生成内容不仅要“看起来真实”,更要“逻辑上成立”。例如,商汤的“开悟”世界模型,在某种意义上,也可被视为一种视频生成模型,但它对三维结构生成的准确性和物理性的要求极为严格。若生成的结果不符合物理规律,将其用于驾驶训练,将导致灾难性的后果。所以,相较于一些AI公司追求生成画面越“炫”越好,商汤更强调结果的正确性:我们生成的画面必须符合物理规律、空间逻辑,并具备可解释性。

时代周报:图生视频较文生视频有哪些提升?图生视频具体有哪些典型应用场景?在哪些环节真正能发挥价值?

林达华:相较于文生视频,图生视频显然具备更坚实的依托。以文字为例,若要生成一只在空中飞翔的鸟,单凭文字描述,系统难以构思出丰富的细节。然而,若有一张图片作为基础,生成的结果便会日新月异。例如,要求系统生成“我妈妈微笑的照片”,若系统未曾见过你母亲,又怎能凭空创造?显然,必须有一张实际图像作为参考。因此,我认为真正的个性化生成,不应仅依赖文字描述,而需以真实影像为支撑,方能实现这一可能性。

从图生视频的角度来看,最直接的莫过于C端应用场景。假设你家中存有大量照片,希望让它们“动”起来,这无疑是一个极具吸引力的创意。早期,我的团队开发了AnimateDiff,影响力较大。如今,许多后续的图生视频研究都与AnimateDiff有着千丝万缕的联系。我们注意到,这项于2023年开源的技术,被广泛用于创作各类充满想象力的视频,用户仅需几张照片便能展开创作。

时代周报:图生视频价值在哪里?您怎么看AI和人类创作者的关系?

林达华:我们一直认为,文生视频也好,图生视频也好,都不是生成式AI的终极形态。真正的理想状态,是将创作者的意图与生成过程深度融合,把AI当作一个真正服务创作流程的“工具”。

在我理解,包括我们刚刚发布的视频平台上的Seko AI,它是一个交互式创作工具,我们将视频的制作视为一种创作,而不是仅仅输入一句话后就不管不顾,等待它生成一个结果。这个结果很可能并不符合你的预期,也不一定能直接使用。

真正有价值的是,它能大幅减少你的工作量,同时你仍能对最终的生成内容进行把控。当发现生成内容不合适时,你可以指导它进行修改,掌控生成的脉络,这就是交互式生成的核心所在。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

智己汽车首获上海新一批智能网联汽车示范运营牌照

IT之家 浏览 9822 07-27

曾想拆分英伟达,特朗普签署最激进「AI行动计划」,全行业去监管

机器之心Pro 浏览 1456 07-24

法律人士谈发蛤蟆汤照片收45万罚单:不构成广告行为

新京报 浏览 536 07-15

科学家发现大脑“反奖赏”逃避痛苦机制,为治疗成瘾问题提供思路

IT之家 浏览 9399 07-26

将于北京车展首发 奕境旗下首款量产车路试谍照曝光

网易汽车 浏览 9 01-19

萨高大战流产!萨巴伦卡将挑战赛变授课堂,高芙被小白菜扫成服妹

网球之家 浏览 3 01-28

解除对供乌武器射程限制后会发生什么?

国际在线 浏览 7338 05-28

加维社媒晒护腿板,上面写着:激情、执着、坚韧、顽强、勇气

直播吧 浏览 6569 07-29

D-巴斯克斯:我和米兰解约3天后就收到罗马邀请 感谢马萨拉的信任

直播吧 浏览 4582 07-31

全系四驱!领克10EM-P配激光雷达+英伟达Thor芯片

网上车市 浏览 6427 07-07

印媒询问中方从富士康召回中国员工问题 中国大使回应

界面新闻 浏览 4236 07-22

集微咨询发布《2025中国半导体后道设备行业上市公司研究报告》

爱集微 浏览 31 12-15

哪吒汽车,要重生了?

财视传播 浏览 9408 08-05

8年长跑IPO,天海电子能否“上岸”?

投资者网 浏览 3084 08-10

甜馨背5万元LV包,和爸爸贾乃亮在国外旅行

TVB的四小花 浏览 308 08-11

刚刚,蒋凡回应此前饿了么为何不敌美团|附阿里最新业绩会实录

蓝鲸新闻 浏览 99 08-30

雷克萨斯,扳回一局

电动势 浏览 24 12-19

多地掀起快递"反内卷":抵制"8毛发全国"的极端低价

南方都市报 浏览 6119 08-14

风向变了,985名校跌落神坛?

米筐投资 浏览 5138 07-28

为提振美国房地产市场,特朗普考虑取消卖房的资本利得税

华尔街见闻官方 浏览 3009 07-23

PD-1 PLUS成主角?国产创新药再迎催化 这场顶级肿瘤学会议值得关注

财联社 浏览 3518 08-10
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3