关闭广告

Karpathy都投的AI实时视频生成模型:直播立即转,无限时长零延迟

量子位2025-07-20 12:00:019594人阅读

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

大神Karpathy都忍不住投资的AI初创,带来首个实时扩散视频生成!

用扫帚当麦克风,用盒子当混音台,无需昂贵设备就能开一场沉浸式直播。



喜欢游戏类型但不喜欢游戏的画面?简单,实时给它改个风格是不是就舒服多了~



以上,就是AI初创公司Decart的最新视频模型MirageLSD的演示效果,这是首个实现零延迟无限实时视频生成的AI模型。

只要你有想象力,Mirage就能实时生成视频流,为你打造专属的魔法世界~

输入支持直播、游戏、视频通话、相机拍摄、点播等多种形式,可以说是能转尽转了。

主要是Mirage和其他等待时间很久但只能生成5-10秒视频的模型不一样,它没有时长限制,延迟还降到了40毫秒以下,说是零延迟也不为过吧。

响应速度比之前的模型快16倍,实现了每秒24帧的实时视频生成,还允许在视频生成过程中进行持续的提示、转换和编辑。

做到了“你随时想,我随时转”!

于是,AI大神卡帕西也出来力挺:实时!

同时他还透露自己也是Decart的天使投资人(非常小)。





接下来让我们看看Mirage是如何做到的。

攻克了传统自回归视频模型中“误差累积”的核心难题

MirageLSD采用Decart自定义的实时流扩散模型Live-Stream Diffusion(LSD),LSD能够在逐帧生成内容的同时保持时间连贯性。

在视频生成过程中,由于自回归模型每一帧都依赖于前一帧,一个位置偏移的阴影或者一种纹理错误的细节这些瑕疵会随着时间的推移而不断累积,这种误差积累会使模型逐渐偏离训练。

当前的视频模型在生成超过20-30秒的内容时,会因为误差累积而导致严重质量下降,所以一些模型只能生成固定长度的短视频。

MirageLSD能够实现无限生成的核心就在于解决了传统自回归视频模型中“误差累积”这一关键瓶颈。



它采用逐帧的因果自回归结构处理数据,每帧生成仅依赖先前已生成的帧和用户提示,而非完整视频序列,这种模式为连续生成无限时长视频奠定了基础。

同时依托Diffusion Forcing技术,让模型在训练中学会独立对单帧去噪,无需依赖完整视频上下文,保证了逐帧生成的连贯性。



针对传统自回归模型中微小误差随时间叠加导致画面失真的问题,MirageLSD通过历史增强策略解决:训练时向输入的历史帧中主动添加模拟模型可能生成的伪影(如噪声、畸变),使模型学会预判并纠正这些缺陷。

此外,在推理阶段明确告知模型“历史帧可能不准确”,可以让它保持对误差的警惕性,持续调用训练中学习的纠正能力。

并且之前的模型都需要几分钟的处理时间才能生成几秒钟的内容,以分块的方式生成视频还引入了不可避免的延迟,从而不能实现实时互动。

MirageLSD采用改进的Transformer模型架构,搭配专门设计的视觉编码器、改进的位置编码以及针对长时间交互序列优化的结构,来快速处理输入和生成输出。



同时,对生成部分的扩散模型部分应用先进的蒸馏策略,在保证生成质量的前提下有效提升运行速度,借助KV缓存技术支持的长上下文窗口,让模型能记住之前的状态信息,避免因频繁处理大量历史数据导致延迟。

在核心集成帧级提示词处理机制,可即时解析玩家的键盘指令和自然语言提示,快速转化为相应操作。

动态输入系统则能以超低延迟处理玩家输入,无论是生成新元素还是改变环境都能迅速响应。

此外,视觉更新通过全双工通信通道流回,输入与输出并行处理,消除了数据传输和处理中的延迟;采用“垂直训练”流程让模型深入学习相关规则与模式,减少了生成过程中的计算开销和错误尝试,进一步间接提升了实时性能。

实现了“抖一抖衣服就能换装”、“棍子变发光武器”之类的操作。



MirageLSD由位于美国加州的初创公司Decart打造,该公司成立于2023年。

2024年,Decart推出了自己的第一款模型Oasis,这是首个实时生成式AI开放世界模型。



Oasis支持实时交互,能实现每秒20帧零延迟的生成效率。

由此看来,MirageLSD如今每秒24帧的效率也有所提升。

团队还表示将定期发布MirageLSD的升级模型和新增功能,包括面部一致性、语音控制和精确物体控制等,逐步提升用户体验。

体验链接:https://mirage.decart.ai/

参考链接:
[1]https://x.com/DecartAI/status/1945947692871692667
[2]https://x.com/karpathy/status/1945979830740435186

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

业界首个,腾讯混元 3D 世界模型正式发布并开源

IT之家 浏览 8405 07-27

倒计时一天 "普特会"的五大看点梳理

环球网资讯 浏览 5214 08-15

媒体:欧洲发起声势浩大的"撑腰"行动 结局或刺痛自己

红星新闻 浏览 3966 08-21

明年登陆赛道 法拉利296 GT3 Evo官图发布

车质网 浏览 4255 06-30

无限扫描,将400年前的世界一键装进手机

现代快报 浏览 2677 07-24

媒体人:四川在兜售萨姆纳的优先续约权 若按其要价成交将创历史

直播吧 浏览 6559 07-27

裁判评议:石家庄功夫vs南通支云两个争议判罚裁判均判罚正确

懂球帝 浏览 3508 07-24

600亿A股公司起诉美国巨头,索赔9999万!

网易财经 浏览 6100 08-14

贝因美等企业回应奶粉、纸尿裤价格争议,有品牌称“绝不涨价”,有产品不升反降

时代财经 浏览 9009 08-06

甜馨再放话强调不出道,拍唱跳视频出于喜欢,曾辟谣签约乐华

新金牌娱乐观察家 浏览 7658 08-13

英伟达股价狂飙引过热担忧,分析师警示“狂热边缘”风险

环球网资讯 浏览 6772 07-19

理想汽车销售体系再调整

大象新闻 浏览 9953 08-18

“穿”上丝巾的鞠婧祎,好有生命力

时尚COSMO 浏览 6400 08-04

美国前官员谈"特普会":特朗普没有输 但普京显然赢了

澎湃新闻 浏览 5932 08-17

万斯称俄向特朗普做出重大让步 拉夫罗夫:清醒点

澎湃新闻 浏览 15 08-26

勇攀全球第一,光刻机小龙头,深不可测!

飞鲸投研 浏览 2759 08-09

预售22万元起 全新岚图知音将于8月28日上市

网易汽车 浏览 3190 08-21

内马尔:我的能力大家都有目共睹无需证明;只想帮助桑托斯

懂球帝 浏览 1720 08-05

数智化时代,全产业出海加速中|2025中国供应链出海十大趋势报告

霞光社 浏览 8642 08-14

“顶流”基金经理离任、ETF矩阵崛起 招商基金的转型升级大戏

铑财 浏览 9 08-26

佩罗内:加盟科莫是我的最佳选择,在意甲对恰尔汗奥卢的印象最深

直播吧 浏览 7372 07-23
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3