关闭广告

Karpathy都投的AI实时视频生成模型:直播立即转,无限时长零延迟

量子位2025-07-20 12:00:019724人阅读

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

大神Karpathy都忍不住投资的AI初创,带来首个实时扩散视频生成!

用扫帚当麦克风,用盒子当混音台,无需昂贵设备就能开一场沉浸式直播。



喜欢游戏类型但不喜欢游戏的画面?简单,实时给它改个风格是不是就舒服多了~



以上,就是AI初创公司Decart的最新视频模型MirageLSD的演示效果,这是首个实现零延迟无限实时视频生成的AI模型。

只要你有想象力,Mirage就能实时生成视频流,为你打造专属的魔法世界~

输入支持直播、游戏、视频通话、相机拍摄、点播等多种形式,可以说是能转尽转了。

主要是Mirage和其他等待时间很久但只能生成5-10秒视频的模型不一样,它没有时长限制,延迟还降到了40毫秒以下,说是零延迟也不为过吧。

响应速度比之前的模型快16倍,实现了每秒24帧的实时视频生成,还允许在视频生成过程中进行持续的提示、转换和编辑。

做到了“你随时想,我随时转”!

于是,AI大神卡帕西也出来力挺:实时!

同时他还透露自己也是Decart的天使投资人(非常小)。





接下来让我们看看Mirage是如何做到的。

攻克了传统自回归视频模型中“误差累积”的核心难题

MirageLSD采用Decart自定义的实时流扩散模型Live-Stream Diffusion(LSD),LSD能够在逐帧生成内容的同时保持时间连贯性。

在视频生成过程中,由于自回归模型每一帧都依赖于前一帧,一个位置偏移的阴影或者一种纹理错误的细节这些瑕疵会随着时间的推移而不断累积,这种误差积累会使模型逐渐偏离训练。

当前的视频模型在生成超过20-30秒的内容时,会因为误差累积而导致严重质量下降,所以一些模型只能生成固定长度的短视频。

MirageLSD能够实现无限生成的核心就在于解决了传统自回归视频模型中“误差累积”这一关键瓶颈。



它采用逐帧的因果自回归结构处理数据,每帧生成仅依赖先前已生成的帧和用户提示,而非完整视频序列,这种模式为连续生成无限时长视频奠定了基础。

同时依托Diffusion Forcing技术,让模型在训练中学会独立对单帧去噪,无需依赖完整视频上下文,保证了逐帧生成的连贯性。



针对传统自回归模型中微小误差随时间叠加导致画面失真的问题,MirageLSD通过历史增强策略解决:训练时向输入的历史帧中主动添加模拟模型可能生成的伪影(如噪声、畸变),使模型学会预判并纠正这些缺陷。

此外,在推理阶段明确告知模型“历史帧可能不准确”,可以让它保持对误差的警惕性,持续调用训练中学习的纠正能力。

并且之前的模型都需要几分钟的处理时间才能生成几秒钟的内容,以分块的方式生成视频还引入了不可避免的延迟,从而不能实现实时互动。

MirageLSD采用改进的Transformer模型架构,搭配专门设计的视觉编码器、改进的位置编码以及针对长时间交互序列优化的结构,来快速处理输入和生成输出。



同时,对生成部分的扩散模型部分应用先进的蒸馏策略,在保证生成质量的前提下有效提升运行速度,借助KV缓存技术支持的长上下文窗口,让模型能记住之前的状态信息,避免因频繁处理大量历史数据导致延迟。

在核心集成帧级提示词处理机制,可即时解析玩家的键盘指令和自然语言提示,快速转化为相应操作。

动态输入系统则能以超低延迟处理玩家输入,无论是生成新元素还是改变环境都能迅速响应。

此外,视觉更新通过全双工通信通道流回,输入与输出并行处理,消除了数据传输和处理中的延迟;采用“垂直训练”流程让模型深入学习相关规则与模式,减少了生成过程中的计算开销和错误尝试,进一步间接提升了实时性能。

实现了“抖一抖衣服就能换装”、“棍子变发光武器”之类的操作。



MirageLSD由位于美国加州的初创公司Decart打造,该公司成立于2023年。

2024年,Decart推出了自己的第一款模型Oasis,这是首个实时生成式AI开放世界模型。



Oasis支持实时交互,能实现每秒20帧零延迟的生成效率。

由此看来,MirageLSD如今每秒24帧的效率也有所提升。

团队还表示将定期发布MirageLSD的升级模型和新增功能,包括面部一致性、语音控制和精确物体控制等,逐步提升用户体验。

体验链接:https://mirage.decart.ai/

参考链接:
[1]https://x.com/DecartAI/status/1945947692871692667
[2]https://x.com/karpathy/status/1945979830740435186

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

4月10日将举办技术发布会 蔚来ES9将在二季度上市

网易汽车 浏览 82 01-20

72岁赵雅芝1588生日会门票秒没,网友:人傻钱多

港剧叔 浏览 110 10-19

鲁比奥称因制裁俄方给飞机加油只能付现金 俄外长回应

环球网资讯 浏览 7817 08-20

BIGME大我推出7英寸彩色墨水屏电纸书B751CS,1739元

IT之家 浏览 84 12-23

实拍斯巴鲁PERFORMANCE-B STI概念车:传奇随时可以复活,无奈量产成本太高

驾仕派 浏览 104 11-11

美防长:战事不会“没完没了”

环球网资讯 浏览 9 04-25

2026款上汽大众朗逸正式上市 售价12.09万起

车质网 浏览 89 01-22

新顶流被扒穿盗版货!王嘉尔权志龙惨被拖下水!

一盅情怀 浏览 935 07-19

吴姗儒代班要停了?刚和小S惹争议又踩刘宇宁照片,网友喊话换人

萌神木木 浏览 8079 07-24

年销再破百万 | 进取的上汽大众,蜕变的2025

网易汽车 浏览 94 01-10

于正称不再联系少女七七,妈妈的极速变现踩雷

大龄女一晓彤 浏览 1859 07-23

少妇用"附近的人"搜男人 没2天就发裸照诱他发生关系

瓜田里有只大猹 浏览 2136 07-23

幸亏,吴倩离婚了

阿废冷眼观察所 浏览 6064 07-12

媒体:泽连斯基妥协 刚冻结俄资产的欧洲"惊觉一场空"

上观新闻 浏览 90 12-16

李强签署国务院令,公布《住房租赁条例》

澎湃新闻 浏览 8817 07-22

伊万尼塞维奇批评西西:身体与心理的双重挑战决定重返前十之路

网球之家 浏览 1676 07-21

开新局·走市场|烟火“彭”湃!徐州有座“不夜城”!

中国商报 浏览 73 01-27

电讯报:热刺仍有意格伊,但利物浦目前在后者争夺战中领跑

懂球帝 浏览 4518 07-22

图片报:皇萨塔、曼联、拜仁、药厂、多特等球队关注艾希霍恩

懂球帝 浏览 25 04-10

记者:罗马有意那不勒斯前锋拉斯帕多里,主帅加斯佩里尼很看好他

直播吧 浏览 4165 07-26

大V陈震谈懂车帝辅助驾驶测试:华为依然是目前最好 特斯拉就算了吧

快科技 浏览 3450 07-25
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3