快斗优选

7月25日，清华大学与生数科技联合发布模型。据介绍，作为视频大模型Vidu在智能领域延伸的重大突破，Vidar是全球首个基于通用视频大模型实现视频理解能力向物理决策系统性迁移的多视角具身模型。该模型创新性地构建了支持双臂协同任务的多视角视频预测框架，在保持SOTA性能的同时，展现出显著的少学习优势。

Vidar可在仅20分钟少样本训练下，泛化至全新机器人本体，完成多视角双臂操作任务，所需数据量约为行业领先的RDT的八十分之一，π0.5的一千两百分之一。相比以往依赖百万级动作数据的机器人控制模型，Vidar显著降低了数据门槛与训练成本。

该模型基于生数科技此前推出的视频大模型Vidu，在此基础上融入75万条双臂机器人具身数据，构建统一观测空间后进行预训练，并结合自动化动作采集与逆动力学解码器，实现从视频预测到动作控制的全链路闭环。

清华与生数科技团队还提出“任务无关动作数据”训练范式，通过ATARA方法自动采集机器人动作轨迹，仅需10小时，即可完成机器人动作空间泛化。配合高精度动作执行模型AnyPos，Vidar在实际任务中实现近100%成功率，精度远超当前行业基线33%~44%。

Vidar在VBench视频生成测试中，在主体一致性、背景还原与画面质量等维度均显著领先。结合测试时扩展机制（Test-Time Scaling），模型可根据具体任务智能调节生成预测，进一步提高真实场景下的执行稳定性。

研究团队表示，Vidar打破了现有VLA架构对特定机器人任务数据的依赖，首次构建了“通用视频-中等具身视频-少量本体数据”的三级训练框架，推动了具身智能向“虚实互通”的下一阶段演进。未来，Vidar可广泛应用于居家、医院、工厂等场景。

生数科技创始人兼首席科学家朱军教授表示："我们致力于通过多模态大模型技术推动数字世界与物理世界的深度融合与协同进化。一方面，我们正在打造新一代数字内容创作引擎，让AI成为人类创意的延伸；另一方面，我们通过训练具身视频基座模型，实现虚拟与现实的深度交互。"（袁宁）

本文来自网易科技报道，更多资讯和深度内容，关注我们。

清华×生数研发国产视频具身基座模型Vidar，实现少样本泛化突破

重大转变？特...

衬衫+阔腿裤...

大坂直美半夜...

茅台投资Sp...

广东湛江农商...

小维阿：马赛...

京东美团“疯抢”具身智能公司，要干什么

亚马逊广告生态扩张，AI基础设施落地，Q2财报释放哪些信号？

巴黎时装周刘诗诗美出新高度！越来越好看的关键点原来在这儿！

都体：尼古拉斯-冈萨雷斯和西蒙尼直接接触；罗马也对他感兴趣

阿斯：卡雷拉斯抢断数据领跑全队，其防守能力已全面超越门迪

日防卫省称对俄中间频繁军事互动深表关切外交部回应

时尚中国·荣耀东方 —— 2025中国时尚产业盛典即将开幕

美国公布新型核弹B61-13 威力是广岛原子弹的21倍

三星One UI 8.5前瞻：基于安卓16，引入情景感知AI

王晶评娃哈哈争产，两句话内涵宗馥莉不大度，一张平安纸暗示结局

蔡磊抗＂冻＂6年：科研投入超1亿如今只能用眼控仪交流

韩星在内娱吃相越来越难看？

三战全胜，巴列卡诺主帅伊尼戈-佩雷斯当选西甲10月最佳教练

电讯报：如果格伊今夏离开水晶宫，利物浦将在竞争战中领先

外观更战斗欧陆GT Speed新车型谍照曝光

印度油企疑要屈服了正暂时减少购买俄油等待政府指令

欧尔班：乌克兰和欧盟认为匈牙利很碍事企图更迭政府

史上最贵法国门将！舍瓦利耶：加盟巴黎无比自豪，这对我意义非凡

统计局：6月份规模以上工业企业利润同比降幅较5月份有所收窄

戴森全新 V8 Cyclone 旗舰版吸尘器上市：五重升级，2999 元

新能源乘用车零售占比近六成，燃油车8月上旬车市同比下滑4%

如何？美记建议托马斯两年3000万&第二年球队选项和篮网续约

古二3次发布录音，王家卫秦雯深陷争议

德媒：训练中被约纳坦-塔踩到脚的斯塔尼希奇并未受重伤