关闭广告

AI音频生成重要突破!清华×生数科技最新研究被ACM顶会收录

智东西2025-07-24 00:00:018495人阅读



智东西(公众号:zhidxcom)

作者| 王涵

编辑| 漠影

智东西7月23日报道,7月11日,清华大学和生数科技发表合作论文,正式推出一种基于免训练方法的精准时间可控长时文生音频系统FreeAudio



据介绍,该系统无需额外训练,可以基于自然语言文本与时间提示实现精确的时间控制与长时音频生成,突破10秒时长限制,解锁了10秒以上场景的文生音效时间精准可控

该方法利用LLM对时间结构进行规划,将文本与时间提示解析为一系列互不重叠的时间窗口,并为每个窗口生成适配的自然语言描述。随后,FreeAudio再依次生成各时间片段的音频内容,并通过上下文融合与参考引导机制实现最终的长时音频合成。

目前相关研究成果已被计算机多媒体领域的国际顶级会议ACM Multimedia 2025录用,并由AC推荐为Oral录取。

此前,生数科技曾联合清华大学推出文生音效系统,自称是全球首个实现10秒内精准时间控制的商业落地系统,支持独立时间窗音效生成,其多音轨时间窗可控功能已通过生数科技Vidu平台落地商用。

一、3大核心技术,FreeAudio系统突破10秒时长瓶颈

文生音频(T2A)生成技术虽在生成模型推动下取得进展,但受限于时间对齐的音频-文本数据质量和数量,现有系统在处理含精确时间控制的复杂文本提示时表现不佳。

即便部分研究通过数据增强或引入时间条件实现了10秒内的时间可控生成,生成质量仍有限。此外,多数公开音频数据集时长较短(通常约 10 秒),且标注较粗,制约了细粒度时间控制和长时连贯性模型的发展。

清华大学和生数科技合作研发的FreeAudio系统,能够依据自然语言文本与时间提示,无需额外训练即可同时支持时间控制与长时生成,突破了10秒时长限制,其主要有3大核心技术

1、LLM规划:

该系统利用大语言模型(LLM)的规划能力,将文本和时间提示转换为一系列非重叠时间窗口,每个窗口配有自然语言重新描述,解决时间重叠和间隙问题。



时间可控音频生成的LLM Planning和Decoupling & Aggregating Attention Control模块

2、解耦与聚合注意力控制:

在DiT-based T2A模型基础上,该系统对基础潜变量按时间窗口分割,引导每个子段与对应重新描述提示独立进行交叉注意力计算,再将子段聚合整合,实现时间对齐和全局一致性。



长时音频生成的整体架构图

3、长时生成优化技术:

(1)上下文潜变量合成:FreeAudio系统通过处理相邻音频段重叠区域,增强局部边界平滑度;

(2)参考引导:在自注意力模块中,该系统利用参考音频特征,维持长时音频的全局一致性;

(3)上下文修剪与拼接:该系统去除重叠区域冗余部分,后将解码后的段拼接,以生成最终长时音频。

二、多项指标得分最优,长时生成能力排名第一

在时间可控音频生成实验中,在AudioCondition测试集上,FreeAudio系统的事件级(Eb)和片段级(At)得分均排名第一



在客观指标方面,FreeAudio系统的FAD和KL散度与最优的训练型模型相当,CLAP分数排名第一。在主观评估中,FreeAudio系统同样获得了最高的时间一致性与音频可听性评分。



进一步的消融实验表明,参考引导技术有效提升了长时音频的全局一致性,当λ在0.1至0.2范围内时,各项指标均表现最优,在同类设置中排名第一



在长时生成性能上,针对26秒和90秒生成任务,FreeAudio系统在多数指标上排名第一,在主观评估中,其质量、一致性和连贯性三个维度的得分均排名第一





三、将继续研究更长时长机制,FreeAudio或在Vidu产品端上线

此次推出的FreeAudio系统实现了新的技术突破,即突破10秒时长限制,能够在10秒以上场景中实现文生音效的时间精准控制。

总的来说,该系统解决了多个行业痛点,如避免音效版权风险,解决音效匹配难题;大幅降低音效制作成本;支持多音轨秒级对齐,如环境声与动物鸣叫可精准叠加等。

据了解,FreeAudio系统未来或将考虑在Vidu产品端上线。研发团队计划在未来进一步探索结合自然语言事件描述的训练式时间控制文本到音频生成系统,以提升时间对齐精度和音频生成质量。

在长时音频生成方面,未来他们还计划研究支持更长时长甚至无限长生成的机制,同时希望将该方法拓展至空间音频生成等方向,以支持更多样的听觉场景。

结语:FreeAudio系统具备应用潜力

随着AI音频生成技术的加速发展,市场对精准时间控制和长时音频生成的需求日益凸显,但现有方案在时长限制、版权风险及制作成本等方面仍存在瓶颈。

FreeAudio系统突破了“10秒魔咒”,技术成果获国际顶级会议认可,为行业提供了新的解决方案。未来随着商业化落地及技术迭代,其在影视音效等领域的应用潜力值得关注。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

刘晓曙:净息差收窄,银行怎么办

首席经济学家论坛 浏览 6317 07-27

7040亿美元!苹果过去10年回购花的钱,能买下全球前13大公司以外任何一家

华尔街见闻官方 浏览 367 08-10

以招生未达预期为由 新聘教师遭拟入职学校单方面毁约

封面新闻 浏览 7391 08-06

WAIC前线|讯飞星火 X1升级发布 中英同传首字响应仅2秒

网易科技报道 浏览 6356 07-27

45岁的高圆圆生图美过精修,女神回春的秘密原来在这

黎贝卡的异想世界 浏览 5851 05-22

洪森晒图驳斥"乘专机飞往中国"传言:没逃往任何地方

环球网资讯 浏览 8233 07-25

宗庆后事件钟睒睒口碑翻盘,这几年他经历了什么?

BT财经 浏览 9433 07-21

图多尔:世俱杯肯定会对备战有影响,我支持球员放假至少1个月

直播吧 浏览 7291 08-10

唯品会2025年第二季度GMV增至514亿元,SVIP活跃用户数同比增15%

网易科技频道 浏览 1190 08-18

政策支持叠加出海增长 创新药产业引来系统性重估

金证研 浏览 7530 07-25

阿里业务变更为四大集团:蒋凡"太子"地位稳固

雷递 浏览 42 08-23

自主研发!吨级以上无人飞行器首次完成海上运输

看看新闻Knews 浏览 8398 08-03

被50+阿姨的衣品惊艳了!照着她们这样穿,优雅高级还冻龄

静儿时尚达人 浏览 373 06-04

葡萄牙足协官方:将在8月8日至11日举行的所有赛事中对科斯塔默哀

懂球帝 浏览 6151 08-06

两度心脏骤停!苏州东吴官方:胡靖目前已恢复意识,生命体征平稳

直播吧 浏览 8264 08-11

女子清空闺蜜17万工资 骗男友55万还拉丈夫演"大舅哥"

潇湘晨报网 浏览 6836 07-29

"淘宝第一个程序员"离职:在阿里任职25年 成亿万富豪

红星新闻 浏览 1476 08-14

5门5座/最大续航405km 奇瑞多米将上市

网易汽车 浏览 5889 06-10

图生视频新玩法刷爆外网:图上画两笔就能动起来,告别文本提示

机器之心Pro 浏览 342 08-19

快船总裁:比尔一听说保罗可能来就让号保罗甚至都不知道

直播吧 浏览 2399 07-23

生万物收视破3,5位男演员演技排名,倪大红排第二,第一非他莫属

温柔娱公子 浏览 14 08-23
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备20017958号-3