本篇文章给大家谈谈微信蜀山麻将有挂是真的么,以及微信蜀山麻将开挂神器下载对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 微信小程序里面亲友房打...
2025-07-26 0
智东西(公众号:zhidxcom)
作者 | 王涵
编辑 | 漠影
智东西7月23日报道,7月11日,清华大学和生数科技发表合作论文,正式推出一种基于免训练方法的精准时间可控长时文生音频系统FreeAudio。
论文链接:https://arxiv.org/abs/2507.08557
据介绍,该系统无需额外训练,可以基于自然语言文本与时间提示实现精确的时间控制与长时音频生成,突破10秒时长限制,解锁了10秒以上场景的文生音效时间精准可控。
该方法利用LLM对时间结构进行规划,将文本与时间提示解析为一系列互不重叠的时间窗口,并为每个窗口生成适配的自然语言描述。随后,FreeAudio再依次生成各时间片段的音频内容,并通过上下文融合与参考引导机制实现最终的长时音频合成。
目前相关研究成果已被计算机多媒体领域的国际顶级会议ACM Multimedia 2025录用,并由AC推荐为Oral录取。
此前,生数科技曾联合清华大学推出文生音效系统,自称是全球首个实现10秒内精准时间控制的商业落地系统,支持独立时间窗音效生成,其多音轨时间窗可控功能已通过生数科技Vidu平台落地商用。
先从几个例子感受一下:
1、狼嚎声拼接蟋蟀声:
https://oss.zhidx.com/eb72f1f7f0fd5d102a4692e98957f2b9/687fb580/uploads/2025/07/687f86d0b9137_687f86d0a345c_687f86d0a3429_%E7%8B%BC%E5%9A%8E%E5%A3%B0%E8%9F%8B%E8%9F%80%E5%A3%B0.wav
2、森林复合音效:
https://oss.zhidx.com/8b365cd023b789d05d853505ba4cb3d8/687fb580/uploads/2025/07/687f86f7e7496_687f86f7e0c74_687f86f7e0c49_%E6%A3%AE%E6%9E%97%E5%9C%BA%E6%99%AF%E5%A3%B0%E9%9F%B3%E5%90%88%E9%9B%86.wav
3、男声吉他伴唱:
https://oss.zhidx.com/b95afc89f2ffe5b9a685c16471465b9c/687fb580/uploads/2025/07/687f87163e4ec_687f871637a08_687f8716379e0_%E7%94%B7%E5%A3%B0%E5%90%89%E4%BB%96%E4%BC%B4%E5%94%B1.wav
Demo链接:https://freeaudio.github.io/FreeAudio/
文生音频(T2A)生成技术虽在生成模型推动下取得进展,但受限于时间对齐的音频-文本数据质量和数量,现有系统在处理含精确时间控制的复杂文本提示时表现不佳。
即便部分研究通过数据增强或引入时间条件实现了10秒内的时间可控生成,生成质量仍有限。此外,多数公开音频数据集时长较短(通常约 10 秒),且标注较粗,制约了细粒度时间控制和长时连贯性模型的发展。
清华大学和生数科技合作研发的FreeAudio系统,能够依据自然语言文本与时间提示,无需额外训练即可同时支持时间控制与长时生成,突破了10秒时长限制,其主要有3大核心技术:
1、LLM规划:
该系统利用大语言模型(LLM)的规划能力,将文本和时间提示转换为一系列非重叠时间窗口,每个窗口配有自然语言重新描述,解决时间重叠和间隙问题。
时间可控音频生成的LLM Planning和Decoupling & Aggregating Attention Control模块
2、解耦与聚合注意力控制:
在DiT-based T2A模型基础上,该系统对基础潜变量按时间窗口分割,引导每个子段与对应重新描述提示独立进行交叉注意力计算,再将子段聚合整合,实现时间对齐和全局一致性。
长时音频生成的整体架构图
3、长时生成优化技术:
(1)上下文潜变量合成:FreeAudio系统通过处理相邻音频段重叠区域,增强局部边界平滑度;
(2)参考引导:在自注意力模块中,该系统利用参考音频特征,维持长时音频的全局一致性;
(3)上下文修剪与拼接:该系统去除重叠区域冗余部分,后将解码后的段拼接,以生成最终长时音频。
在时间可控音频生成实验中,在AudioCondition测试集上,FreeAudio系统的事件级(Eb)和片段级(At)得分均排名第一。
在客观指标方面,FreeAudio系统的FAD和KL散度与最优的训练型模型相当,CLAP分数排名第一。在主观评估中,FreeAudio系统同样获得了最高的时间一致性与音频可听性评分。
进一步的消融实验表明,参考引导技术有效提升了长时音频的全局一致性,当λ在0.1至0.2范围内时,各项指标均表现最优,在同类设置中排名第一。
在长时生成性能上,针对26秒和90秒生成任务,FreeAudio系统在多数指标上排名第一,在主观评估中,其质量、一致性和连贯性三个维度的得分均排名第一。
此次推出的FreeAudio系统实现了新的技术突破,即突破10秒时长限制,能够在10秒以上场景中实现文生音效的时间精准控制。
总的来说,该系统解决了多个行业痛点,如避免音效版权风险,解决音效匹配难题;大幅降低音效制作成本;支持多音轨秒级对齐,如环境声与动物鸣叫可精准叠加等。
据了解,FreeAudio系统未来或将考虑在Vidu产品端上线。研发团队计划在未来进一步探索结合自然语言事件描述的训练式时间控制文本到音频生成系统,以提升时间对齐精度和音频生成质量。
在长时音频生成方面,未来他们还计划研究支持更长时长甚至无限长生成的机制,同时希望将该方法拓展至空间音频生成等方向,以支持更多样的听觉场景。
随着AI音频生成技术的加速发展,市场对精准时间控制和长时音频生成的需求日益凸显,但现有方案在时长限制、版权风险及制作成本等方面仍存在瓶颈。
FreeAudio系统突破了“10秒魔咒”,技术成果获国际顶级会议认可,为行业提供了新的解决方案。未来随着商业化落地及技术迭代,其在影视音效等领域的应用潜力值得关注。
相关文章
本篇文章给大家谈谈微信蜀山麻将有挂是真的么,以及微信蜀山麻将开挂神器下载对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 微信小程序里面亲友房打...
2025-07-26 0
“凡是敌人反对的,我们就要拥护;凡是敌人拥护的,我们就要反对”,这段经典的毛主席语录至今依然被奉为真理且无处不在。尤其在正式场合中方与美对立之时,中国...
2025-07-26 0
中国商飞是一家专门从事民用飞机及相关产品的设计、制造、销售及服务的大型国有企业。电科数字主要业务涉及行业信息化解决方案、数据中心智能化解决方案、专项服...
2025-07-26 0
金融界2025年7月26日消息,国家知识产权局信息显示,重庆邮电大学、北京海云捷迅科技股份有限公司申请一项名为“基于迁移强化学习的机器人避障方法和装置...
2025-07-26 0
来源:东哥笔记作者:金珊当监管叫停外卖补贴,刘强东选择走一条更重的路。京东要亲自炒菜了。今年6月刘强东曾在媒体分享会上表示,“未来,我们会打造一种与美...
2025-07-26 0
西藏林芝雅鲁藏布江边最近开始修水电站,总投资1.2万亿人民币。这个项目不建大水坝,而是挖隧道引水发电。工程重点不是给西藏自己用,主要是要把发的电卖给南...
2025-07-26 0
最近,济南出现一个自带热搜体质的“白胖子”。 就在前些天,看到这样一条帖子。 中国外交部发言人毛宁在海外平台上发帖,点赞了济南的基坑气膜,在海...
2025-07-26 0
烟台融媒7月26日讯(记者 刘晓阳 通讯员 高欢)7月25日,备受瞩目的盒马鲜生烟台首店在烟台大悦城B1层盛大开业,为烟台商业版图增添了一抹亮丽的色彩...
2025-07-26 0
发表评论