HASHKFK
BETHASH官方网站(访问: hash.cyou 领取999USDT)第一个烦是速度。目前最厉害的AI视频生成技术叫扩散模型,它的工作原理有点像用橡皮擦慢慢擦掉一幅画上的涂鸦。想象一下,一幅被完全涂花的画,AI需要一点一点地把杂乱的涂鸦擦掉,最终还原出清晰的图像。这个擦除过程需要反复进行很多次(通常几十次甚至上百次),每次都要让整个超大模型运算一遍。对于140亿参数的模型来说,这简直就像让一头大象跳芭蕾舞,虽然理论上可能,但实际操作起来慢得让人抓狂。结果就是,生成一秒钟的视频可能需要好几秒甚至更长时间,完全无法实时使用。
第一个设计叫自适应注意力锚点(Adaptive Attention Sink,简称AAS)。一开始,AI会参考用户提供的原始参考图片。但是,当AI生成了第一帧视频画面后,系统会用这第一帧画面来替换原始参考图片。为什么要这样做呢?因为AI生成的画面和原始照片在风格上可能有微妙的差异。如果一直参考原始照片,这种差异会持续存在并慢慢累积。但如果参考的是AI自己生成的第一帧,后续所有画面都会和第一帧保持一致,整体风格也就统一了。这就像一个乐队在演奏时,指挥不是按照乐谱的节拍走,而是跟着乐队实际演奏的节奏来调整,这样虽然可能和原谱有一点点出入,但整个演奏会非常和谐统一。
![]()
研究团队还在训练阶段引入了一个叫历史污染(History Corrupt)的技术。这听起来有点反直觉,为什么要污染历史信息呢?原因是这样的:在实际使用时,AI参考的历史帧都是它自己生成的,难免有一些小瑕疵;但在训练时,如果给AI参考的都是完美的真实视频帧,AI就会变得娇气,一遇到有瑕疵的历史帧就不知道该怎么办了。通过在训练时故意给历史帧加一些噪声,AI学会了在不完美的条件下依然能做出好的判断,就像一个在嘈杂环境中练习过的歌手,到了正式演出时反而更稳定。
![]()
首先是速度测试。在5块H800显卡上,Live Avatar实现了每秒20帧的端到端生成速度,这意味着它可以流畅地实时生成视频。作为对比,其他使用类似规模模型的方法,速度通常只有每秒0.16到0.26帧,比Live Avatar慢了将近100倍。有一些方法确实能达到实时速度(比如Ditto方法能达到每秒21.8帧),但它们使用的模型规模只有Live Avatar的七十分之一(2亿参数对比140亿参数),画面质量自然也有差距。
![]()
更令人印象深刻的是长视频测试。研究团队测试了7分钟长度的视频生成,发现Live Avatar在所有指标上都大幅领先竞争对手。其他方法在长时间生成时普遍出现明显的画质下降,而Live Avatar的画面质量始终保持稳定。论文中的对比图清楚地展示了这一点:在生成400秒视频后,其他方法的数字人或者脸型变了,或者色调偏了,或者细节模糊了;而Live Avatar生成的数字人依然保持着和开始时一样的清晰面貌。
![]()
除了客观指标,研究团队还进行了主观评测。他们邀请了20位参与者,对各种方法生成的视频进行盲评,从自然度、同步性和一致性三个维度打分。结果显示,虽然有些方法在某些客观指标上表现更好(比如OmniAvatar在唇形同步度指标上得分很高),但人类评审反而给它的打分较低。原因是这些方法为了优化客观指标,让数字人的嘴巴动作变得过于夸张,反而显得不自然。而Live Avatar在三个维度上的人类评分都名列前茅,这说明它确实做到了让数字人看起来自然、同步、一致。