复旦大学与百度合作发布了名为"Hallo"的人脸视频生成模型,并在公开的学术论文"Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation"中对该模型进行了详细阐述。这一模型是首个基于扩散技术实现端到端生成高度逼真人脸视频的开源项目。用户只需提供一段音频和所选人像,即可轻松制作出具有极高真实感的人脸视频。这一技术的推出代表着数字人相关的视频生成领域的重要进展。
端到端人脸视频生成方案
在过去的技术发展过程中,由于缺乏有效的声音到视频生成方案,人脸视频合成通常需要依赖参数化模型作为中间媒介。腾讯、蚂蚁金服、微软等公司推出的Sadtalker、AniPortrait、GAIA等技术方法便是这一路径的典型代表。然而,这些方法常常受制于参数化模型在表情和动作表达能力上的限制,以及声音与动作之间的弱相关性,导致生成的视频在真实感和连贯性方面存在不足。最近,一些端到端的人脸视频生成方案逐渐出现,避免了中间表示形式的局限性。这些方案利用扩散模型强大的生成能力,可以直接生成高度逼真、高度连贯的视频。然而,这类方案中的音频和视觉特征通常通过全局交叉注意力模块进行直接交互,缺乏对唇部和动作的精细约束,导致生成视频的口型精度不如依赖参数化模型的解决方案,且动作生成能力较差,需要额外输入动作进行驱动。此次,复旦与百度推出的直接从声音驱动生成视频的端到端模型,无需复杂的参数化中间表示和额外的动作输入,即可生成口型、表情、动作极其自然丰富的人脸视频。这一创新依赖于以下几个关键方面:
1.分层音画特征融合
在音画交叉注意力过程中,由于人脸的嘴唇、面部表情、人头姿势对语音的运动响应方式并不相同,Hallo的研究人员采用了分层交叉注意力操作,针对不同区域分别提取掩码特征。通过他们提出的辅助交叉注意力模块与音频特征融合,从而学习到不同区域的运动特征。具体来说,研究人员使用了嘴唇、面部和头部的掩码(如下图左图所示),让音频分别对口型、表情和姿势进行引导生成。随后,通过一个自适应机制将这三个部分融合在一起,无需额外参数化表示和动作驱动,即可直接生成表情和动作自然生动的人脸动画视频。经过对注意力图的分析,研究人员发现,音频特征与不同区域视觉特征分别交互,显著提高了注意力模块对面部信息的捕捉能力。模型的注意力可视化效果也呈现出更加聚焦于面部区域的特点,从而能够显著提升口型、表情和动作的真实度。这一方法的整体精度超越了其他现有方法。
2.不同人脸特征的控制能力
在Hallo系统中的分层音频-视觉注意力机制具有将音频特征与图像的不同区域进行融合对齐的能力,从而提升口型、表情和姿势的精准度和自然度,并提供了全局运动的可控性。通过调整各区域的权重,可以实现对不同区域视频运动的精确控制。此外,Hallo采用专门的人脸编码模型来替代传统的图像-语义预训练模型(如CLIP)。人脸编码模型的主要目的是生成高度保真的肖像身份特征。与以往通过在大型图像和文本描述数据集上进行联合训练CLIP以获得通用视觉特征编码的方法不同,Hallo使用预先训练的人脸编码器来提取身份特征。这些特征与扩散网络的交叉注意力模块进行交互,生成与输入角色特征忠实一致的肖像动画。这一方法不仅确保了人脸特征提取的泛化能力,还准确地保留和展现了个人身份特征,例如面部表情、年龄和性别。
3.大规模数字人视频数据集
在训练中,Hallo系统利用了大量高质量的数字人视频数据。尽管互联网上存在大量的数字人视频数据,但这些数据质量参差不齐,存在诸如音画不匹配、背景杂音、视频抖动等各种问题的数据噪声。为了解决这一问题,研发团队构建了一套自动化数字人视频清洗引擎。截至目前,这一引擎已成功清洗了数千小时的高质量数字人视频,涵盖了上万个信息脱敏的数字人肖像。这项工作使得大规模数据训练数字人视频生成模型成为可能。
Hallo实践效果
高质量人脸动画生成:在真人数据集上,Hallo展示出了高度一致的口型,并能够体现出音频的丰富细节,如情绪和讲话节奏。
多类型人像风格支持:尽管Hallo仅在真人视频数据集上进行训练,但表现出了极强的泛化性,包括卡通、素描、雕塑等各类风格,这得益于原始扩散模型在超大规模图像数据集上的训练。
全局运动可控性:Hallo的另一个重要特点是全局可控性。相较于以往方法中需要借助参数化模型控制人脸运动强度,Hallo利用分层面部特征注意力机制,通过调整三个区域的权重系数,能针对性地控制口型、表情和动作的运动强度,从而大幅提升人脸动画生成的可控性。
影视制作的潜在应用:除此之外,Hallo展示了在影视制作领域的巨大潜力。通过仅有一段电影对白和一个虚拟角色,可以让虚拟角色生动演绎经典电影场景。
应用前景
Hallo的发布为多个行业带来了广泛的应用前景。在娱乐产业方面,AI驱动的角色动画技术具有广泛的应用潜力,可在电影、电视剧和短视频制作中发挥重要作用。通过运用这项技术,制作团队可以提高制作效率,实现更高质量的动画效果,并最终实现成本的降低。这种技术的运用将为娱乐产业带来更多的创意空间和商业机会。此外,在游戏和虚拟现实领域,AI生成的角色动画为用户提供更加沉浸式的体验。通过引入AI角色,游戏和虚拟现实应用可以呈现更生动、真实的虚拟世界,增强用户的沉浸感和参与感。这将为游戏产业和虚拟现实技术带来新的发展机遇,推动这些领域的创新和进步。
在教育领域,AI数字人对于弱势人群的教学具有极其重要的意义。通过整合AI角色到教学视频和活动中,可以为这一群体设计更具包容性和可访问性的教学方法。AI数字人能通过多感官交互—如视觉、听觉和触觉—增加学习的直观性和互动性。这不仅能够吸引学生的注意力,还能够帮助他们更好地理解抽象概念和复杂信息,从而提高学习的有效性。此外,AI数字人可以模拟悉心的教师角色,提供持续的鼓励和支持,帮助学生在遇到挑战时保持积极和自信。通过这种方式,高质量AI数字人的应用不仅能够提供更符合弱势人群需求的教育内容,还能够帮助他们提高社交技能和生活自理能力,从而更好地融入社会,提高生活质量。这种教育方式的推广和应用,有望为弱势群体打开新的大门,为他们带来更多的学习机会和社会参与可能。
未来展望
随着人工智能图形计算(AIGC)技术的飞速进步,AI驱动的角色动画将展现更加逼真自然的表现。未来,复旦和百度的研究团队将持续优化模型性能,提升动画生成质量,并扩展更广泛的应用领域。通过与社区紧密合作和开源共享,Hallo有望在多个产业领域发挥作用,为国家人工智能技术的发展和推广贡献力量。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
标签:最近更新
- “AI卓智奖” 2024年度人工智能创新评选,火热报名中!2024-07-04
- 终端侧生成式AI更多惊喜?高通将在WAIC带来新的“首个”演示2024-07-03
- 打造原生创新人才新高地 上海交通大学携手华为成立鲲鹏昇腾科教创新卓越中心2024-07-01
- 汇正炒股帮:实时数据引领,洞悉市场动态2024-06-28
- 工业元宇宙AI超级终端“派中心一体机”问世2024-06-27
- Moka Ascend 2024|势在·人为,技术创新,激发企业管理内在效能2024-06-26
- 曙光存储“硬核”发布会:重磅新品、全新理念共同亮相2024-06-25
- 引领高校原生人才新生态 北京大学鲲鹏昇腾科教创新卓越中心正式成立2024-06-24
- 浙江大学 鲲鹏昇腾科教创新卓越中心正式成立,推动高校原生创新加速2024-06-23
- 开启原生创新引擎,中国科学技术大学 鲲鹏昇腾科教创新卓越中心正式成立2024-06-20
- 威尔创新携自研AI服务器受邀在“世界智能产业博览会上”首发2024-06-20
- 《宇宙猜想品牌同名展「宇宙猜想·启程」,即将在苏州博物馆西馆盛大开幕!》2024-06-20
- 《宇宙猜想出品「丛林探秘I:重返侏罗纪」开展当日人满为患!》2024-06-20
- 复旦大学与百度联合发布可控人脸视频生成模型2024-06-19
- 国产操作系统三亚亮相,麒麟助飞民航自助服务2024-06-13
- 贺炜:榴莲?别,在室内!撒贝宁:海信新风空调,一键巴马好空气!2024-06-12
- 重磅!《上海低空经济发展白皮书2024》正式发布!2024-06-11
- 2024第十四届“中兴捧月”全球精英挑战赛正式启动2024-06-11
- 总曝光超1.5亿!迪丽热巴空降德施曼直播间,点赞紫禁城联名款智能锁2024-06-03
- 国产操作系统首批通过软件供应链国标认证2024-06-03
- “AI+全场景”!中科可控AI工作站来袭2024-05-29
- 联想拯救者R27qe-30显示器强势来袭,百元价格享受高性能体验2024-05-29
- 比瓴联合发起 《金融科技软件供应链供需安全管理指南》团标发布2024-05-27
- “数”聚未来,赣州智研院携数商生态亮相数字中国建设峰会2024-05-25
- 瑞风协同:凝聚生态优势 助力装备数智试验提质增速2024-05-25
- 比瓴科技入榜企业用户最满意的新锐厂商TOP102024-05-24
- 极萌携手爱马仕合作设计师 达成品牌跨界新成就2024-05-17
- 全域霸屏,TA破圈,全场景精准提效:阿里妈妈揭秘品牌商家618大促制胜三步法2024-05-16
- 北京中德经济技术合作先行示范区首次亮相中国品牌日2024-05-16
- 从“制造”到“创造”,iCAR把“年轻属性”弄明白了2024-05-10