首页 >> 今日更新 >

比对口型还牛!InstructAvatar:实现文字生成指定面部的表情和动作

2024-05-28 11:00:35 来源: 用户: 

相信很多大家对比对口型还牛!InstructAvatar:实现文字生成指定面部的表情和动作还不知道吧,今天菲菲就带你们一起去了解一下~.~!

5月28日 消息:最近,对话形象生成模型在实现与音频的逼真准确口型同步方面取得了进展,但在控制和传达形象的细节表情和情感方面仍有不足,使生成的视频缺乏生动性和可控性。

因此,北京大学的研究团队提出了一种名为 InstructAvatar 的新颖方法,通过自然语言界面来控制虚拟形象的情感和面部动作,从而提供了对生成的视频进行细粒度控制的能力。InstructAvatar可实现的效果包括:

通过自然语言输入控制头像的情绪和面部动作。

利用一个自动注释管道构建训练数据集,使得头像可以根据文本指令和音频进行生成。

生成的头像能够准确同步口型,表情自然且生动。

相比于现有方法,在细粒度情绪控制、口型同步质量和自然度方面有更好的表现。

InstructAvatar 的框架包括两个组件:变分自动编码器(VAE)和基于扩散模型的动作生成器。VAE 用于将动作信息从视频中解耦,并根据音频和指令生成器生成的动作潜变量来生成最终的视频。在推理过程中,通过迭代去噪高斯噪声来获取预测的动作潜变量,并结合用户提供的肖像,使用 VAE 的解码器生成最终的视频。

通过与基线模型的定性比较,可以看出 InstructAvatar 在唇同步质量和情感可控性方面取得了良好的效果。此外,模型生成的结果具有增强的自然性,并有效地保留了身份特征。

值得一提的是,该模型仅基于文本输入推断说话的情感,这在直观上提出了一个更具挑战性的任务。模型支持更广泛的指令范围,超出了大多数基线模型的范围。

此外,该模型展现了精确的情感控制能力,并生成了自然的结果。InstructAvatar 具有细粒度的控制能力,并在领域之外的场景中表现出良好的泛化能力。

项目入口:https://top.aibase.com/tool/instructavatar

以上就是关于【比对口型还牛!InstructAvatar:实现文字生成指定面部的表情和动作】的相关内容,希望对大家有帮助!

  免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!

 
分享:
最新文章
  • 【空谷幽兰是什么意思】“空谷幽兰”是一个富有诗意的成语,常用来形容在偏僻、冷清的地方生长的兰花。它不仅...浏览全文>>
  • 【空格怎么打出来】在日常使用电脑或手机输入文字时,经常会遇到需要输入“空格”的情况。虽然看似简单,但很...浏览全文>>
  • 【空格怎么打】在日常使用电脑或手机时,很多人会遇到“空格怎么打”的问题。其实,“空格”是一个非常基础的...浏览全文>>
  • 【空格名字怎么打】在日常使用电脑或手机时,很多人会遇到“空格名字怎么打”的问题。尤其是在输入法设置、文...浏览全文>>
  • 【空格键是指的哪一个】在日常使用电脑或手机的过程中,我们经常接触到各种按键,其中“空格键”是一个非常基...浏览全文>>
  • 【空挡是什么意思】“空挡”是一个在多个领域中常见的术语,尤其在汽车驾驶、机械操作以及一些比喻性表达中使...浏览全文>>
  • 【空城旧梦是情侣网名吗】“空城旧梦”这个词语,听起来充满了诗意和情感色彩。它常被用于表达一种孤独、怀念...浏览全文>>
  • 【可吸收线是什么颜色】在医学领域,尤其是外科手术中,可吸收线是一种常见的缝合材料。它主要用于缝合伤口,...浏览全文>>
  • 【可为是什么意思】“可为”一词源自中文,常用于表达“可以做”、“值得做”或“有作为”的含义。在不同语境...浏览全文>>
  • 【可微与可导之间有什么联系】在微积分的学习过程中,“可导”和“可微”是两个经常被提到的概念,它们看似相...浏览全文>>