登录
|
注册
我要发布
提出问题
发布文章
首页
圈子
详情
AI工匠
0
2024-04-20 11:05:52 · 来自 PC端
举报
微软发布名为Visa-1的音频驱动说话面孔技术。只需输入一张图像和一段音频,即可生成对应视频。算法利用音频本身携带的感情信息,使生成的视频具有与音频情绪相符的表情和头部动作。 视频展示了实时合成技术,通过滑块可实时调整合成人物头部的角度、位置、眼睛视线等细节。该技术能在消费级GPU(如4090)上实现,具有显著实用价值。 Visa1算法允许用户对生成效果进行控制,如调整眼睛看向(左右、上下)、头部大小、情绪表达(快乐、愤怒、惊讶等)。该算法具备良好的“分布外泛化性”,即能有效处理训练集以外的情况,如使用非英语语音(如中文)和非写实风格(如蒙娜丽莎)的图像。 算法仅需单张照片作为输入,无需多张照片或视频素材,大大简化了AI数字人视频制作流程。演示中的所有人物形象均为AI绘画算法基于单张图片生成。 Visa-1音频驱动说话面孔技术实现了基于单张图像和音频的实时、情绪同步、高度可控的视频生成,并展现出优秀的跨语言和跨风格泛化能力,为AI数字人视频制作提供了高效便捷的解决方案。
130次观看
24秒
AI工具
130
0
0
0
分享
微博
QQ
QQ空间
微信
链接地址
复制
登陆后发表评论
今天已有
0人
完成打卡
2024-11-14
打卡
推荐话题
AI视频生成工具
AI工具
Stable Diffusion
ComfyUI
AIGC
AI图像工具
AI文字工具
AI音频工具
OpenRouter
OpenAI
展开更多
全部话题
圈子正在发生...
AI视频生成工具
+ 关注
HowFile
04月08日加入
话题
AIGC
+ 关注
许树
12月14日加入
话题
ComfyUI
+ 关注
HowFile
04月08日加入
话题
Stable Diffusion
+ 关注
HowFile
04月08日加入
话题
没有我的兴趣圈子?
立即创建