历趣首页 手机客户端

当前位置:历趣app下载>手机APP>手机生活软件>通义app >一张照片、一段音频通义App上线照片唱歌功能

一张照片、一段音频通义App上线照片唱歌功能

时间:2024-04-26热度:

EMO(Emote Portrait Alive)是一个由阿里巴巴集团智能计算研究院开发的框架,一个音频驱动的 AI 肖像视频生成系统,能够通过输入单一的参考图像和语音音频,生成具有表现力的面部表情和各种头部姿势的视频。

阿里云今日宣布,通义实验室研发的 AI 模型 ——EMO 正式上线通义 App,并开放给所有用户免费使用。借助这一功能,用户可以在歌曲、热梗、表情包中任选一款模板,然后通过上传一张肖像照片就能让 EMO 合成演戏唱歌视频。

据介绍,通义 App 首批上线了 80 多个 EMO 模板,包括热门歌曲《上春山》《野狼 Disco》等,还有网络热梗“钵钵鸡”“回手掏”等,但目前暂未不开放自定义音频。

EMO 官网入口:

官方项目主页:https://humanaigc.github.io/emote-portrait-alive/

arXiv 研究论文:https://arxiv.org/abs/2402.17485

GitHub:https://github.com/HumanAIGC/EMO(模型和源码待开源)

EMO 的主要特点

音频驱动的视频生成:EMO 能够根据输入的音频(如说话或唱歌)直接生成视频,无需依赖于预先录制的视频片段或 3D 面部模型。

高表现力和逼真度:EMO 生成的视频具有高度的表现力,能够捕捉并再现人类面部表情的细微差别,包括微妙的微表情,以及与音频节奏相匹配的头部运动。

无缝帧过渡:EMO 确保视频帧之间的过渡自然流畅,避免了面部扭曲或帧间抖动的问题,从而提高了视频的整体质量。

身份保持:通过 FrameEncoding 模块,EMO 能够在视频生成过程中保持角色身份的一致性,确保角色的外观与输入的参考图像保持一致。

稳定的控制机制:EMO 采用了速度控制器和面部区域控制器等稳定控制机制,以增强视频生成过程中的稳定性,避免视频崩溃等问题。

灵活的视频时长:EMO 可以根据输入音频的长度生成任意时长的视频,为用户提供了灵活的创作空间。

跨语言和跨风格:EMO 的训练数据集涵盖了多种语言和风格,包括中文和英文,以及现实主义、动漫和 3D 风格,这使得 EMO 能够适应不同的文化和艺术风格。

相关应用
热门APP标签
手机客户管理软件手机赚钱软件手机游戏助手软件手机海报制作软件手机直播软件 免费真人视频app视频剪辑免费软件二手汽车交易平台app应用商店erp管理软件
热门手游标签
手机赛车游戏手机枪战游戏手机吃鸡游戏手机儿童游戏手机RPG游戏 传奇的手机游戏放置卡牌游戏传奇手游单机回合制手游放置卡牌回合制手游
热门APP电脑版
小红书电脑版小红书千帆电脑版快手电脑版汽水音乐电脑版美团电脑版拼多多电脑版哔哩哔哩电脑版CAD看图王电脑版美团外卖商家版电脑版美篇电脑版
热门电脑软件
微信电脑版抖音电脑版剪映专业版企业微信电脑版QQ电脑版钉钉电脑版美图秀秀UC浏览器电脑版全民K歌电脑版QQ浏览器
热门文章
微信分身怎么弄 微信分身如何设置支付宝怎么关闭免密支付自动扣费功能 支付宝关闭免密支付自动扣费功能教程百度地图时光机在哪 百度地图时光机使用相关微信删除的聊天记录怎么恢复 微信删除的聊天记录如何恢复支付宝如何解绑银行卡怎么操作 支付宝解绑银行卡操作方法介绍苏e行如何查询实时地铁 苏e行查询线网图方法介绍支付宝免密支付在哪里关闭 具体介绍明日方舟抽卡记录查询 明日方舟怎么查抽卡记录王者荣耀段位等级顺序2024 王者荣耀2024段位等级顺序一览第五人格藏宝阁怎么进 第五人格藏宝阁地址