让蒙娜丽莎唱饶舌，微软发布 VASA-1 模型：图 + 音频可生成短视频_中华网

数码

要闻手机平板 IT硬件相机笔记本

让蒙娜丽莎唱饶舌，微软发布 VASA-1 模型：图 + 音频可生成短视频

来源：IT之家 2024-04-19 14:59:11

微软亚洲研究院（Microsoft Research Asia）近日发表论文，介绍了全新的 VASA-1 模型，用户只需要提供一张静态肖像图片和一段语音音频片段，该模型就能自动让图片中的人物自动说话。

VASA-1 特别有趣的地方在于，它能够模拟自然的面部表情、各种情绪和唇部同步，最重要的是几乎没有人工痕迹，如果不细看很难发现。

研究人员承认，与所有其他模型一样，该模型目前还无法妥善处理头发等非刚性元素，但整体效果要比其它同类模型要更为优秀。

研究人员还表示 VASA-1 支持离线 batch 处理模式下，以 45fps 生成分辨率为 512*512 的动态短视频，在线直播模式下可以达到 40 fps，且延迟仅为 170ms。而且整个生成操作只需要一台配备英伟达 RTX 4090 显卡的电脑上就能处理。

责任编辑：kj005

文章投诉热线:182 3641 3660 投诉邮箱:7983347 16@qq.com

相关新闻

让蒙娜丽莎唱饶舌，微软发布 VASA-1 模型：图 + 音频可生成短视频

2024-04-19 14:59:11

广汽传祺 GS4 MAX 车型上市，首销价 10.98 万元起

2024-04-19 14:58:19

华为 Pura 70 标准版手机不支持星闪（NearLink）技术

2024-04-19 14:57:18

Win10 RP 预览版设置应用挂出横幅，推荐本地用户登录微软账号

2024-04-19 14:55:22

多项新技术首发！Redmi K50电竞版全线拉满无短板：

2022-02-09 11:35:27

精彩推荐

让蒙娜丽莎唱饶舌，微软发布 VASA-1 模型：图 + 音频可生成短视频

2024-04-19 14:59:11

广汽传祺 GS4 MAX 车型上市，首销价 10.98 万元起

2024-04-19 14:58:19

华为 Pura 70 标准版手机不支持星闪（NearLink）技术

2024-04-19 14:57:18

Win10 RP 预览版设置应用挂出横幅，推荐本地用户登录微软账号

2024-04-19 14:55:22

这款让硬币“跳舞”的特斯拉旋磁高端床垫入手不亏~

2024-04-19 14:48:19