谷歌Deepmind推出AI模型V2A，可为无声视频添加逼真音频

2024-06-19 14:43:27 作者：yu

用微信扫描二维码
+1 你赞过了

6月19日消息，据外媒报道，近日，谷歌Deepmindg公布了为视频生成音频的生成式AI模型(video -to- audio, V2A)。V2A技术将视频像素与可选文本提示相结合，以创建与视觉效果紧密一致的音频。它可以生成音乐、音效，甚至是与屏幕上的动作一致的对话。

据悉，为了提高音频质量并实现更具体的声音生成，DeepMind在人工智能生成的声音注释和对话文本等额外数据上训练了模型。这允许V2A在响应提供的注释或文本时将音频事件与各种视觉场景关联起来。

然而，V2A并非没有限制。音频质量取决于输入的视频质量，有伪影或失真会导致明显的下降。语音视频的对口型也需要改进，因为配对视频生成模型可能无法将嘴部运动与文本匹配。

根据谷歌的说法，V2A的与众不同之处在于它能够理解原始视频像素，还消除了手动将生成的声音与视觉效果对齐的繁锁过程。将其与Deepmind的Veo等视频生成模型或Sora、KLING、Gen 3等竞争对手的视频生成模型相结合，添加戏剧性的音乐、逼真的音效或对话，以匹配视频中的人物和情绪。当然，这项技术也可以用来为传统的镜头添加声音，比如档案镜头和无声电影。

谷歌在发布视频人工智能工具方面非常谨慎。目前并没有公开发布的计划。相反，该公司正专注于解决局限性。与其他型号一样，V2A型号的输出将包括SynthID水印，以防止误用。

聚合标签：

网友评论

发布

相关文章

本周热门

热门标签

yu

最新资讯

: 大模型开源，厂商靠什么盈利？

热门视频

: 折叠机皇荣耀Magic V5

新品评测

: 大模型开源，厂商靠什么盈利？

热门产品排行榜

编辑推荐排行榜

1 TheEyeTribe 眼球追踪器￥799

参数图片评测
2 Pixie 智能追踪器即将上市

参数图片评测
3 SmartSoles 智能鞋垫即将上市

参数图片评测
4 步丢双子芯￥499

参数图片评测
5 Sphero OBX S003AS ￥998

参数图片评测
6 埃特纳photo easy ￥99

参数图片评测
7 Keepkey 蓝牙4.0智能双向防丢器￥268

参数图片评测
8 爱车安GT02A ￥148

参数图片评测
9 StickNFind 纽扣追踪器￥188

参数图片评测
10 Phone Halo Button TrackR防丢器￥199

参数图片评测

关于我们|About us|天极服务|天极动态|加入我们|网站地图|网站律师|友情合作|RSS订阅|意见反馈
渝B2-20030003Copyright (C) 1999-2022 Yesky.com, All Rights Reserved 版权所有天极魅客

X

第三方账号登录

微博认证登录
QQ账号登录
微信账号登录

用微信扫描二维码
+1 你赞过了