谷歌Deepmind推出AI模型V2A,可为无声视频添加逼真音频
- +1 你赞过了
6月19日消息,据外媒报道,近日,谷歌Deepmindg公布了为视频生成音频的生成式AI模型(video -to- audio, V2A)。V2A技术将视频像素与可选文本提示相结合,以创建与视觉效果紧密一致的音频。它可以生成音乐、音效,甚至是与屏幕上的动作一致的对话。
据悉,为了提高音频质量并实现更具体的声音生成,DeepMind在人工智能生成的声音注释和对话文本等额外数据上训练了模型。这允许V2A在响应提供的注释或文本时将音频事件与各种视觉场景关联起来。
然而,V2A并非没有限制。音频质量取决于输入的视频质量,有伪影或失真会导致明显的下降。语音视频的对口型也需要改进,因为配对视频生成模型可能无法将嘴部运动与文本匹配。
根据谷歌的说法,V2A的与众不同之处在于它能够理解原始视频像素,还消除了手动将生成的声音与视觉效果对齐的繁锁过程。将其与Deepmind的Veo等视频生成模型或Sora、KLING、Gen 3等竞争对手的视频生成模型相结合,添加戏剧性的音乐、逼真的音效或对话,以匹配视频中的人物和情绪。当然,这项技术也可以用来为传统的镜头添加声音,比如档案镜头和无声电影。
谷歌在发布视频人工智能工具方面非常谨慎。目前并没有公开发布的计划。相反,该公司正专注于解决局限性。与其他型号一样,V2A型号的输出将包括SynthID水印,以防止误用。
最新资讯
热门视频
新品评测