谷歌发布Veo 3.1:AI视频生成器能否撼动OpenAI Sora 2的市场地位?

安迪下木9 小时前
摘要
随着谷歌加大对 OpenAI 的 Sora 2 的挑战,升级后的 AI 视频生成器增加了声音和精确编辑工具 。
币币情报道:

谷歌今日正式发布其AI视频生成器Veo 3.1,作为该工具的最新更新版本,新增了音频支持和多项编辑功能,进一步为创作者提供更强大的控制能力。

这一消息正值OpenAI的Sora 2在应用商店排行榜上掀起热潮,引发了关于人工智能生成内容在社交媒体泛滥的广泛讨论之际。谷歌显然希望借此将Veo 3.1定位为Sora 2病毒式传播方式的专业替代品。

Sora 2自9月30日上线以来,凭借类似TikTok的界面设计、优先分享与混音的功能,在短短五天内下载量突破百万,并成功登顶苹果App Store排行榜。与此同时,Meta也推出了一款基于AI视频驱动的虚拟社交平台,进一步加剧市场竞争。

Veo 3.1的核心亮点在于其“视频素材”功能,能够生成同步环境噪声、对话和拟音效果的视频,同时支持将多个参考图像组合成单一场景。“帧到视频”功能可以在起始图像和结束图像之间生成自然过渡,而“延长”功能则通过延续现有视频最后一秒的动作,生成长达一分钟的剪辑。

此外,新版本还引入了具备自动阴影和灯光调整功能的编辑工具,允许用户在生成场景中添加或删除元素。Veo 3.1支持以水平或垂直宽高比生成1080p分辨率的视频。

Veo 3.1可通过Flow(面向消费者)、Gemini API(面向开发者)以及Vertex AI(面向企业客户)获取。尽管功能强大,但其高昂的价格也成为用户关注的焦点。

测试模型

目前,Veo 3.1是市场上最昂贵的视频生成模型之一,价格与Sora 2相当,略低于Sora 2 Pro。免费用户每月可获得100积分用于测试系统,大约能生成5个视频。通过Gemini API,生成带有音频的视频每秒费用约为0.40美元,而更快的版本Veo 3.1 Fast每秒仅需0.15美元。

文本转视频

Veo 3.1在文本转视频方面表现出了显著改进,尤其是在场景连贯性和上下文理解方面。它能够适应多种风格,从写实主义到高度风格化的创作。

例如,我们要求模型混合场景,先是一幅画作,随后变为实景拍摄镜头,其处理效果优于我们测试过的任何其他模型。然而,它的移动速度较慢,牺牲了流畅性来确保连贯性。

图像转视频

尽管Veo 3.1在图像转视频领域依然表现出色,但这也是本次更新中的薄弱环节之一。当使用不同宽高比的起始帧时,模型难以维持一致性。

带对话的文本转视频

Veo 3.1在唇形同步方面的表现堪称行业顶尖,能够生成连贯的环境声音并与场景元素完美匹配。其对语调、情感和真实感的还原度超越了竞争对手。

然而,在图像转带对话视频的表现上,Veo 3.1仍存在不足,过度注重连贯性导致忽略即时性和参考图像。

总体而言,Veo 3.1展现了谷歌在AI视频生成领域的技术实力,但面对OpenAI Sora 2的强大市场影响力,是否能够真正实现预期效果仍需时间检验。

免责声明:

1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险

2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场