谷歌推出 Gemini 2.5 Flash Image,增强图像处理能力以应对 ChatGPT 竞争

芒果小洛5 小时前
摘要
Google 的全新 Gemini 2.5 Flash Image 工具可让用户合并照片、使用文本提示编辑细节并保持视觉准确性 。
币币情报道:

谷歌于本周二发布了 Gemini 2.5 Flash Image,这是一种全新的人工智能模型,能够比以往工具更精确、更一致地生成和编辑图像,旨在缩小与 OpenAI 的 ChatGPT 之间的差距。

这家科技巨头正致力于将先进的图像编辑技术整合到 Gemini 平台中,这体现了人工智能领域正在推动将图像生成功能作为核心必备功能的趋势。这款新工具现已在 Gemini 应用和平台上线,用户可以使用自然语言来编辑视觉效果,并完成诸如姿势变化或多图像融合等复杂任务,同时避免面部或场景的扭曲。

在一篇博客文章中,谷歌表示,该模型允许用户“将同一个角色置于不同的环境中,从多个角度展示单个产品……同时保留主题一致性。”

该模型最初以“nano-banana”的化名出现在众包测试网站 LMArena 上,因其无缝编辑功能而备受关注。谷歌于周二证实,这款工具正是其开发者所打造。

谷歌表示,该系统可以融合多幅图像,保持故事叙述或品牌推广中的角色一致性,并整合“世界知识”来解释图表或组合参考资料——所有这些都可以在一个提示中完成。

该模型在谷歌云上的售价为每百万个输出令牌 30 美元,约合每张图片 4 美分。它也通过 OpenRouter 和 fal.ai 进行分发。

OpenAI 于 2024 年 5 月推出了 GPT-4o 模型,并在 2025年3月 实现了 ChatGPT 周活跃用户数突破 7 亿。相比之下,谷歌报告称,截至 2025 年 8 月,Gemini 的月活跃用户数将达到 4 亿,这意味着其周活跃用户数仍大幅落后于 OpenAI。

谷歌还表示,所有输出都将包含一个不可见的 SynthID 水印和元数据标签,以将其标记为 AI 生成内容,从而解决对滥用和真实性的担忧。

免责声明:

1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险

2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场