币币情报道:
谷歌悄然发布了一款名为 AI Edge Gallery 的实验性应用程序,为用户提供了完全离线运行的人工智能体验。这款应用无需依赖互联网或云服务,所有数据都保留在用户的智能手机上。
AI Edge Gallery 于 5 月 31 日低调上线,目前已在 GitHub 上提供下载,并基于 Apache 2.0 许可证发布。这意味着任何人都可以免费使用该应用进行开发和修改。目前仅支持 Android 平台,iOS 版本正在筹备中。
该应用的核心功能是通过本地运行的 AI 模型(如 Google Gemma 3n)实现多种任务处理,包括图像分析、代码编写及文本重写等。这些模型直接存储在设备上,无需连接至云端,也不会将用户数据上传至服务器。
当前版本主要面向开发者,包含三个核心模块:用于对话交互的 AI Chat、用于视觉分析的 Ask Image 和用于单次任务执行的 Prompt Lab。
用户可以从 Hugging Face 等平台下载兼容模型,但选择范围仍有限,例如 Gemma-3n-E2B 和 Qwen2.5-1.5B 格式。
Reddit 社区对这一新应用提出了质疑,将其与 PocketPal 等现有解决方案进行了对比。此外,尽管托管在谷歌官方 GitHub 上,部分用户仍表达了安全方面的担忧,不过截至目前尚未发现恶意软件的证据。
我们在三星 Galaxy S24 Ultra 上测试了该应用,分别加载了最大和最小的 Gemma 3 模型。每个模型都是一个独立文件,包含了训练期间所学的所有知识。最大的模型约为 4.4 GB,而最小的则为 554 MB。
一旦下载完成,模型即可完全离线运行,仅依靠其预训练的知识库回答问题和完成任务。即使在低速 CPU 推理中,其表现也堪比 GPT-3.5 初期水平——虽然速度稍慢,但绝对可用。
较小的 Gemma 3 1B 模型实现了每秒超过 20 个令牌的速度,在监督下表现出流畅的操作和可靠的准确性。而在 GPU 推理模式下,最小的 Gemma 模型预填充速度可达每秒 105 个令牌,CPU 推理则为每秒 39 个令牌。
值得注意的是,对于某些任务,CPU 推理似乎优于 GPU 推理。例如,在一项视觉分析任务中,CPU 推理准确地预测了照片中人物的年龄,而 GPU 推理却出现了偏差。
此外,由于本地模型不会报告用户的输入,因此使用越狱技术规避限制变得更加可行,同时避免了订阅风险或获取审查内容的麻烦。
然而,该应用目前存在一些局限性。例如,它仅支持 .task 文件格式,而未采用广泛使用的 .safetensor 格式(如 Ollama 支持)。这大大限制了可用模型的数量,尽管可以通过转换工具解决,但并非所有用户都能轻松完成。
对于基本任务,如复述、总结和解释概念,这些模型在不依赖外部服务器的情况下表现优异。此外,用户无需授予大型科技公司对其输入、键盘或剪贴板的访问权限,因为所有计算都在本地完成。
尽管上下文窗口限制为 4096 个标记,但在实际使用中,对话依然自然流畅。总体而言,这款应用能够提供与早期 ChatGPT 类似的体验,同时还具备多模态和代码处理等优势。
隐私显然是该应用的最大卖点之一。医护人员、记者以及其他需要处理机密信息的用户可以在不泄露数据的情况下利用 AI 功能。“无需互联网”意味着这项技术即便在偏远地区或旅行时也能使用。
成本节省显著。云端 AI 服务按使用量收费,而本地模型仅需手机的处理能力。小型企业和业余爱好者无需持续投入即可尝试实验。此外,延迟改善明显,无服务器往返使得聊天机器人和图像分析等实时应用响应更快。
当然,短期内它还无法完全取代联网聊天机器人。电池消耗较高、设置复杂以及模型种类不足仍是亟待解决的问题。不过,谷歌此次发布的 AI Edge Gallery 标志着人工智能部署理念的重大转变——兼顾强大功能与隐私保护。
添加 .safetensor 支持可能会进一步提升该应用的潜力,成为注重隐私的 AI 用户的重要工具。
编辑:乔什·奎特纳 和 塞巴斯蒂安·辛克莱