谷歌最新应用让你的手机在口袋中运行AI——完全离线

2025年06月04日 由 佚名 发表 237 0


谷歌发布了一款虽然没人特别要求,但每个人都想尝试的新应用。


AI Edge Gallery于5月31日低调上线,将人工智能直接放在你的智能手机上——无需云端、无需互联网,也无需将你的数据分享给大型科技公司的服务器。


这款实验性应用在Apache 2.0许可证下发布,允许任何人几乎用于任何用途——可在GitHub上获取,首先在Android平台上推出。iOS版本即将推出。


它可以完全离线运行像谷歌的Gemma 3n这样的模型,处理从图像分析到代码编写的一切,仅使用手机的硬件。


而且效果出乎意料地好。


这款应用目前似乎针对开发者,包含三个主要功能:用于对话的AI聊天、用于视觉分析的图像询问和用于单次任务(如重写文本)的提示实验室。


用户可以从Hugging Face等平台下载模型,尽管选择仍限于Gemma-3n-E2B和Qwen2.5-1.5 B等格式。



Reddit用户立即质疑该应用的新颖性,将其与现有解决方案如PocketPal进行比较。


一些人提出了安全问题,尽管该应用托管在谷歌的官方GitHub上,反驳了冒充的说法。目前尚未发现恶意软件的证据。


我们在三星Galaxy S24 Ultra上测试了该应用,下载了可用的最大和最小Gemma 3模型。


每个AI模型都是一个自包含的文件,包含其所有的“知识”——可以将其视为下载了一个压缩的快照,记录了模型在训练期间学到的一切,而不是像本地维基百科应用那样的庞大数据库。应用中可用的最大Gemma 3模型约为4.4 GB,而最小的约为554 MB。


一旦下载完成,不再需要额外的数据——模型完全在你的设备上运行,使用其在发布前学到的知识回答问题和执行任务。


即使在低速CPU推理下,体验也与GPT-3.5发布时相当:较大的模型速度不快,但绝对可用。


较小的Gemma 3 1B模型实现了超过每秒20个标记的速度,在监督下提供了流畅的体验和可靠的准确性。


这在你离线或处理不想与谷歌或OpenAI的训练算法分享的敏感数据时尤为重要,这些算法默认使用你的数据,除非你选择退出。


在最小的Gemma模型上进行GPU推理时,预填充速度超过每秒105个标记,而CPU推理则达到每秒39个标记。标记输出——即模型在思考后生成响应的速度——在GPU上平均达到每秒10个标记,而在CPU上为每秒7个标记。


多模态功能在测试中表现良好。


此外,似乎在较小模型上进行CPU推理比GPU推理产生更好的结果,尽管这可能是轶事;然而,这在各种测试中已被观察到。


例如,在一次视觉任务中,使用CPU推理的模型在测试照片中准确猜出了我的年龄和我妻子的年龄:我在30岁末,我妻子在20岁末。


所谓更好的GPU推理猜错了我的年龄,认为我在20多岁(不过我宁愿接受这个“信息”而不是事实)。



谷歌的模型带有严格的审查,但可以通过最小的努力实现基本的越狱。


与那些因规避尝试而禁止用户的集中服务不同,本地模型不会报告你的提示,因此可以在不冒险取消订阅或询问被审查版本不会提供的信息的情况下使用越狱技术。



第三方模型支持可用,但有些限制。


该应用仅接受.task文件,而不是竞争对手如Ollama支持的广泛采用的.safetensor格式。


这大大限制了可用的模型,尽管有方法可以将.safetensor文件转换为.task,但这并不适合所有人。


代码处理效果尚可,尽管像Codestral这样的专业模型会比Gemma 3更有效地处理编程任务。再次强调,必须有.task版本,但这可以是一个非常有效的替代方案。


对于基本任务,如改写、总结和解释概念,模型在不将数据发送到三星或谷歌服务器的情况下表现出色。


因此,用户无需授予大型科技公司访问其输入、键盘或剪贴板的权限,因为他们自己的硬件正在处理所有必要的工作。



4096个标记的上下文窗口在2025年的标准下显得有限,但与两年前的常态相符。


在这些限制内,对话自然流畅。这可能是定义体验的最佳方式。


考虑到你是在智能手机上运行AI模型,这款应用将为你提供类似于早期ChatGPT在速度和文本准确性方面的体验——具有多模态和代码处理等优势。


但为什么你会想在手机上运行一个较慢、较差版本的你最喜欢的AI,占用大量存储空间,并使事情变得比简单地输入ChatGPT.com更复杂呢?


隐私仍然是杀手级功能。例如,处理患者数据的医护人员、在现场的记者或处理机密信息的任何人现在都可以在不让数据离开设备的情况下访问AI功能。


“无需互联网”意味着该技术在偏远地区或旅行时也能工作,所有响应仅从模型在训练时的现有知识中生成。


成本节省迅速累积。云AI服务按使用收费,而本地模型只需你的手机处理能力。小企业和爱好者可以在没有持续费用的情况下进行实验。如果你在本地运行模型,你可以随意与其互动而不消耗配额、积分,或订阅,并且无需支付任何费用


延迟改进显而易见。没有服务器往返意味着实时应用程序(如聊天机器人或图像分析)的响应更快。这也意味着你的聊天机器人永远不会宕机。


总体而言,对于基本任务,这可能对任何用户来说都绰绰有余,免费版本的ChatGPT,Claude,Gemini,Meta,Reka,和Mistral在需要更重的计算时提供了良好的备份。


当然,这不会很快取代你最喜欢的联网聊天机器人。早期采用面临一些挑战。


电池消耗问题仍然存在,尤其是对于较大的模型;设置复杂性可能会阻止非技术用户;模型种类与云服务相比相形见绌,而谷歌决定不支持.safetensor模型(几乎占据了互联网上所有的LLM)令人失望。


然而,谷歌的实验性发布标志着AI部署理念的转变。公司提供了强大的AI和隐私,而不是迫使用户在两者之间做出选择,即使体验尚未完全到位。


AI Edge Gallery为一个alpha版本提供了令人惊讶的精致体验。谷歌的优化展示了可能是本地运行AI模型的最佳UI的创建。


添加.safetensor支持将解锁现有模型的庞大生态系统,将一个好的应用转变为隐私意识AI用户的必备工具。


文章来源:https://decrypt.co/323534/googles-latest-app-run-ai-offline
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消