
电脑替你下单咖啡。Photo: Allison Johnson / The Verge
Gemini 的任务自动化功能来了#
Google 与三星早前宣布,Gemini 将能在新版设备上以“任务自动化”(task automation)的形式,替用户在第三方应用内完成实际操作。该功能最先在 Galaxy S26 系列等机器上推出,现在已经有测试版更新实装,笔者在 S26 Ultra 上进行了上手体验 — 过程既令人惊讶,也有点怪异:看着手机“自己用自己”是一种新奇但又不太舒服的感觉。
功能概览#
- 功能形式:Gemini 在一个受限的“虚拟窗口”或受控环境内模拟用户操作第三方应用(如叫车、外卖/咖啡点单等)。
- 覆盖范围:首波以叫车与外卖 / 餐饮类应用为主,Google 与 Samsung 的发布说明也提到会逐步扩展支持的应用。
- 交互方式:用户用自然语言下达请求,Gemini 会提出必要的后续问题以确认信息,并在关键的“最终提交”步骤暂停,等待用户确认。
两组典型场景测试#
1. 叫车到机场#
我给出的提示很简单:“叫一辆去机场的 Uber。”
流程要点:
- Gemini 会询问要去哪个机场,这是必要的澄清问题;
- 它自动在应用中填写目的地,并根据上下文跳过一些不必要的选项(例如我本地机场只有一个航站楼,系统就跳过了选航班/航站选项);
- 在真正发出叫车请求之前,Gemini 暂停并把信息交给我确认 — 这是设计上的安全把关。
截图:

你可以选择观看 Gemini 执行的每一步,也可以随时接管或停止自动化。

Gemini 会提出必要的后续问题以确认细节。

系统在内部“自问自答”,推进下一步操作。

如果你当前不在注意界面,顶部图标可显示进度。

最终提交之前会留给用户确认。
2. 点一杯咖啡和羊角面包(更模糊的请求)#
当我要求“帮我点杯咖啡和一个羊角面包”时,Gemini 需要更多交互:
- 它花了比较多时间在应用内滚动菜单、辨认饮品项(例如找到了 flat white);
- 对于模糊的偏好(大小、加糖与否、是否外带等)会主动发问;
- 最终仍会暂停让用户核对订单明细并完成支付。
这个例子能说明:越模糊/主观的请求,Gemini 在应用内的“人工式”操作越多,耗时也越长。
优点与局限#
优点:
- 极大降低多步骤操作的手动负担,让普通用户通过一句话完成复杂流程;
- 设计上保留最终确认,避免未经允许的直接下单;
- 可视化进度与随时接管的能力增加了可控性。
局限与风险:
- 隐私与权限问题:需要授权 Gemini 访问并在应用内操作,涉及账号、支付与个人信息;
- 易错场景:复杂或含糊指令可能导致错误选择(例如餐厅选项、商品口味);
- 可用性范围有限:当前主打叫车 / 餐饮类,需第三方应用兼容与平台逐步推广。
使用小贴士#
- 下单前尽量提供必要细节(地点、时间、偏好),能减少多次交互;
- 在重要支付环节保持警觉,使用双重确认与检查订单明细;
- 关注权限设置,必要时限制对敏感应用或支付凭证的访问。
小结#
Gemini 的任务自动化把我们期待已久的“AI 帮手替我动手做事”推到了一个更实用的层面:它能在真实的第三方应用里完成多步流程,并把关键决定留给人类确认。实测体验表明,这项功能既有明显的便利性,也带来新的用户体验与隐私考量。看着手机自己在应用里滚动、选择、填写,既觉得未来已来,又有点不适应 —— 这大概就是技术从概念走向日常时的混合感受。
想看原文(英文):https://www.theverge.com/tech/893820/gemini-task-automation-samsung-s26-google-pixel-10
参考阅读#
- Google Maps 与 Gemini 的新交互(复杂真实问题回答):https://www.theverge.com/tech/893262/google-maps-gemini-ai-ask-maps-immersive-navigation
- Gemini 与 Samsung 发布的早期介绍(英文):http://www.theverge.com/tech/884210/google-gemini-samsung-s26-pixel-10-uber
