电脑替你下单咖啡。Photo: Allison Johnson / The Verge

Gemini 的任务自动化功能来了
#

Google 与三星早前宣布，Gemini 将能在新版设备上以“任务自动化”（task automation）的形式，替用户在第三方应用内完成实际操作。该功能最先在 Galaxy S26 系列等机器上推出，现在已经有测试版更新实装，笔者在 S26 Ultra 上进行了上手体验 — 过程既令人惊讶，也有点怪异：看着手机“自己用自己”是一种新奇但又不太舒服的感觉。

功能概览
#

功能形式：Gemini 在一个受限的“虚拟窗口”或受控环境内模拟用户操作第三方应用（如叫车、外卖/咖啡点单等）。
覆盖范围：首波以叫车与外卖 / 餐饮类应用为主，Google 与 Samsung 的发布说明也提到会逐步扩展支持的应用。
交互方式：用户用自然语言下达请求，Gemini 会提出必要的后续问题以确认信息，并在关键的“最终提交”步骤暂停，等待用户确认。

两组典型场景测试
#

1. 叫车到机场
#

我给出的提示很简单：“叫一辆去机场的 Uber。”

流程要点：

Gemini 会询问要去哪个机场，这是必要的澄清问题；
它自动在应用中填写目的地，并根据上下文跳过一些不必要的选项（例如我本地机场只有一个航站楼，系统就跳过了选航班/航站选项）；
在真正发出叫车请求之前，Gemini 暂停并把信息交给我确认 — 这是设计上的安全把关。

截图：

你可以选择观看 Gemini 执行的每一步，也可以随时接管或停止自动化。

Gemini 会提出必要的后续问题以确认细节。

系统在内部“自问自答”，推进下一步操作。

如果你当前不在注意界面，顶部图标可显示进度。

最终提交之前会留给用户确认。

2. 点一杯咖啡和羊角面包（更模糊的请求）
#

当我要求“帮我点杯咖啡和一个羊角面包”时，Gemini 需要更多交互：

它花了比较多时间在应用内滚动菜单、辨认饮品项（例如找到了 flat white）；
对于模糊的偏好（大小、加糖与否、是否外带等）会主动发问；
最终仍会暂停让用户核对订单明细并完成支付。

这个例子能说明：越模糊/主观的请求，Gemini 在应用内的“人工式”操作越多，耗时也越长。

优点与局限
#

优点：

极大降低多步骤操作的手动负担，让普通用户通过一句话完成复杂流程；
设计上保留最终确认，避免未经允许的直接下单；
可视化进度与随时接管的能力增加了可控性。

局限与风险：

隐私与权限问题：需要授权 Gemini 访问并在应用内操作，涉及账号、支付与个人信息；
易错场景：复杂或含糊指令可能导致错误选择（例如餐厅选项、商品口味）；
可用性范围有限：当前主打叫车 / 餐饮类，需第三方应用兼容与平台逐步推广。

使用小贴士
#

下单前尽量提供必要细节（地点、时间、偏好），能减少多次交互；
在重要支付环节保持警觉，使用双重确认与检查订单明细；
关注权限设置，必要时限制对敏感应用或支付凭证的访问。

小结
#

Gemini 的任务自动化把我们期待已久的“AI 帮手替我动手做事”推到了一个更实用的层面：它能在真实的第三方应用里完成多步流程，并把关键决定留给人类确认。实测体验表明，这项功能既有明显的便利性，也带来新的用户体验与隐私考量。看着手机自己在应用里滚动、选择、填写，既觉得未来已来，又有点不适应 —— 这大概就是技术从概念走向日常时的混合感受。

想看原文（英文）：https://www.theverge.com/tech/893820/gemini-task-automation-samsung-s26-google-pixel-10

参考阅读
#

Google Maps 与 Gemini 的新交互（复杂真实问题回答）：https://www.theverge.com/tech/893262/google-maps-gemini-ai-ask-maps-immersive-navigation
Gemini 与 Samsung 发布的早期介绍（英文）：http://www.theverge.com/tech/884210/google-gemini-samsung-s26-pixel-10-uber

Gemini 的任务自动化功能来了#

功能概览#

两组典型场景测试#

1. 叫车到机场#

2. 点一杯咖啡和羊角面包（更模糊的请求）#

优点与局限#

使用小贴士#

小结#

参考阅读#