
电影《钢铁侠》中,托尼 · 斯塔克的助手贾维斯(J.A.R.V.I.S.)能帮他限定多样系统并自动完成任务,曾让无数不雅众欷歔不已。
面前,这么的超等智能助手,终于变成现实了!
跟着多模态大说话模子的爆发式进化,OS Agents横空出世,它们能无缝操控电脑和手机,为你自动治理繁琐任务。
从 Anthropic 的 Computer Use,到苹果的 Apple Intelligence,再到智谱 AI 的 AutoGLM,以及 Google DeepMind 的 Project Mariner,科技巨头们的贪念都指向了褪色个主意:打造信得过意旨上的操作系统智能助手。
OS Agents 也曾不单是是"助手",它们正在改写"东谈主机交互"的游戏限定。
最近,浙江大学联手OPPO、零一万物等十个机构共同梳理了一篇综述著述《OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use》,不仅详备解读了 OS Agents 的硬核时刻构造,还盘货了它们的评估法子和改日挑战。
科技行业的下一个新风口,会是 OS Agents 吗?

OS Agents 买卖学术同期迸发
像贾维斯这么的超等 AI 助手,一般被称为OS Agents,它们粗略通过操作系统(OS)提供的环境和接口(如图形用户界面,GUI),在诸如电脑或者手机等野心确立上自动化的完成万般任务。
OS Agents 有高大的后劲改善全球数十亿用户的生计,念念象一个宇宙:在线购物、预订差旅等平方步履都不错由这些智能体无缝完成,这将大幅提高手们的生计遵循和坐褥力。
曩昔,诸如 Siri [ 1 ] 、Cortana [ 2 ] 和 Google Assistant [ 3 ] 等 AI 助手,也曾展示了这一后劲。但是,由于模子才气在曩昔较为有限,导致这些家具只可完成有限的任务。
红运的是,跟着多模态大说话模子的不竭发展,如 Gemini [ 4 ] 、GPT [ 5 ] 、Grok [ 6 ] 、Yi [ 7 ] 和 Claude [ 8 ] 系列模子(排行字据 2024 年 12 月 22 日更新的 Chatbot Arena LLM Leaderboard [ 9 ] ),这一鸿沟迎来了新的可能性。
( M ) LLMs 展现出令东谈主谨慎的才气,使得 OS Agents 粗略更好地斡旋复杂任务并在野心确立上履行。
基础模子公司和手机厂商近期在这一鸿沟动作通常,举例最近由 Anthropic 推出的 Computer Use [ 10 ] 、由苹果公司推出的 Apple Intelligence [ 11 ] 、由智谱 AI 推出的 AutoGLM [ 12 ] 和由 Google DeepMind 推出的 Project Mariner [ 13 ] 。
其中,Computer Use 应用 Claude [ 14 ] 与用户的野神思径直互动,不错罢了无缝的任务自动化。
与此同期,学术界也曾提倡了多样法子来构建基于 ( M ) LLM 的 OS Agents。
举例,OS-Atlas [ 15 ] 提倡一种 GUI 基础模子,通过跨多个平台详尽 GUI 操作数据,大幅翻新了模子对 GUI 的操作才气,提高 OOD 任务的推崇。
而 OS-Copilot [ 16 ] 则是一种 OS Agents 框架,粗略使智能体在少监督情况下罢了平凡的野神思任务自动化,并展示了其在多种应用中的泛化才气和自我翻新才气。

△OS Agents 的部分代表性买卖家具与学术研究
本文是对 OS Agents 进行的一次全面综述。
最初敷陈 OS Agents 的基础,探讨了其关节成分,包括环境、不雅察空间和动作空间,并概述了斡旋、野心和履行操作等中枢才气。
接着,谛视了构建 OS Agents 的法子,要点柔顺 OS Agents 鸿沟特定的基础模子和智能体框架的设备。
随后,著述详备总结了评估合同和基准测试,展示了 OS Agents 在多种任务中的评估面孔。
终末,著述究诘了现时的挑战并指出改日研究的潜在所在,包括安全与狡饰、个性化与自我进化。
本文旨在梳理 OS Agents 研究的近况,为学术研究和工业设备提供匡助。
为了进一步鼓动该鸿沟的创新,团队还调理了一个开源的 GitHub 仓库,包含 250+ 斟酌 OS Agents 的论文以过火他干系资源,况兼仍在连续更新中。(团结在著述末尾~)

△OS Agents 基础:关节成分和中枢才气 OS Agents 基础关节成分 ( Key Component )
要罢了 OS Agents 对野心确立的通用限定,需要通过与操作系统提供的环境、输入和输出接口进行交互来完成主意。
为赋闲这种交互需求,现存的 OS Agents 依赖三个关节成分:
环境(Environment):智能体操作的系统或平台,举例电脑、手机和浏览器。环境是智能体完成任务的舞台,补助检朴单的信息检索到复杂的多要领操作。
不雅察空间(Observation Space):智能体可赢得的悉数信息范围。这些信息诸如屏幕截图、文本形色或 GUI 界面结构,是智能体斡旋环境和任务的基础。举例,网页的 HTML 代码或手机的屏幕截图。
动作空间(Action Space):智能体与环境交互的动作围聚。它界说了可履行的操作,如点击、输入文本、导航操作以致调用外部器具。这使得智能体粗略自动化完成任务并优化使命流。
中枢才气 ( Capability )
在 OS Agents 的这些关节成分后,若何与操作系统正确、有用的交互,这就需要锻练 OS Agents 本人各方面的才气。
OS Agents 必须掌执的中枢才气不错总结为如下三点:
斡旋(Understanding):OS Agents 最初需要斡旋复杂的操作环境。不管是 HTML 代码、屏幕截图,如故屏幕界面中密集的图标和文本信息,智能体都需要通过斡旋才气索要关节内容,构建对任务和环境的全面领路。这种斡旋才气是处理信息检索等任务的前提。
野心(Planning):在职务履行中,OS Agents 的野心才气至关伏击。野心才气条目 OS Agents 将复杂任务拆解为多个子任务,并制定操作序列来罢了主意。同期,它们最佳还要粗略据环境变化动态调理酌量,以相宜复杂的操作系统环境,举例动态网页和实时更新的用户屏幕界面。
操作(Grounding):OS Agents 最终需要将野心迁移为具体的、可履行的操作,举例点击按钮、输入文本或调用 API。这种将野心"落地"的才气使得它们粗略在着实环境中高效完成任务,并罢了从翰墨形色到操作履行的精确转念。
OS Agents 的构建基础模子 ( Foundation Model )
要构建粗略高效履行任务的 OS Agents ,其中枢在于设备适配的基础模子。
这些模子不仅需要斡旋复杂的屏幕界面,还要在多模态场景下履行任务。
底下是对基础模子的架构与阅览战术的详备归纳与总结:

△OS Agents 基础模子:架构、预阅览、监督微谐和强化学习
架构(Architecture):咱们将主要的模子架构分为四个类别:1、Existing LLMs:径直选择开源的大说话模子架构,将结构化的屏幕界面信息以文本色式输入给 LLMs,从而使得模子不错感知环境;2、Existing MLLMs:径直选择开源的多模态大说话模子架构,整合文本和视觉处理才气,提高对 GUI 的斡旋才气,减少文本化视觉信息而形成的特征蚀本;3、 Concatenated MLLMs:由 LLM 与视觉编码器桥接而成,天真性更高,不错字据任务需求选择不同的说话模子和视觉模子进行组合;4、Modified MLLMs:对现存 MLLM 架构进行优化调理,以解决特定场景的挑战,如:添加特等模块(高别离率视觉编码器或图像分割模块等),以更邃密地感知和斡旋屏幕界面细节。
预阅览(Pre-training):预阅览为模子构建打下基础,通过海量数据提高对屏幕界面的斡旋才气。数据源包括全球数据集、合成数据集;预阅览任务粉饰屏幕定位(Screen Grounding)、屏幕斡旋(Screen Understanding)与光学字符识别(OCR)等。
监督微调(Supervised Fine-tuning):监督微调让模子更贴合 GUI 场景,是提高 OS Agents 野心才气和履行才气的伏击技能。举例,通过纪录任务履行轨迹生成阅览数据,或应用 HTML 渲染屏幕界面细节,提高模子对不同 GUI 的泛化才气。
强化学习(Reinforcement Learning):现阶段的强化学习罢了了用 ( M ) LLMs 看成特征索要到 ( M ) LLM-as-Agent 的范式变调,匡助了 OS Agents 在动态环境中交互,字据奖励反应,不竭优化决策。这种法子不仅提高了智能体的对都进度,还为视觉和多模态智能体提供了更强的泛化才气与任务适配性。
近期 OS Agents 基础模子的干系论文总结如下:

△OS Agents 基础模子近期研究使命总结智能体框架 ( Agent Framework )
OS Agents 除了需要坚定的基础模子,还需要搭配上 Agent 框架来增强感知、野心、操心和行动才气。
这些模块协同使命,使 OS Agents 粗略高效应付复杂的任务和环境。
以下是 OS Agents 框架中四大关节模块的总结归纳:

△OS Agents 框架:感知、野心、操心和行动
感知(Perception):感知看成 OS Agents 的"眼睛",通过输入的多模态数据(如屏幕截图、HTML 文档)不雅察环境。咱们将感知细分为:1、文本感知:将操作系统的状况迁移为结构化文本形色,如 DOM 树或 HTML 文献;2、屏幕界面感知:使用视觉编码器对屏幕界面截图进行斡旋,通过视觉定位(如按钮、菜单)和语义团结(如 HTML 标记)精确识别关节元素。
野心(Planning):野心看成 OS Agents 的"大脑",厚爱制定任务的履行战术,不错分为:1、全局野心:一次生成完满酌量并履行;2、迭代野心:跟着环境变化动态调理酌量,使智能体粗略相宜实时更新的屏幕界面和任务需求。
操心(Memory):OS Agents 框架的"操心"部分不错匡助存储任务数据、操作历史和环境状况。操心分为三个类型:1、里面操心(Internal Memory):存储操作历史、屏幕截图、状况数据和动态环境信息,补助任务履行的曲折文斡旋和轨迹优化。举例,借助截图解析屏幕界面布局或字据历史操作生成决策;2、外部操心(External Memory):提供恒久常识补助,举例通过调用外部器具(如 API)或常识库赢得鸿沟布景常识,辅助复杂任务的决策;3、特定操心(Specific Memory):聚焦于特定任务的常识和用户需求,举例存储子任务证明法子、用户偏好或屏幕界面交互功能,提供高度针对性的操作补助。此外,咱们还总结了多种操心优化战术。
行动(Action):咱们将 OS Agents 的行动范围界说为动作空间,这包含操作系统交互的面孔,咱们将其细分为三个类别:1、输入操作:输入是 OS Agents 与数字屏幕界面交互的基础,主要包括鼠标操作、触控操作和键盘操作;2、导航操作:使 OS Agents 粗略探索和出动于主意平台,赢得履行任务所需的信息;3、膨胀操作:残害了传统屏幕界面交互的放胆,为智能体提供更天真是任务履行才气,举例:代码履行与 API 调用。
近期斟酌 OS Agents 框架的论文总结如下:

△OS Agents 框架近期研究使命总结 OS Agents 的评估
在 OS Agents 的发展中,科学的评估起到了关节作用,匡助设备者掂量智能体在多样场景中的性能。
底下的表格总结了近期斟酌OS Agents 评估基准的论文:

△OS Agents Benchmark 近期研究使命总结评估合同 ( Evaluation Protocol )
操作系统智能体评估的中枢可总结为两个关节问题:评估流程应若何进行与需要对哪些方面进行评估。
底下本文将围绕这两个问题,敷陈操作系统智能体的评估原则和酌量。
评估原则(Evaluation Principle):OS Agents 的评估集聚了多维度的时刻法子,提供对其才气与局限性的全面知悉,主要分为两种类型:1、客不雅评估(Objective Evaluation):通过程序化的数值酌量,评估智能体在特定任务中的性能。举例,操作的准确性、任务的成遵循以及语义匹配的精确度。这么的评估法子能快速且程序化地掂量智能体的性能;2、主不雅评估(Subjective Evaluation):基于东谈主类用户的主不雅感受,评估智能体的输出质料,包括其干系性、当然性、连贯性和合座后果。越来越多的研究也应用 ( M ) LLM-as-Judge 来进行评估,从而提高遵循和一致性。
评推测划(Evaluation Metric):评推测划聚焦于 OS Agents 的斡旋、野心和操作才气,掂量其在不同任务中的推崇。主要包括以下两个方面:1、要领级酌量:评估智能体在每一步操作中的准确性,如任务履行中动作的语义匹配进度、操作准确性等;2、任务级酌量:聚焦于通盘任务完成情况,包括任务的成遵循和完成任务的遵循。
评估基准 ( Evaluation Benchmark )
为了全面评估 OS Agents 的性能,研究者设备了多种评估基准,涵盖不同平台、环境竖立和任务类别。
这些基准测试为掂量智能体的跨平台相宜性、动态任务履行才气提供了科学依据。
评估平台(Evaluation Platform):评估平台构建了集成的评估环境,不同平台具有私有的挑战和评估要点,咱们将其主要分为三类:出动平台(Mobile)、桌面平台(Desktop)与网页平台(Web)。
基准竖立(Benchmark Setting):该部分将 OS Agents 的评估环境分为两大类:静态(Static)环境和交互式(Interactive)环境,并进一步将交互式环境细分为模拟(Simulated)环境和着实宇宙(Real-World)环境。静态环境适用于基础任务的离线评估,而交互式环境(尤其是着实宇宙环境)更能全面测试 OS Agents 在复杂动态场景中的推行才气。着实宇宙环境强调泛化才气和动态相宜性,是改日评估的伏击所在。
任务(Task):为了全面评估 OS Agents 的才气,现时的基准测试整合了多样专科化任务,涵盖从系统级任务(如装配和卸载应用程序)到平方应用任务(如发送电子邮件和在线购物)。主要不错分为以下三类:1、GUI 定位(GUI Grounding):评估 OS Agents 将指示转念为屏幕界面操作的才气,即如安在操作系统中与指定的可操作元旧友互;2、信息处理(Information Processing):评估 OS Agents 高效处理和总结信息的才气,尤其在动态和复杂环境中,从多数数据中索要有用信息;3、智能体任务(Agentic Tasks):评估 OS Agents 的中枢才气,如野心和履行复杂任务的才气。这类任务为智能体提供主意或指示,条目其在莫得显式指点的情况下完成任务。
挑战与改日
本部分究诘了 OS Agents 濒临的主要挑战及改日发展的所在,要点聚焦于安全与狡饰(Safety & Privacy)以及个性化与自我进化(Personalization & Self-Evolution)两个方面。
安全与狡饰
安全与狡饰是 OS Agents 设备中必须青睐的鸿沟。
OS Agents 濒临多种漏洞面孔,包括曲折教唆注入漏洞、坏心弹出窗口和抵挡性指示生成,这些阻止可能导致系统履行空虚操作或裸露敏锐信息。
尽管面前已有适用于 LLMs 的安全框架,但针对 OS Agents 的小心机制仍显不及。
现时研究主要聚合于想象极端应付注入漏洞和后门漏洞等特殊阻止的小心有酌量,急待设备全面的且可膨胀小心框架,以提高 OS Agents 的合座安全性和可靠性。
为评估 OS Agents 在不同场景下的鲁棒性,还引入了一些智能体安全基准测试,用于全面测试和翻新系统的安全推崇,举例 ST-WebAgentBench [ 17 ] 和 MobileSafetyBench [ 18 ] 。
个性化与自我进化
个性化 OS Agents 需要字据用户偏好不竭调理行径和功能。
多模态大说话模子正冉冉补助斡旋用户历史纪录和动态相宜用户需求,OpenAI 的 Memory 功能 [ 19 ] 在这一方进取也曾取得了一定进展。
让智能体通过用户交互和任务履行流程连续学习和优化,从而提高个性化进度和性能。
改日将操心机制膨胀到更复杂的体式,如音频、视频、传感器数据等,从而提供更高档的预测才气和决策补助。
同期,补助用户数据启动的自我优化,增强用户体验。
总结
多模态大说话模子的发展为操作系统智能体(OS Agents)创造了新的机遇,使得罢了先进 AI 助手的念念法愈加接近现实。
本综述旨在概述 OS Agents 的基础,包括其关节构成部分和才气。
此外,著述还总结了构建 OS Agents 的多种法子,绝顶柔顺鸿沟特定的基础模子和智能体框架。
在评估合同和基准测试中,团队成员邃密分析了万般评推测划,况兼将基准测试从环境、设定与任务进行分类。
预测改日,团队明确了需要连续研究和柔顺的挑战,举例安全与狡饰、个性化与自我进化等。这些鸿沟是进一步研究的要点。
本综述总结了该鸿沟确现时状况,并指出了改日使命的潜在所在,旨在为 OS Agents 的连续发展孝顺力量,并增强其在学术界和工业界的应用价值与推行意旨。
如有空虚,接待大众品评指正,作家也默示,期待诸君同业一又友同样究诘!
论文团结:https://github.com/OS-Agent-Survey/OS-Agent-Survey
名目主页:https://os-agent-survey.github.io/
参考文献:
[ 1 ] Apple Inc. Siri - apple, 2024. https://www.apple.com/siri/
[ 2 ] Microsoft Research. Cortana research - microsoft research, 2024. https://www.microsoft.com/en-us/research/group/cortana-research/
[ 3 ] Google. Google assistant, 2024. https://assistant.google.com/
[ 4 ] Google. Gemini - google. https://gemini.google.com/
[ 5 ] OpenAI. Home - openai. https://openai.com/
[ 6 ] xAI. x.ai. https://x.ai/
[ 7 ] 01.AI. 01.ai. https://www.lingyiwanwu.com/
[ 8 ] Anthropic. Anthropic. https://www.anthropic.com/
[ 9 ] Chatbot arena: An open platform for evaluating llms by human preference, 2024. https://arxiv.org/abs/2403.04132
[ 10 ] Anthropic. 3.5 models and computer use - anthropic, 2024a. https://www.anthropic.com/news/3-5-models-and-computer-use
[ 11 ] Apple. Apple intelligence, 2024. https://www.apple.com/apple-intelligence/
[ 12 ] Autoglm: Autonomous foundation agents for guis. https://arxiv.org/abs/2411.00820
[ 13 ] Google DeepMind. Project mariner, 2024. https://deepmind.google/technologies/project-mariner/
[ 14 ] Anthropic. Claude model - anthropic, 2024b. https://www.anthropic.com/claude
[ 15 ] Os-atlas: A foundation action model for generalist gui agents. https://arxiv.org/abs/2410.23218
[ 16 ] Os-copilot: Towards generalist computer agents with self-improvement. https://arxiv.org/abs/2402.07456
[ 17 ] St-webagentbench: A benchmark for evaluating safety and trustworthiness in web agents, 2024. http://arxiv.org/abs/2410.06703
[ 18 ] Mobilesafetybench: Evaluating safety of autonomous agents in mobile device control, 2024. https://arxiv.org/abs/2410.17520^Memory and new controls for ChatGPT. https://openai.com/index/memory-and-new-controls-for-chatgpt/
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 名目主页团结,以及斟酌面孔哦
咱们会(尽量)实时回话你

点这里� � 柔顺我,难忘标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日再见 ~