📜 核心概念
WyseOS 拥有多个相互连接的组件,这些组件协同工作以实现智能行为。该系统架构以多智能体协作系统为核心,由一个核心任务规划智能体和多个专业专家智能体组成。任务规划智能体负责解释自然语言命令并执行宏观层面的任务调节与编排,而各种专家智能体则专注于执行特定的子任务。
多智能体框架
WyseOS 是一个多智能体编排框架,旨在构建 AI 智能体并促进它们高效协作以解决复杂任务。其核心功能包括异步消息传递机制、高模块化和出色的可扩展性,为构建复杂的分布式智能体网络提供了强大支持。WyseOS 能够实现跨多个异构平台和应用场景的无缝连接,确保规划智能体与各种专家智能体之间实时、高效地协作,以有效处理多样化的复杂自动化任务。
意图识别与任务编排
作为 WyseOS 的核心协调者,任务规划智能体主要承担以下职责:首先,它采用先进的自然语言处理技术,深度解析用户以自然语言输入的目标和指令,准确把握用户意图。随后,根据任务需求,它动态地将复杂任务分解为一系列可执行的子任务,并智能地选择和初始化相应的专家智能体。
其职责概述包括:
- 解释高层目标/用户输入或提示
- 查询 LLM 以进行计划综合
- 向专家智能体发出任务分派
- 与记忆和感知模块协调
- 根据行动的成功/失败执行状态转换
多专家智能体执行
WyseOS 中的专家智能体是执行特定自动化操作的功能单元。执行任务时,专家智能体首先从系统知识库中检索完成当前子任务所需的相关信息和历史经验。然后,它利用其封装的、针对任务场景的控制工具集(如网页元素操作工具、API 调用接口等)来精确执行特定的自动化操作。
页面视觉与语义混合检测
有效感知和精确定位网页元素是网络自动化系统正确理解页面结构和内容,并安全执行后续操作的基本前提。鉴于现实环境中网页的多样性、动态性和固有不确定性,WyseOS 专门设计并实现了一个高效的混合检测模块,以确保元素检测的成功率和跨站点的泛化能力。
- 视觉检测模块:该模块包含一个经过微调的 YOLO-v12 检测模型。该模型直接处理原始网页截图,能够识别各种 UI 控件类型(如按钮、输入框等)及其在页面上的精确边界框位置。
- DOM 语义检测模块:负责遍历文档对象模型(DOM),枚举页面上所有可交互的控件元素及其边界框信息,提取与控件相关的文本内容,并为每个识别出的控件分配一个系统内部唯一的 ID,为后续的元素定位和操作提供语义基础。
- 信息融合策略:WyseOS 通过比较视觉和 DOM 语义检测获得的控件边界框的重叠情况来融合信息。具体来说,如果两种方法都将一个元素识别为 TEXT 控件类型,并且它们预测的边界框区域重叠超过 10%,系统将优先采用基于 DOM 分析的检测结果,并丢弃相应的视觉检测结果,以利用 DOM 提供的更精确的结构信息。在其他情况下,例如控件类型不一致或重叠不足时,WyseOS 将保留视觉检测模块的控件分类结果,利用其视觉特征来帮助增强检测语义的整体丰富性和鲁棒性。
持续更新的知识库
WyseOS 的核心优势之一在于其集成的、持续演进的检索增强生成(RAG)知识库。该知识库预加载了大量网站的官方帮助文档以及从历史上成功的自动化案例中提炼的经验总结,为各种智能体在决策和执行过程中提供即时信息检索支持。
WyseOS 对网站的非结构化帮助文档进行预处理,并将其转换为结构化的任务-解决方案对,以提高智能体在新环境中的适应性。它还通过记录详细的执行数据从过去的自动化任务中学习,这些数据会定期进行提炼并添加到其知识库中。这种将静态领域知识与动态经验学习相统一的方法,使 WyseOS 能够通过终身学习不断改进,并随着时间的推移提供更高的任务成功率。
云浏览器与本地扩展
WyseOS 在执行层的一个关键设计是其独特的基于云的沙盒浏览器和本地浏览器插件的协同机制。首先,系统提供了一个隔离的基于云的沙盒浏览器环境,使自动化任务能够在云端独立且并发地执行。其次,对于许多需要用户身份凭证进行登录认证的网络应用和服务场景,WyseOS 巧妙地通过安装在用户本地浏览器中的轻量级插件安全地完成身份认证过程。这种设计有效解决了传统云浏览器在处理复杂身份认证时面临的限制和安全顾虑,确保了自动化流程的顺畅性和合规性。
SDK 与模块化扩展
为确保 WyseOS 系统具有高度的灵活性和可持续性,它提供了一套全面的软件开发工具包(SDK)和清晰的模块化扩展机制。SDK 精心封装了一系列标准化接口和便捷的智能体注册流程。这使得第三方开发人员或用户团队能够轻松地将自定义业务逻辑、专有算法模型或现有的第三方组件封装成符合 WyseOS 规范的新专家智能体。这极大地增强了整个系统的功能覆盖范围和场景适应性,以满足不断发展的自动化需求。
WyseOS 通过学习的感知能力、语言引导的规划以及反应式控制循环,克服了 MAS 的局限性,这对于现实世界的网络环境至关重要。
WyseOS 的未来方向
- 自我改进的智能体 (Self-Improving Agents):利用强化信号对 WPM 或 LLM 进行在线微调。
- 协作式多智能体计划 (Collaborative Multi-Agent Plans):网络任务的多智能体分工(例如,每个任务一个智能体)。
- 隐私与安全层 (Privacy and Safety Layer):在执行过程中提供安全的 API 沙盒。
- 离线回放学习 (Offline Replay Learning):从回放的成功/失败会话中训练 WPM/TPA。
- 人在回路 (Human-in-the-Loop):设计有效的 HITL 系统,以实现智能体与人类之间的协作、监督和干预。