📜 核心概念

WyseOS 拥有多个相互连接的组件，这些组件协同工作以实现智能行为。该系统架构以多智能体协作系统为核心，由一个核心任务规划智能体和多个专业专家智能体组成。任务规划智能体负责解释自然语言命令并执行宏观层面的任务调节与编排，而各种专家智能体则专注于执行特定的子任务。

多智能体框架

WyseOS 是一个多智能体编排框架，旨在构建 AI 智能体并促进它们高效协作以解决复杂任务。其核心功能包括异步消息传递机制、高模块化和出色的可扩展性，为构建复杂的分布式智能体网络提供了强大支持。WyseOS 能够实现跨多个异构平台和应用场景的无缝连接，确保规划智能体与各种专家智能体之间实时、高效地协作，以有效处理多样化的复杂自动化任务。

意图识别与任务编排

作为 WyseOS 的核心协调者，任务规划智能体主要承担以下职责：首先，它采用先进的自然语言处理技术，深度解析用户以自然语言输入的目标和指令，准确把握用户意图。随后，根据任务需求，它动态地将复杂任务分解为一系列可执行的子任务，并智能地选择和初始化相应的专家智能体。

其职责概述包括：

解释高层目标/用户输入或提示
查询 LLM 以进行计划综合
向专家智能体发出任务分派
与记忆和感知模块协调
根据行动的成功/失败执行状态转换

多专家智能体执行

WyseOS 中的专家智能体是执行特定自动化操作的功能单元。执行任务时，专家智能体首先从系统知识库中检索完成当前子任务所需的相关信息和历史经验。然后，它利用其封装的、针对任务场景的控制工具集（如网页元素操作工具、API 调用接口等）来精确执行特定的自动化操作。

页面视觉与语义混合检测

有效感知和精确定位网页元素是网络自动化系统正确理解页面结构和内容，并安全执行后续操作的基本前提。鉴于现实环境中网页的多样性、动态性和固有不确定性，WyseOS 专门设计并实现了一个高效的混合检测模块，以确保元素检测的成功率和跨站点的泛化能力。

视觉检测模块：该模块包含一个经过微调的 YOLO-v12 检测模型。该模型直接处理原始网页截图，能够识别各种 UI 控件类型（如按钮、输入框等）及其在页面上的精确边界框位置。
DOM 语义检测模块：负责遍历文档对象模型（DOM），枚举页面上所有可交互的控件元素及其边界框信息，提取与控件相关的文本内容，并为每个识别出的控件分配一个系统内部唯一的 ID，为后续的元素定位和操作提供语义基础。
信息融合策略：WyseOS 通过比较视觉和 DOM 语义检测获得的控件边界框的重叠情况来融合信息。具体来说，如果两种方法都将一个元素识别为 TEXT 控件类型，并且它们预测的边界框区域重叠超过 10%，系统将优先采用基于 DOM 分析的检测结果，并丢弃相应的视觉检测结果，以利用 DOM 提供的更精确的结构信息。在其他情况下，例如控件类型不一致或重叠不足时，WyseOS 将保留视觉检测模块的控件分类结果，利用其视觉特征来帮助增强检测语义的整体丰富性和鲁棒性。

自我改进的智能体 (Self-Improving Agents)：利用强化信号对 WPM 或 LLM 进行在线微调。
协作式多智能体计划 (Collaborative Multi-Agent Plans)：网络任务的多智能体分工（例如，每个任务一个智能体）。
隐私与安全层 (Privacy and Safety Layer)：在执行过程中提供安全的 API 沙盒。
离线回放学习 (Offline Replay Learning)：从回放的成功/失败会话中训练 WPM/TPA。
人在回路 (Human-in-the-Loop)：设计有效的 HITL 系统，以实现智能体与人类之间的协作、监督和干预。

多智能体框架

意图识别与任务编排

其职责概述包括：

解释高层目标/用户输入或提示
查询 LLM 以进行计划综合
向专家智能体发出任务分派
与记忆和感知模块协调
根据行动的成功/失败执行状态转换

多专家智能体执行

页面视觉与语义混合检测

视觉检测模块：该模块包含一个经过微调的 YOLO-v12 检测模型。该模型直接处理原始网页截图，能够识别各种 UI 控件类型（如按钮、输入框等）及其在页面上的精确边界框位置。
DOM 语义检测模块：负责遍历文档对象模型（DOM），枚举页面上所有可交互的控件元素及其边界框信息，提取与控件相关的文本内容，并为每个识别出的控件分配一个系统内部唯一的 ID，为后续的元素定位和操作提供语义基础。
信息融合策略：WyseOS 通过比较视觉和 DOM 语义检测获得的控件边界框的重叠情况来融合信息。具体来说，如果两种方法都将一个元素识别为 TEXT 控件类型，并且它们预测的边界框区域重叠超过 10%，系统将优先采用基于 DOM 分析的检测结果，并丢弃相应的视觉检测结果，以利用 DOM 提供的更精确的结构信息。在其他情况下，例如控件类型不一致或重叠不足时，WyseOS 将保留视觉检测模块的控件分类结果，利用其视觉特征来帮助增强检测语义的整体丰富性和鲁棒性。

自我改进的智能体 (Self-Improving Agents)：利用强化信号对 WPM 或 LLM 进行在线微调。
协作式多智能体计划 (Collaborative Multi-Agent Plans)：网络任务的多智能体分工（例如，每个任务一个智能体）。
隐私与安全层 (Privacy and Safety Layer)：在执行过程中提供安全的 API 沙盒。
离线回放学习 (Offline Replay Learning)：从回放的成功/失败会话中训练 WPM/TPA。
人在回路 (Human-in-the-Loop)：设计有效的 HITL 系统，以实现智能体与人类之间的协作、监督和干预。

📜 核心概念

多智能体框架

意图识别与任务编排

多专家智能体执行

页面视觉与语义混合检测

持续更新的知识库

云浏览器与本地扩展

SDK 与模块化扩展

WyseOS 的未来方向

目录

📜 核心概念

多智能体框架

意图识别与任务编排

多专家智能体执行

页面视觉与语义混合检测

持续更新的知识库

云浏览器与本地扩展

SDK 与模块化扩展

WyseOS 的未来方向

目录