浏览器
概念
Browser Agent是一个智能网页助手,它结合了DOM解析和视觉识别的混合检测能力,可以像人类一样理解和操作网页内容。它不仅能读懂网页的代码结构,还能通过"看"的方式识别按钮、输入框等视觉元素,实现更准确的页面交互。
通过这种混合检测方式,Browser Agent可以帮用户完成各种网页任务:从简单的点击、输入文本、表单填写,到复杂的信息收集、内容理解和多标签页管理。无论是浏览网页、填写表单,还是按照用户指定的方式执行特定的网页操作序列,它都能提供智能、高效的协助。
浏览器Agent组件

执行流程
