Page-Agent - 技术发现报告

Page-Agent - 技术发现报告

基本信息

  • 名称: Page-Agent(PageAgent.js)
  • 官方地址: https://alibaba.github.io/page-agent/
  • GitHub 仓库: https://github.com/alibaba/page-agent
  • 当前版本: v1.7.1(2026-04-03 发布)
  • License: MIT
  • 主要编程语言: TypeScript(81.7%)、JavaScript(11.3%)、CSS(5.7%)、HTML(1.3%)
  • 首次发布日期: 2025 年初(具体日期待验证,GitHub 仓库有 876 次 commit)
  • 创建者/维护团队: 阿里巴巴(Alibaba)开源,由阿里巴巴工程师 Simon 主导维护

一句话定位

Page-Agent 是一个由阿里巴巴开源的嵌入式 GUI Agent JavaScript 库,可直接嵌入网页,通过自然语言控制 Web 界面,无需服务器、无头浏览器或浏览器扩展。

核心特性

  1. 嵌入式运行(In-page JavaScript) - 无需浏览器扩展、Python 环境或无头浏览器,仅通过一行 JavaScript 代码即可嵌入到任何网页中。所有操作直接在用户的浏览器页面内完成,零基础设施需求。
  2. 基于文本的 DOM 操控(Text-based DOM Manipulation) - 不依赖截图、OCR 或视觉模型。通过 HTML 脱水(dehydration)技术,解析实时 HTML,提取语义核心内容,索引交互元素,然后由 LLM 返回基于索引的操作指令,在页面上模拟鼠标和键盘事件。该方案源自 browser-use 项目。
  3. 自带 LLM(Bring Your Own LLM) - 不绑定特定 LLM 提供商。支持任何 OpenAI 兼容 API,包括 OpenAI GPT、Claude、DeepSeek、Qwen、Gemini、Grok,以及本地部署的 Ollama 模型。库本身不包含任何后端服务,数据仅流向用户配置的 LLM API。
  4. 跨页任务支持(可选 Chrome 扩展) - 提供可选的 Chrome 浏览器扩展,支持跨标签页的多页面任务、浏览器级控制和从浏览器外部发起的任务触发。扩展 API 支持 MCP(Model Context Protocol,模型上下文协议)集成。
  5. 模块化架构 - 分层设计,将 AI 决策层(page-agent)与页面操作层(page-controller)分离。支持自定义工具(Tools)、生命周期钩子(Lifecycle Hooks)、提示词定制和数据遮罩等扩展能力。可以单独使用 @page-agent/core 作为无头核心嵌入自定义 UI。

社区生态

  • GitHub Stars: 16,700+(截至 2026-04-12)
  • GitHub Forks: 1,400+
  • Contributors: 具体数量待验证(GitHub 页面加载问题),项目活跃维护中
  • Releases: 28 个版本(最新 v1.7.1,发布于 2026-04-03)
  • 最近更新日期: 2026-04-03(v1.7.1 发布)
  • 社区讨论热度: Hacker News Show HN 帖子引发广泛讨论(item id: 47264138),讨论涉及安全性、架构设计、竞品对比等多个维度;国内掘金、知乎、CSDN 等平台均有报道
  • npm 下载量: 具体数据待验证(npm 包名:page-agent)
  • Issue 活跃度: 25 个 Open Issues,24 个 Open PR,项目积极回应社区反馈

技术栈定位

  • 所属领域: Web AI Agent / GUI 自动化 / 浏览器内 AI 智能体
  • 解决的核心问题: 让 Web 开发者能够以极低成本(一行代码)为自己的 Web 应用添加自然语言控制能力,无需搭建服务器端自动化基础设施。区别于传统的服务端浏览器自动化方案(如 Selenium、Puppeteer),Page-Agent 从页面内部发起操控,利用用户已有的登录态直接操作。
  • 替代/竞品技术:
  • browser-use(Python 服务端方案,Page-Agent 的 DOM 处理逻辑源自该项目)
  • Playwright MCP(微软推出的浏览器自动化 MCP 方案)
  • Agent Browser(Vercel 推出的 AI 浏览器控制方案)
  • Rover(rtrvr.ai)(类似的嵌入式 Web Agent 商业产品)
  • Stagehand(AI 浏览器自动化工具)
  • 依赖的上游技术: LLM API(OpenAI 兼容接口)、浏览器 DOM API、zod(TypeScript schema 解析库,唯一运行时依赖)
  • 下游使用者/集成方: SaaS 产品(AI Copilot 集成)、企业管理系统(ERP/CRM 智能填表)、无障碍辅助工具、多页面自动化工作流

关键链接汇总

官方资源

教程资源

社区资源

信息来源