Page-Agent - 技术发现报告
Page-Agent - 技术发现报告
基本信息
- 名称: Page-Agent(PageAgent.js)
- 官方地址: https://alibaba.github.io/page-agent/
- GitHub 仓库: https://github.com/alibaba/page-agent
- 当前版本: v1.7.1(2026-04-03 发布)
- License: MIT
- 主要编程语言: TypeScript(81.7%)、JavaScript(11.3%)、CSS(5.7%)、HTML(1.3%)
- 首次发布日期: 2025 年初(具体日期待验证,GitHub 仓库有 876 次 commit)
- 创建者/维护团队: 阿里巴巴(Alibaba)开源,由阿里巴巴工程师 Simon 主导维护
一句话定位
Page-Agent 是一个由阿里巴巴开源的嵌入式 GUI Agent JavaScript 库,可直接嵌入网页,通过自然语言控制 Web 界面,无需服务器、无头浏览器或浏览器扩展。
核心特性
- 嵌入式运行(In-page JavaScript) - 无需浏览器扩展、Python 环境或无头浏览器,仅通过一行 JavaScript 代码即可嵌入到任何网页中。所有操作直接在用户的浏览器页面内完成,零基础设施需求。
- 基于文本的 DOM 操控(Text-based DOM Manipulation) - 不依赖截图、OCR 或视觉模型。通过 HTML 脱水(dehydration)技术,解析实时 HTML,提取语义核心内容,索引交互元素,然后由 LLM 返回基于索引的操作指令,在页面上模拟鼠标和键盘事件。该方案源自 browser-use 项目。
- 自带 LLM(Bring Your Own LLM) - 不绑定特定 LLM 提供商。支持任何 OpenAI 兼容 API,包括 OpenAI GPT、Claude、DeepSeek、Qwen、Gemini、Grok,以及本地部署的 Ollama 模型。库本身不包含任何后端服务,数据仅流向用户配置的 LLM API。
- 跨页任务支持(可选 Chrome 扩展) - 提供可选的 Chrome 浏览器扩展,支持跨标签页的多页面任务、浏览器级控制和从浏览器外部发起的任务触发。扩展 API 支持 MCP(Model Context Protocol,模型上下文协议)集成。
- 模块化架构 - 分层设计,将 AI 决策层(page-agent)与页面操作层(page-controller)分离。支持自定义工具(Tools)、生命周期钩子(Lifecycle Hooks)、提示词定制和数据遮罩等扩展能力。可以单独使用
@page-agent/core作为无头核心嵌入自定义 UI。
社区生态
- GitHub Stars: 16,700+(截至 2026-04-12)
- GitHub Forks: 1,400+
- Contributors: 具体数量待验证(GitHub 页面加载问题),项目活跃维护中
- Releases: 28 个版本(最新 v1.7.1,发布于 2026-04-03)
- 最近更新日期: 2026-04-03(v1.7.1 发布)
- 社区讨论热度: Hacker News Show HN 帖子引发广泛讨论(item id: 47264138),讨论涉及安全性、架构设计、竞品对比等多个维度;国内掘金、知乎、CSDN 等平台均有报道
- npm 下载量: 具体数据待验证(npm 包名:page-agent)
- Issue 活跃度: 25 个 Open Issues,24 个 Open PR,项目积极回应社区反馈
技术栈定位
- 所属领域: Web AI Agent / GUI 自动化 / 浏览器内 AI 智能体
- 解决的核心问题: 让 Web 开发者能够以极低成本(一行代码)为自己的 Web 应用添加自然语言控制能力,无需搭建服务器端自动化基础设施。区别于传统的服务端浏览器自动化方案(如 Selenium、Puppeteer),Page-Agent 从页面内部发起操控,利用用户已有的登录态直接操作。
- 替代/竞品技术:
- browser-use(Python 服务端方案,Page-Agent 的 DOM 处理逻辑源自该项目)
- Playwright MCP(微软推出的浏览器自动化 MCP 方案)
- Agent Browser(Vercel 推出的 AI 浏览器控制方案)
- Rover(rtrvr.ai)(类似的嵌入式 Web Agent 商业产品)
- Stagehand(AI 浏览器自动化工具)
- 依赖的上游技术: LLM API(OpenAI 兼容接口)、浏览器 DOM API、zod(TypeScript schema 解析库,唯一运行时依赖)
- 下游使用者/集成方: SaaS 产品(AI Copilot 集成)、企业管理系统(ERP/CRM 智能填表)、无障碍辅助工具、多页面自动化工作流
关键链接汇总
官方资源
教程资源
- 快速入门 - GitHub README
- Chrome 扩展安装 - Chrome Web Store(也可从 GitHub Releases 获取更快更新)
社区资源
- Hacker News Show HN 讨论 - 作者亲自参与讨论,回答安全、架构等问题
- The GUI Agent Living in Your Web Page - dev.to - 作者撰写的详细介绍文章
- 阿里开源 Page-Agent 介绍 - 稀土掘金
- 阿里开源 PageAgent 介绍 - 知乎
信息来源
- GitHub 仓库 - alibaba/page-agent - 获取日期:2026-04-12(Stars、Forks、版本、License、技术栈等信息)
- Page-Agent 官方网站 - 获取日期:2026-04-12(项目定位、核心特性)
- Page-Agent 官方文档 - Overview - 获取日期:2026-04-12(Chrome 扩展功能、MCP 集成、API 参考)
- Hacker News Show HN 讨论 - 获取日期:2026-04-12(社区反馈、安全讨论、技术细节)
- dev.to - The GUI Agent Living in Your Web Page - 获取日期:2026-04-12(用例、架构图、集成方式)