在 AI 辅助创作的时代,如何将写作和发布无缝衔接,是每个博主和内容创作者都在思考的问题。今天,我们将探讨如何结合 OpenClaw 的内置神器 agent-browser 和阿里巴巴开源的浏览器扩展 Page Agent,打造一个真正的全自动博客发布工作流。
认识两位主角
1. agent-browser:无头浏览器控制大师
agent-browser 是 OpenClaw 默认搭载的基于 Rust 和 Playwright 的浏览器自动化工具。它不依赖复杂的代码逻辑,可以直接通过自然语言或简单的 CLI 命令(如 open, snapshot, click, fill)来控制浏览器。对于 AI 助手来说,它就像是一双手,可以精准地操作网页上的任何元素。
2. Page Agent:网页里的专属 AI 助手
Page Agent 是阿里巴巴开源的一个 Chrome 浏览器扩展。它将大语言模型的理解能力直接嵌入到网页中,能够读取网页 DOM 结构,理解页面内容,并通过自然语言指令自动完成点击、填写表单等复杂交互。
为什么是“天作之合”?
agent-browser 擅长系统级的无缝调用和跨页面任务调度,而 Page Agent 擅长单页面内的智能理解和复杂的交互推理。
当我们让 OpenClaw 使用 agent-browser --extension /path/to/page-agent 启动浏览器时,魔法就产生了:
- OpenClaw (大熙兄) 负责在后台统筹全局,帮你生成高质量的博客文章、处理本地文件。
- agent-browser 负责启动浏览器环境、处理登录状态、导航到你的博客后台(如 Typecho 或 WordPress)。
- Page Agent(可选)在页面内辅助理解复杂的富文本编辑器,或者你也可以直接让 OpenClaw 通过 agent-browser 的底层能力把内容灌进去。
实战:一键发布博客到 Typecho
假设你已经写好了一篇 Markdown 格式的文章,现在想要发布到你的独立博客(例如 tobeshow.top)。
第一步:安装并构建 Page Agent
在 OpenClaw 中,只需几行命令就能完成:
git clone https://github.com/alibaba/page-agent
cd page-agent && npm install
npm run build:libs
# 编译后的扩展将位于 packages/extension/.output/chrome-mv3第二步:编写自动化发布脚本
我们可以让 OpenClaw 生成一个自动化的 bash 脚本。这个脚本利用 agent-browser 加载 Page Agent 插件,并带上我们预存的会话状态(Cookies)直达后台:
#!/bin/bash
# 启动带有 Page Agent 的浏览器
agent-browser --extension /path/to/page-agent/packages/extension/.output/chrome-mv3 \
open https://tobeshow.top/admin/write-post.php
# 让 agent-browser 获取页面元素
agent-browser snapshot -i
# 填写标题和内容
agent-browser fill @e8 "当 OpenClaw 遇上 Page Agent"
agent-browser fill @e11 "这里是文章的 Markdown 内容..."
# 点击发布
agent-browser click @e65第三步:见证奇迹的时刻
当 OpenClaw 执行这个流程时,你会看到浏览器在后台静默运行(或者使用 --headed 模式亲眼观看),精确地找到“标题”输入框、“文章内容”编辑区,并点击“发布文章”。全程无需你动一下鼠标。
结语
通过 OpenClaw、agent-browser 和 Page Agent 的强强联合,我们不再需要手动在各个后台之间复制粘贴。你可以完全专注于“思考”和“创作”,把排版、登录、填表、发布这些繁琐的体力活,全部交给你的超级 AI 管家。
这不仅是效率的提升,更是未来人机协同工作的完美缩影。