Zerlo.net 浏览器AI:技术细节

本文介绍了< a href="https://zerlo.net/browser-ai" target="_blank" rel="noopener">zerlo.net的实验性浏览器AI的工作原理。它描述了当前的开发状态和作为需求测试的未来方向。

Avatar
Zerlo 团队 · 13.07.2025 · 人工智能开发 · 5 分钟

1. 引言:浏览器AI的透明度

"AI"这个术语被广泛使用。关于技术细节的问题是合理的。我们对我们的实验性浏览器AI保持高度透明。本文解释了原型:它的功能、当前的限制和开发目标。该项目主要作为需求测试。我们呈现事实,而非营销语言。

2. 浏览器AI的技术架构

我们的浏览器AI由多个组件组成。这些组件在Kubernetes下的隔离Docker容器中运行。截图捕获层使用经过调试的Chromium。它每1-2秒生成一次浏览器视口的PNG截图。视觉数据传递给专门的视觉编码器。这是一个基于ResNet的混合模型,训练于224x224的补丁。它识别视觉元素,如按钮、文本和输入字段。一个大型语言模型控制器,即具有10,000个tokens上下文窗口的GPT衍生模型,根据视觉信息计划动作(点击、输入、滚动)。动作执行器使用Puppeteer执行这些动作,包括重试逻辑。然后,它请求新的截图。一个包含LiteFS和Redis的内存存储保存历史和系统状态。一个成本保护措施将每个动作的token使用量限制在最多12,000个tokens。这将每个动作的成本降低到约0.0001美元(Open Weights)。每个动作的平均延迟约为600毫秒。

3. 当前开发状态和成功率(2025年7月)

截至2025年7月,浏览器AI是一个先进的原型。成功率因任务而异。登录任务读取两个字段的成功率约为75%。挑战包括验证码、双因素认证或登录重定向。大约68%的情况下,新闻通讯表单会被填写;隐形字段可能会干扰。在通过点击链下载PDF的任务中,成功率为55%。路径识别存在漏洞。在通过三个商店进行价格比较的任务中,成功率约为40%。Cookie横幅和可变的商店结构是主要问题。这些比率是指在无需手动修正的情况下无误执行。通常需要三到五次尝试来实现任务的稳定执行。

4. 实验性特征的原因

浏览器AI的实验性特征源于互联网的复杂性。DOM结构(类、ID)的不断变化是一大挑战。我们的视觉编码器体积紧凑,可能影响对非常小按钮的精确识别。单个动作可能需要多达20次大型语言模型调用用于规划和安全。诸如Shadow DOM、iframe和模态窗口等特殊情况很常见,需要特定处理。由于该工具仅基于截图,因此它只能根据可见视口做出决策。这类似于一个仅通过截图操作网络的人。目前的工作方式并不总是可靠。

浏览器AI的应用示意图

Quelle: zerlo.net

我们的实验性浏览器AI仅基于视觉数据运行。每个动作都基于屏幕上可见的内容。这是它的优点,也是最大的限制。

5. 2025年第三/第四季度路线图:计划中的进一步发展

2025年第三和第四季度有明确的路线图和进一步发展计划。自我训练微调具有优先级,以在合成网站上自主训练代理。将实施一个分层内存规划器。它应能将大目标分解为可管理的小步骤。同意解决器将通过专用模型可靠识别和关闭Cookie横幅。此外,我们计划引入用户宏。这些允许用户将自己的点击流程作为“黄金运行”保存。系统将被训练以提高效率和可靠性。

6. 长期愿景:通用网络助手

我们的长期愿景超越2026年。目标是开发一个通用网络助手。它将承担登录、预订、取消和支付等简单任务。此外,还计划与日历、电子邮件系统和文件存储的无缝集成。一个类似于GitHub Actions的社区任务市场将允许用户共享预制的自动化流程。对于在线银行等敏感应用,计划进行本地执行以最大化安全性。最终目标是在后台实现自动浏览,实现“零等待体验”,即无需用户主动参与即可进行网络交互。

Quelle: Zerlo.net

您可以在zerlo.net的浏览器AI官方网站上测试该项目。您的互动将帮助我们评估需求并进一步开发工具。

7. 项目的目的:需求测试

发布这个浏览器AI主要有一个目的:需求测试。我们使用这个原型来收集有效的数据。问题包括:有多少用户参与?实际使用中可以完成哪些任务?操作失败的频率及原因是什么?如果存在可量化的需求,我们准备在开发、托管、支持和API上进行重大投资。否则,该项目将保持开源原型。

每一个反馈、每一次点击、每一个错误报告都帮助我们评估这个项目的必要性和方向。
zerlo.net AI团队
zerlo.net AI团队
共同塑造浏览的未来

8. 浏览器AI的帮助与展望

您的贡献非常重要。请在日常生活中积极测试我们的浏览器AI。让它完成任务并报告错误。告诉我们AI应该完成哪些任务。您的经验将决定这个项目是否超越原型阶段。访问zerlo.net/de/browser-ai参与其中。

Teilen Sie doch unseren Beitrag!