Zerlo.net Browser-AI: Technische Details

Dieser Blog-Artikel erläutert die Funktionsweise der experimentellen Browser-AI von zerlo.net. Er beschreibt den aktuellen Entwicklungsstand und die zukünftige Ausrichtung als Bedarfstest.

Avatar
Zerlo Team · 13.07.2025 · KI Entwicklung · 5 min

1. Einleitung: Transparenz zur Browser-AI

Der Begriff "AI" ist weit verbreitet. Fragen nach den technischen Details sind dabei berechtigt. Wir verfolgen eine hohe Transparenz bezüglich unserer experimentellen Browser-AI. Dieser Artikel erklärt den Prototyp: seine Funktion, aktuelle Limitationen und Entwicklungsziele. Das Projekt dient primär als Bedarfstest. Wir präsentieren die Fakten, ohne Marketing-Sprache.

2. Technische Architektur der Browser-AI

Unsere Browser-AI besteht aus mehreren Komponenten. Diese operieren in isolierten Docker-Containern unter Kubernetes. Die Screenshot Capture-Ebene nutzt einen instrumentierten Chromium. Dieser erzeugt alle 1–2 Sekunden einen PNG-Screenshot des Browser-Viewports. Visuelle Daten gehen an einen spezialisierten Vision-Encoder. Dies ist ein ResNet-Hybrid, trainiert auf 224x224 Patches. Er identifiziert visuelle Elemente wie Buttons, Texte und Eingabefelder. Ein LLM-Controller, ein GPT-Derivat mit 10.000 Tokens Kontextfenster, plant Aktionen (Klick, Eingabe, Scrollen) basierend auf den visuellen Informationen. Der Action Runner führt diese Aktionen mittels Puppeteer aus, inklusive Retry-Logik. Anschließend fordert er neue Screenshots an. Ein Memory Store mit LiteFS und Redis speichert Verlauf und Systemzustand. Ein Cost Guardrail begrenzt die Token-Nutzung auf maximal 12.000 Tokens pro Aktion. Dies reduziert die Kosten pro Aktion auf etwa 0,0001 US-Dollar (Open Weights). Die durchschnittliche Latenz pro Aktion liegt bei etwa 600 Millisekunden.

3. Aktueller Entwicklungsstand und Erfolgsquoten (Juli 2025)

Die Browser-AI ist im Juli 2025 ein fortgeschrittener Prototyp. Die Erfolgsquoten variieren je nach Aufgabenstellung. Login-Aufgaben mit Auslesen von zwei Feldern erreichen etwa 75% Erfolgsquote. Herausforderungen sind Captchas, 2FA oder Login-Redirects. Newsletter-Formulare werden in ungefähr 68% der Fälle ausgefüllt; Honeypot-Felder können hier stören. Ein PDF-Download über eine Klickkette liegt bei 55%. Hier hat die Pfad-Erkennung Lücken. Beim Preisvergleich über drei Shops liegt die Erfolgsquote bei ca. 40%. Cookie-Banner und variable Shop-Strukturen sind die Hauptprobleme. Diese Quoten beziehen sich auf fehlerfreie Ausführung ohne manuelle Korrektur. Typischerweise sind drei bis fünf Anläufe für eine stabile Task-Ausführung nötig.

4. Gründe für den experimentellen Charakter

Der experimentelle Charakter der Browser-AI liegt in der Komplexität des Internets begründet. Die ständige Änderung von DOM-Strukturen (Klassen, IDs) ist eine Herausforderung. Unser Vision-Encoder ist kompakt, was die präzise Erkennung sehr kleiner Buttons beeinträchtigen kann. Eine einzelne Aktion kann bis zu 20 LLM-Aufrufe für Planung und Sicherheit erfordern. Spezialfälle wie Shadow-DOMs, iframes und Modale sind häufig und erfordern spezifische Behandlung. Da das Tool nur auf Screenshots basiert, trifft es Entscheidungen nur auf dem sichtbaren Viewport. Dies ähnelt einem Menschen, der das Web nur über Screenshots bedient. Die Funktionsweise ist momentan nicht immer zuverlässig.

Illustration der Browser-AI im Einsatz

Quelle: zerlo.net

Unsere experimentelle Browser-AI operiert allein auf visuellen Daten. Jede Aktion basiert auf dem, was auf dem Bildschirm sichtbar ist. Dies ist ihre Stärke und ihre größte Einschränkung.

5. Roadmap Q3/Q4 2025: Geplante Weiterentwicklungen

Für Q3 und Q4 2025 ist eine klare Roadmap mit Weiterentwicklungen festgelegt. Self-Play Fine-Tuning hat Priorität, um den Agenten auf synthetischen Websites autark zu trainieren. Ein Hierarchischer Memory-Planner wird implementiert. Er soll große Ziele in überschaubare Schritte zerlegen können. Der Consent-Solver wird durch ein Spezialmodell Cookie-Banner zuverlässig erkennen und schließen. Zudem planen wir die Einführung von User Macros. Diese ermöglichen es Nutzern, eigene Klickabläufe als "Gold-Runs" zu speichern. Das System soll darauf trainiert werden, um Effizienz und Zuverlässigkeit zu erhöhen.

6. Langfristige Vision: Der universelle Web-Copilot

Unsere langfristige Vision reicht über 2026 hinaus. Ziel ist die Entwicklung eines universellen Web-Copiloten. Dieser soll einfache Aufgaben wie Login, Buchen, Kündigen und Bezahlen übernehmen. Zudem ist eine nahtlose Integration mit Kalender, E-Mail-Systemen und Dateiablagen geplant. Ein Community-basierter Task-Marktplatz, ähnlich GitHub Actions, soll Nutzern das Teilen vorgefertigter Automatisierungen ermöglichen. Für sensible Anwendungen wie Online-Banking ist lokale Ausführung zur Maximierung der Sicherheit vorgesehen. Endziel ist automatisiertes Browsing im Hintergrund für eine "zero-wait experience", bei der Web-Interaktionen ohne aktive Nutzerbeteiligung ablaufen.

Quelle: Zerlo.net

Auf der offiziellen Seite der zerlo.net Browser-AI können Sie das Projekt testen. Ihre Interaktion hilft uns, den Bedarf zu bewerten und das Tool weiterzuentwickeln.

7. Der Zweck des Projekts: Ein Bedarfstest

Die Veröffentlichung dieser Browser-AI dient primär einem Zweck: einem BEDARFSTEST. Wir nutzen diesen Prototyp zur Erhebung valider Daten. Fragen sind: Wie viele Nutzer engagieren sich? Welche Aufgaben können im realen Einsatz bewältigt werden? Wie oft scheitern Operationen, und warum? Wenn ein quantifizierbarer Bedarf besteht, sind wir bereit, signifikant in Entwicklung, Hosting, Support und eine API zu investieren. Andernfalls bleibt das Projekt ein quelloffener Prototyp.

Jedes Feedback, jeder Klick, jeder Fehlerbericht hilft uns, die Notwendigkeit und Richtung dieses Projekts zu bewerten.
Das zerlo.net AI-Team
Das zerlo.net AI-Team
Die Zukunft des Browsings mitgestalten

8. Mithilfe und Ausblick der Browser-AI

Ihr Beitrag ist wichtig. Testen Sie unsere Browser-AI aktiv im Alltag. Lassen Sie Aufgaben erledigen und melden Sie Fehler. Teilen Sie uns mit, welche Aufgaben die AI erledigen soll. Ihre Erfahrungen sind die Basis dafür, ob dieses Projekt über den Prototypenstatus hinauswächst. Besuchen Sie zerlo.net/de/browser-ai, um teilzunehmen.

Teilen Sie doch unseren Beitrag!