Zerlo.net Browser-IA : Détails Techniques

Cet article de blog explique le fonctionnement de l'IA Navigateur de zerlo.net expérimentale. Il décrit l'état actuel du développement et l'orientation future en tant que test de besoin.

Avatar
Équipe Zerlo · 13.07.2025 · Développement IA · 5 min

1. Introduction : Transparence de l'IA Navigateur

Le terme "IA" est largement répandu. Les questions sur les détails techniques sont légitimes. Nous poursuivons une grande transparence concernant notre IA Navigateur expérimentale. Cet article explique le prototype : ses fonctions, ses limitations actuelles et ses objectifs de développement. Le projet sert principalement de test de besoin. Nous présentons les faits, sans langage marketing.

2. Architecture Technique de l'IA Navigateur

Notre IA Navigateur se compose de plusieurs composants. Ceux-ci fonctionnent dans des conteneurs Docker isolés sous Kubernetes. Le niveau Screenshot Capture utilise un Chromium instrumenté. Celui-ci génère toutes les 1 à 2 secondes une capture d'écran PNG de la fenêtre du navigateur. Les données visuelles sont envoyées à un Vision Encoder spécialisé. Il s'agit d'un hybride ResNet, entraîné sur des patches de 224x224 pixels. Il identifie les éléments visuels tels que les boutons, les textes et les champs de saisie. Un LLM-Controller, un dérivé de GPT avec une fenêtre de contexte de 10 000 tokens, planifie les actions (clic, saisie, défilement) en fonction des informations visuelles. L'Action Runner exécute ces actions à l'aide de Puppeteer, incluant une logique de reprise. Ensuite, il demande de nouvelles captures d'écran. Un Memory Store avec LiteFS et Redis stocke l'historique et l'état du système. Un Cost Guardrail limite l'utilisation des tokens à un maximum de 12 000 tokens par action. Cela réduit le coût par action à environ 0,0001 USD (Open Weights). La latence moyenne par action est d'environ 600 millisecondes.

3. État Actuel du Développement et Taux de Réussite (Juillet 2025)

L'IA Navigateur est, en juillet 2025, un prototype avancé. Les taux de réussite varient selon les tâches. Les tâches de connexion avec lecture de deux champs atteignent environ 75 % de taux de réussite. Les défis incluent les captchas, l'authentification à deux facteurs ou les redirections de connexion. Les formulaires d'inscription à la newsletter sont remplis dans environ 68 % des cas ; les champs Honeypot peuvent interférer. Le téléchargement d'un PDF via une chaîne de clics atteint 55 %. Ici, la détection de chemin présente des lacunes. La comparaison de prix sur trois boutiques atteint environ 40 %. Les bannières de cookies et les structures de boutique variables sont les principaux problèmes. Ces taux se réfèrent à une exécution sans erreurs sans correction manuelle. Typiquement, trois à cinq tentatives sont nécessaires pour une exécution stable de la tâche.

4. Raisons du Caractère Expérimental

Le caractère expérimental de l'IA Navigateur est dû à la complexité d'Internet. Les changements constants des structures DOM (classes, IDs) constituent un défi. Notre Vision Encoder est compact, ce qui peut nuire à la reconnaissance précise de très petits boutons. Une seule action peut nécessiter jusqu'à 20 appels LLM pour la planification et la sécurité. Les cas spéciaux tels que les Shadow DOM, les iframes et les modales sont fréquents et nécessitent un traitement spécifique. Comme l'outil se base uniquement sur des captures d'écran, il prend des décisions uniquement sur la fenêtre visible. Cela ressemble à un humain qui navigue sur le web uniquement via des captures d'écran. Le fonctionnement n'est pas toujours fiable pour le moment.

Illustration de l'IA Navigateur en action

Quelle: zerlo.net

Notre IA Navigateur expérimentale fonctionne uniquement sur des données visuelles. Chaque action est basée sur ce qui est visible à l’écran. C’est sa force et sa plus grande limitation.

5. Feuille de Route T3/T4 2025 : Développements Prévisibles

Pour le troisième et le quatrième trimestre 2025, une feuille de route claire avec des développements prévus est établie. Le Self-Play Fine-Tuning est prioritaire afin de former l’agent de manière autonome sur des sites synthétiques. Un Hierarchical Memory Planner sera implémenté. Il devra pouvoir décomposer de grands objectifs en étapes gérables. Le Consent-Solver reconnaîtra et fermera de manière fiable les bannières de cookies grâce à un modèle spécialisé. De plus, nous prévoyons l’introduction des User Macros. Celles-ci permettront aux utilisateurs d’enregistrer leurs propres séquences de clics en tant que "Gold-Runs". Le système sera entraîné à cet effet pour augmenter l’efficacité et la fiabilité.

6. Vision à Long Terme : Le Copilote Web Universel

Notre vision à long terme va au-delà de 2026. L’objectif est de développer un copilote web universel. Celui-ci devra prendre en charge des tâches simples telles que la connexion, la réservation, l’annulation et le paiement. De plus, une intégration transparente avec les calendriers, les systèmes de messagerie et les systèmes de stockage de fichiers est prévue. Un marché de tâches basé sur la communauté, similaire à GitHub Actions, permettra aux utilisateurs de partager des automatisations préfabriquées. Pour les applications sensibles comme la banque en ligne, une exécution locale est prévue pour maximiser la sécurité. L’objectif final est une navigation automatisée en arrière-plan pour une "expérience sans attente", où les interactions web se déroulent sans intervention active de l’utilisateur.

Quelle: Zerlo.net

Sur la page officielle de l'IA Navigateur de zerlo.net, vous pouvez tester le projet. Votre interaction nous aide à évaluer la demande et à développer davantage l’outil.

7. But du Projet : Un Test de Besoin

La publication de cette IA Navigateur sert principalement un objectif : un TEST DE BESOIN. Nous utilisons ce prototype pour collecter des données valides. Les questions sont : Combien d’utilisateurs s'engagent-ils ? Quelles tâches peuvent être accomplies en utilisation réelle ? À quelle fréquence les opérations échouent-elles, et pourquoi ? Si une demande quantifiable existe, nous sommes prêts à investir de manière significative dans le développement, l’hébergement, le support et une API. Sinon, le projet restera un prototype open source.

Chaque retour, chaque clic, chaque rapport d'erreur nous aide à évaluer la nécessité et la direction de ce projet.
L'équipe AI de zerlo.net
L'équipe AI de zerlo.net
Façonner l'avenir de la navigation

8. Contribution et Perspective de l'IA Navigateur

Votre contribution est importante. Testez activement notre IA Navigateur au quotidien. Laissez-la accomplir des tâches et signalez des erreurs. Dites-nous quelles tâches l’IA doit accomplir. Vos expériences sont la base pour décider si ce projet dépassera le statut de prototype. Visitez zerlo.net/de/browser-ai pour participer.

Teilen Sie doch unseren Beitrag!