Zerlo.net Browser-AI: Detalles Técnicos

Este artículo del blog explica el funcionamiento de la experimental Browser-AI de zerlo.net. Describe el estado actual del desarrollo y la futura dirección como prueba de necesidad.

Zerlo Team · 13.07.2025 · Desarrollo de IA · 5 min

1. Introducción: Transparencia hacia la Browser-AI

El término "IA" está ampliamente difundido. Las preguntas sobre los detalles técnicos son legítimas. Mantenemos una alta transparencia respecto a nuestra experimental Browser-AI. Este artículo explica el prototipo: su funcionamiento, limitaciones actuales y objetivos de desarrollo. El proyecto sirve principalmente como una prueba de necesidad. Presentamos los hechos, sin lenguaje de marketing.

2. Arquitectura Técnica de la Browser-AI

Nuestra Browser-AI consta de varios componentes. Estos operan en contenedores Docker aislados bajo Kubernetes. La capa de Captura de Pantallas utiliza un Chromium instrumentado. Este genera una captura de pantalla PNG del viewport del navegador cada 1–2 segundos. Los datos visuales se envían a un Codificador de Visión especializado. Este es un híbrido ResNet, entrenado en parches de 224x224. Identifica elementos visuales como botones, textos y campos de entrada. Un Controlador LLM, un derivado de GPT con una ventana de contexto de 10.000 tokens, planifica acciones (clic, entrada, desplazamiento) basándose en la información visual. El Ejecutor de Acciones realiza estas acciones mediante Puppeteer, incluyendo una lógica de reintento. Posteriormente, solicita nuevas capturas de pantalla. Una Memoria Almacenada con LiteFS y Redis guarda el historial y el estado del sistema. Una Guía de Costos limita el uso de tokens a un máximo de 12.000 tokens por acción. Esto reduce el costo por acción a aproximadamente 0,0001 dólares estadounidenses (Open Weights). La latencia promedio por acción es de aproximadamente 600 milisegundos.

3. Estado Actual del Desarrollo y Tasas de Éxito (Julio 2025)

La Browser-AI es en julio de 2025 un prototipo avanzado. Las tasas de éxito varían según la tarea. Las tareas de inicio de sesión con lectura de dos campos alcanzan aproximadamente un 75% de tasa de éxito. Los desafíos son los captchas, la autenticación de dos factores o los redireccionamientos de inicio de sesión. Los formularios de suscripción al boletín se completan en aproximadamente el 68% de los casos; los campos honeypot pueden interferir aquí. La descarga de PDF a través de una cadena de clics está en un 55%. Aquí, el reconocimiento de rutas presenta lagunas. En la comparación de precios a través de tres tiendas, la tasa de éxito es de aproximadamente el 40%. Los banners de cookies y las estructuras variables de las tiendas son los principales problemas. Estas tasas se refieren a la ejecución sin errores sin corrección manual. Típicamente, se necesitan tres a cinco intentos para una ejecución estable de la tarea.

4. Razones del Carácter Experimental

El carácter experimental de la Browser-AI se debe a la complejidad de Internet. Los cambios constantes en las estructuras del DOM (clases, IDs) son un desafío. Nuestro Codificador de Visión es compacto, lo que puede afectar la detección precisa de botones muy pequeños. Una sola acción puede requerir hasta 20 llamadas LLM para planificación y seguridad. Los casos especiales como Shadow-DOMs, iframes y modales son frecuentes y requieren un tratamiento específico. Dado que la herramienta se basa únicamente en capturas de pantalla, toma decisiones solo sobre el viewport visible. Esto se asemeja a una persona que navega por la web solo a través de capturas de pantalla. El funcionamiento no es siempre confiable en este momento.

Quelle: zerlo.net

Nuestra experimental Browser-AI opera únicamente con datos visuales. Cada acción se basa en lo que es visible en la pantalla. Esta es su fortaleza y su mayor limitación.

5. Hoja de Ruta Q3/Q4 2025: Desarrollo Planeado

Para el tercer y cuarto trimestre de 2025, se ha establecido una hoja de ruta clara con desarrollos planeados. Self-Play Fine-Tuning tiene prioridad para entrenar al agente de manera autónoma en sitios web sintéticos. Se implementará un Planificador de Memoria Jerárquico. Este deberá descomponer grandes objetivos en pasos manejables. El Consent-Solver utilizará un modelo especializado para reconocer y cerrar banners de cookies de manera confiable. Además, planeamos la introducción de Macros de Usuario. Estos permitirán a los usuarios guardar sus propios secuencias de clics como "Corridas de Oro". El sistema estará entrenado para esto, aumentando la eficiencia y confiabilidad.

6. Visión a Largo Plazo: El Copiloto Web Universal

Nuestra visión a largo plazo se extiende más allá de 2026. El objetivo es desarrollar un copiloto web universal. Este deberá encargarse de tareas sencillas como iniciar sesión, reservar, cancelar y pagar. Además, está planeada una integración sin fisuras con calendarios, sistemas de correo electrónico y almacenamientos de archivos. Un mercado de tareas basado en la comunidad, similar a GitHub Actions, permitirá a los usuarios compartir automatizaciones predefinidas. Para aplicaciones sensibles como la banca en línea, se prevé una ejecución local para maximizar la seguridad. El objetivo final es la navegación automatizada en segundo plano para una "experiencia sin espera", donde las interacciones web ocurren sin la participación activa del usuario.

Quelle: Zerlo.net

En la página oficial de la Browser-AI de zerlo.net puede probar el proyecto. Su interacción nos ayuda a evaluar la necesidad y a desarrollar la herramienta.

7. El Propósito del Proyecto: Una Prueba de Necesidad

La publicación de esta Browser-AI tiene principalmente un propósito: una PRUEBA DE NECESIDAD. Utilizamos este prototipo para recopilar datos válidos. Las preguntas son: ¿Cuántos usuarios se involucran? ¿Qué tareas pueden manejarse en un uso real? ¿Con qué frecuencia fallan las operaciones y por qué? Si existe una necesidad cuantificable, estamos listos para invertir significativamente en desarrollo, alojamiento, soporte y una API. De lo contrario, el proyecto seguirá siendo un prototipo de código abierto.

❝ Cada comentario, cada clic, cada informe de error nos ayuda a evaluar la necesidad y dirección de este proyecto. ❞

El equipo de AI de zerlo.net

Dando forma al futuro de la navegación

8. Colaboración y Perspectivas de la Browser-AI

Su contribución es importante. Pruebe nuestra Browser-AI activamente en su día a día. Permita que realice tareas y reporte errores. Díganos qué tareas debería realizar la IA. Sus experiencias son la base para que este proyecto supere el estado de prototipo. Visite zerlo.net/es/browser-ai para participar.