Zerlo.net Browser-IA: Dettagli Tecnici

Questo articolo del blog spiega il funzionamento dell'IA del browser di zerlo.net sperimentale. Descrive lo stato attuale dello sviluppo e la futura direzione come test di necessità.

Avatar
Team Zerlo · 13.07.2025 · Sviluppo di Intelligenza Artificiale · 5 min

1. Introduzione: Trasparenza sull'IA del Browser

Il termine "IA" è ampiamente utilizzato. Le domande sui dettagli tecnici sono legittime. Perseguiamo un'alta trasparenza riguardo alla nostra sperimentale IA del browser. Questo articolo spiega il prototipo: la sua funzione, le limitazioni attuali e gli obiettivi di sviluppo. Il progetto serve principalmente come test di necessità. Presentiamo i fatti, senza linguaggio di marketing.

2. Architettura Tecnica dell'IA del Browser

La nostra IA del browser è composta da diverse componenti. Queste operano in contenitori Docker isolati sotto Kubernetes. Il livello di Screenshot Capture utilizza un Chromium strumentato. Questo genera ogni 1–2 secondi uno screenshot PNG del viewport del browser. I dati visivi vengono inviati a un Vision-Encoder specializzato. Si tratta di un ibrido ResNet, addestrato su patch 224x224. Identifica elementi visivi come pulsanti, testi e campi di input. Un LLM-Controller, un derivato di GPT con una finestra di contesto di 10.000 token, pianifica azioni (clic, input, scorrimento) basate sulle informazioni visive. L'Action Runner esegue queste azioni utilizzando Puppeteer, inclusa la logica di retry. Successivamente, richiede nuovi screenshot. Un Memory Store con LiteFS e Redis memorizza la cronologia e lo stato del sistema. Un Cost Guardrail limita l'uso dei token a un massimo di 12.000 token per azione. Questo riduce il costo per azione a circa 0,0001 dollari USA (Open Weights). La latenza media per azione è di circa 600 millisecondi.

3. Stato Attuale dello Sviluppo e Tassi di Successo (Luglio 2025)

L'IA del browser a luglio 2025 è un prototipo avanzato. I tassi di successo variano a seconda del compito. I compiti di login con estrazione di due campi raggiungono circa il 75% di successo. Le sfide includono Captcha, 2FA o reindirizzamenti di login. I moduli di newsletter vengono compilati in circa il 68% dei casi; i campi Honeypot possono interferire. Un download PDF tramite una catena di clic si attesta al 55%. Qui il riconoscimento del percorso presenta lacune. Nel confronto dei prezzi su tre negozi, il tasso di successo è di circa il 40%. I banner dei cookie e le strutture variabili dei negozi sono i principali problemi. Questi tassi si riferiscono all'esecuzione senza errori senza correzione manuale. Tipicamente, sono necessari tre o cinque tentativi per un'esecuzione stabile del task.

4. Motivi per il Carattere Sperimentale

Il carattere sperimentale dell'IA del browser è dovuto alla complessità di Internet. Il continuo cambiamento delle strutture DOM (classi, ID) rappresenta una sfida. Il nostro Vision-Encoder è compatto, il che può compromettere il riconoscimento preciso di pulsanti molto piccoli. Una singola azione può richiedere fino a 20 chiamate LLM per pianificazione e sicurezza. Casi speciali come Shadow DOM, iframe e modali sono comuni e richiedono trattamenti specifici. Poiché lo strumento si basa solo sugli screenshot, prende decisioni solo sul viewport visibile. Questo è simile a una persona che utilizza il web solo tramite screenshot. Il funzionamento non è sempre affidabile al momento.

Illustrazione dell'IA del browser in azione

Quelle: zerlo.net

La nostra IA del browser sperimentale opera esclusivamente su dati visivi. Ogni azione si basa su ciò che è visibile sullo schermo. Questa è la sua forza e la sua maggiore limitazione.

5. Roadmap Q3/Q4 2025: Sviluppi Pianificati

Per il terzo e quarto trimestre del 2025 è stata definita una chiara roadmap con sviluppi pianificati. Il Self-Play Fine-Tuning ha la priorità per addestrare autonomamente l'agente su siti web sintetici. Verrà implementato un Hierarchical Memory Planner. Esso deve essere in grado di suddividere grandi obiettivi in passaggi gestibili. Il Consent-Solver riconoscerà e chiuderà i banner dei cookie in modo affidabile tramite un modello specializzato. Inoltre, prevediamo l'introduzione di User Macros. Questi permettono agli utenti di salvare propri flussi di clic come "Gold-Runs". Il sistema sarà addestrato su questo per aumentare l'efficienza e l'affidabilità.

6. Visione a Lungo Termine: Il Copilota Universale del Web

La nostra visione a lungo termine va oltre il 2026. L'obiettivo è sviluppare un copilota universale per il web. Questo dovrà gestire compiti semplici come login, prenotazioni, cancellazioni e pagamenti. Inoltre, è prevista un'integrazione senza soluzione di continuità con calendari, sistemi email e archivi di file. Un marketplace di task basato sulla community, simile a GitHub Actions, permetterà agli utenti di condividere automazioni predefinite. Per applicazioni sensibili come l'online banking, è prevista l'esecuzione locale per massimizzare la sicurezza. L'obiettivo finale è il browsing automatizzato in background per un'esperienza "zero-wait", dove le interazioni web avvengono senza la partecipazione attiva dell'utente.

Quelle: Zerlo.net

Sulla pagina ufficiale dell'IA del browser di zerlo.net puoi testare il progetto. La tua interazione ci aiuta a valutare la necessità e a sviluppare ulteriormente lo strumento.

7. Lo Scopo del Progetto: Un Test di Necessità

La pubblicazione di questa IA del browser serve principalmente a uno scopo: un TEST DI NECESSITÀ. Usiamo questo prototipo per raccogliere dati validi. Le domande sono: quanti utenti sono coinvolti? Quali compiti possono essere gestiti nell'uso reale? Quante operazioni falliscono e perché? Se esiste una necessità quantificabile, siamo pronti a investire significativamente in sviluppo, hosting, supporto e un'API. Altrimenti, il progetto rimane un prototipo open source.

Ogni feedback, ogni clic, ogni segnalazione di errore ci aiuta a valutare la necessità e la direzione di questo progetto.
Il team AI di zerlo.net
Il team AI di zerlo.net
Contribuisci a plasmare il futuro del browsing

8. Supporto e Prospettive dell\'IA del Browser

Il tuo contributo è importante. Testa attivamente la nostra IA del browser nella vita quotidiana. Lascia che esegua i compiti e segnala gli errori. Facci sapere quali compiti l'IA dovrebbe svolgere. Le tue esperienze sono la base per determinare se questo progetto oltrepasserà lo stato di prototipo. Visita zerlo.net/it/browser-ai per partecipare.

Teilen Sie doch unseren Beitrag!