Zerlo.net Browser-AI: Detalhes Técnicos
Este artigo de blog explica o funcionamento da Browser-AI experimental da zerlo.net. Ele descreve o estado atual de desenvolvimento e a direção futura como um teste de necessidade.
1. Introdução: Transparência sobre a Browser-AI
O termo "IA" é amplamente utilizado. Perguntas sobre os detalhes técnicos são pertinentes. Mantemos alta transparência em relação à nossa Browser-AI experimental. Este artigo explica o protótipo: sua função, limitações atuais e objetivos de desenvolvimento. O projeto serve principalmente como um teste de necessidade. Apresentamos os fatos, sem linguagem de marketing.
2. Arquitetura Técnica da Browser-AI
Nossa Browser-AI consiste em várias componentes. Elas operam em contêineres Docker isolados sob Kubernetes. A camada de Captura de Tela utiliza um Chromium instrumentado. Este gera a cada 1–2 segundos uma captura PNG do viewport do navegador. Dados visuais são enviados para um Codificador de Visão especializado. Este é um híbrido ResNet, treinado em patches 224x224. Ele identifica elementos visuais como botões, textos e campos de entrada. Um Controlador LLM, um derivado do GPT com janela de contexto de 10.000 tokens, planeja ações (clique, entrada, rolagem) baseadas nas informações visuais. O Executor de Ações executa essas ações usando o Puppeteer, incluindo lógica de tentativa. Em seguida, solicita novas capturas de tela. Um Armazenamento de Memória com LiteFS e Redis salva o histórico e o estado do sistema. Um Guardião de Custos limita o uso de tokens a no máximo 12.000 tokens por ação. Isso reduz o custo por ação para aproximadamente 0,0001 dólares (Open Weights). A latência média por ação é de cerca de 600 milissegundos.
3. Estado Atual de Desenvolvimento e Taxas de Sucesso (Julho 2025)
A Browser-AI em julho de 2025 é um protótipo avançado. As taxas de sucesso variam de acordo com a tarefa. Tarefas de login com preenchimento de dois campos alcançam cerca de 75% de taxa de sucesso. Desafios incluem captchas, 2FA ou redirecionamentos de login. Formulários de newsletter são preenchidos aproximadamente em 68% dos casos; campos honeypot podem atrapalhar aqui. Um download de PDF através de uma cadeia de cliques está em 55%. Aqui, o reconhecimento de caminho tem lacunas. Na comparação de preços em três lojas, a taxa de sucesso está em cerca de 40%. Banners de cookies e estruturas de lojas variáveis são os principais problemas. Essas taxas referem-se à execução sem erros sem correção manual. Normalmente são necessários três a cinco tentativas para uma execução estável da tarefa.
4. Razões para o Caráter Experimental
O caráter experimental da Browser-AI é fundamentado na complexidade da internet. As constantes mudanças nas estruturas DOM (classes, IDs) são um desafio. Nosso Codificador de Visão é compacto, o que pode prejudicar a detecção precisa de botões muito pequenos. Uma única ação pode exigir até 20 chamadas LLM para planejamento e segurança. Casos especiais como Shadow DOMs, iframes e modais são comuns e requerem tratamento específico. Como a ferramenta se baseia apenas em capturas de tela, ela toma decisões apenas no viewport visível. Isso se assemelha a uma pessoa que opera na web apenas através de capturas de tela. O funcionamento atualmente não é sempre confiável.

Quelle: zerlo.net
Nossa Browser-AI experimental opera apenas com dados visuais. Cada ação é baseada no que está visível na tela. Esta é sua força e sua maior limitação.
5. Roteiro Q3/Q4 2025: Desenvolvimentos Planejados
Para o terceiro e quarto trimestre de 2025, um roteiro claro com desenvolvimentos planejados está estabelecido. Aprimoramento por Self-Play tem prioridade, para treinar o agente de forma autônoma em sites sintéticos. Um Planejador de Memória Hierárquico será implementado. Ele deve ser capaz de dividir grandes objetivos em passos gerenciáveis. O Resolução de Consentimento será confiavelmente reconhecido e fechado por um modelo especializado de banners de cookies. Além disso, planejamos a introdução de Macros de Usuário. Elas permitem que os usuários salvem seus próprios fluxos de clique como "Runs de Ouro". O sistema será treinado nisso para aumentar eficiência e confiabilidade.
6. Visão de Longo Prazo: O Copiloto Web Universal
Nossa visão de longo prazo vai além de 2026. O objetivo é desenvolver um copiloto web universal. Este deve assumir tarefas simples como login, reserva, cancelamento e pagamento. Além disso, uma integração contínua com calendários, sistemas de e-mail e armazenamento de arquivos está planejada. Um mercado de tarefas baseado na comunidade, similar ao GitHub Actions, permitirá aos usuários compartilhar automações pré-fabricadas. Para aplicações sensíveis como banking online, a execução local está prevista para maximizar a segurança. O objetivo final é a navegação automatizada em segundo plano para uma "experiência sem espera", onde as interações web ocorrem sem a participação ativa do usuário.
Quelle: Zerlo.net
Na página oficial da Browser-AI zerlo.net, você pode testar o projeto. Sua interação nos ajuda a avaliar a necessidade e a desenvolver ainda mais a ferramenta.
7. Propósito do Projeto: Um Teste de Necessidade
A publicação desta Browser-AI serve principalmente a um propósito: um TESTE DE NECESSIDADE. Usamos este protótipo para coletar dados válidos. Perguntas são: Quantos usuários se envolvem? Quais tarefas podem ser realizadas no uso real? Com que frequência operações falham e por quê? Se houver uma necessidade quantificável, estamos prontos para investir significativamente em desenvolvimento, hospedagem, suporte e uma API. Caso contrário, o projeto permanecerá um protótipo de código aberto.
❝ Cada feedback, cada clique, cada relatório de erro nos ajuda a avaliar a necessidade e a direção deste projeto. ❞
Moldando o futuro da navegação
8. Ajuda e Perspectivas da Browser-AI
Sua contribuição é importante. Teste nossa Browser-AI ativamente no dia a dia. Deixe-a realizar tarefas e reporte erros. Informe-nos quais tarefas a IA deve realizar. Suas experiências são a base para saber se este projeto vai além do status de protótipo. Visite zerlo.net/de/browser-ai para participar.