Zerlo.net Browser-ИИ: Технические детали
В этой блочной статье объясняется, как работает экспериментальный Browser-ИИ от Zerlo.net. Описывается текущий уровень разработки и будущее направление в качестве теста спроса.
1. Введение: Прозрачность в Browser-ИИ
Термин "ИИ" широко распространен. Вопросы о технических деталях вполне обоснованы. Мы стремимся к высокой прозрачности в отношении нашего экспериментального Browser-ИИ. В этой статье объясняется прототип: его функции, текущие ограничения и цели развития. Проект в первую очередь служит тестом спроса. Мы представляем факты без маркетингового языка.
2. Техническая архитектура Browser-ИИ
Наш Browser-ИИ состоит из нескольких компонентов. Они работают в изолированных контейнерах Docker под управлением Kubernetes. Уровень Screenshot Capture использует инструментированный Chromium. Он создает PNG-скриншот области просмотра браузера каждые 1–2 секунды. Визуальные данные направляются в специализированный Vision-Encoder. Это гибрид ResNet, обученный на патчах 224x224. Он распознает визуальные элементы, такие как кнопки, тексты и поля ввода. LLM-Controller, производное GPT с окном контекста в 10 000 токенов, планирует действия (нажатие, ввод, прокрутка) на основе визуальной информации. Action Runner выполняет эти действия с помощью Puppeteer, включая логику повторов. Затем он запрашивает новые скриншоты. Memory Store с LiteFS и Redis сохраняет историю и состояние системы. Cost Guardrail ограничивает использование токенов до 12 000 токенов на действие. Это сокращает стоимость за действие примерно до 0,0001 доллара США (Open Weights). Средняя задержка на действие составляет около 600 миллисекунд.
3. Текущий уровень разработки и коэффициенты успеха (июль 2025)
Browser-ИИ в июле 2025 года является продвинутым прототипом. Коэффициенты успеха варьируются в зависимости от задачи. Задачи входа с заполнением двух полей достигают примерно 75% успеха. Проблемы возникают с Captcha, двухфакторной аутентификацией или перенаправлениями при входе. Формы подписки на рассылку заполняются примерно в 68% случаев; поля-ловушки могут помешать этому. Скачивание PDF через цепочку кликов достигает 55%. Здесь распознавание пути имеет недостатки. Сравнение цен в трех магазинах имеет коэффициент успеха около 40%. Основными проблемами являются баннеры с куки и переменные структуры магазинов. Эти коэффициенты относятся к безошибочному выполнению без ручной коррекции. Обычно требуется три-пять попыток для стабильного выполнения задачи.
4. Причины экспериментального характера
Экспериментальный характер Browser-ИИ обусловлен сложностью интернета. Постоянные изменения структур DOM (классы, ID) представляют собой вызов. Наш Vision-Encoder компактен, что может снижать точность распознавания очень маленьких кнопок. Одно действие может требовать до 20 вызовов LLM для планирования и безопасности. Специальные случаи, такие как Shadow-DOM, iframe и модальные окна, часты и требуют специфического подхода. Поскольку инструмент работает только на основе скриншотов, он принимает решения только на видимой области просмотра. Это похоже на человека, который взаимодействует с вебом только через скриншоты. В настоящее время функциональность не всегда надежна.

Quelle: zerlo.net
Наш экспериментальный Browser-ИИ работает исключительно с визуальными данными. Каждое действие основано на том, что видно на экране. Это его сила и самое большое ограничение.
5. Дорожная карта Q3/Q4 2025: Планируемые усовершенствования
Для третьего и четвертого кварталов 2025 года установлена четкая дорожная карта с планируемыми усовершенствованиями. Self-Play Fine-Tuning имеет приоритет для автономного обучения агента на синтетических веб-сайтах. Будет реализован Иерархический Memory-Planner. Он должен разбивать большие цели на управляемые шаги. Consent-Solver будет надежно распознавать и закрывать баннеры с куки с помощью специальной модели. Кроме того, мы планируем внедрение User Macros. Они позволяют пользователям сохранять собственные последовательности кликов как "Gold-Runs". Система будет обучена этому для повышения эффективности и надежности.
6. Долгосрочное видение: Универсальный веб-ко-пилот
Наше долгосрочное видение выходит за пределы 2026 года. Цель — разработка универсального веб-ко-пилота. Он должен выполнять простые задачи, такие как вход в систему, бронирование, отмена и оплата. Также планируется бесшовная интеграция с календарями, системами электронной почты и файловыми хранилищами. Маркетплейс задач на основе сообщества, аналогичный GitHub Actions, позволит пользователям делиться готовыми автоматизациями. Для чувствительных приложений, таких как онлайн-банкинг, предусмотрено локальное выполнение для максимальной безопасности. Конечной целью является автоматизированный просмотр веб-сайтов в фоновом режиме для достижения опыта "zero-wait", при котором веб-взаимодействия происходят без активного участия пользователя.
Quelle: Zerlo.net
На официальной странице Browser-ИИ от Zerlo.net вы можете протестировать проект. Ваше взаимодействие помогает нам оценить спрос и развивать инструмент.
7. Цель проекта: Тест спроса
Публикация этого Browser-ИИ служит в первую очередь одной цели: ТЕСТУ СПРОСА. Мы используем этот прототип для сбора валидных данных. Вопросы: Сколько пользователей участвуют? Какие задачи можно выполнить в реальном использовании? Как часто операции неудачны и почему? Если существует количественно измеримый спрос, мы готовы значительно инвестировать в разработку, хостинг, поддержку и API. В противном случае проект останется открытым прототипом.
❝ Каждый отзыв, каждый клик, каждая отчет об ошибке помогает нам оценить необходимость и направление этого проекта. ❞
Формируйте будущее веб-серфинга вместе с нами
8. Помощь и перспективы Browser-ИИ
Ваш вклад важен. Активно тестируйте наш Browser-ИИ в повседневной жизни. Позвольте выполнять задачи и сообщайте об ошибках. Сообщите нам, какие задачи ИИ должен выполнять. Ваш опыт является основой для того, чтобы этот проект вышел за пределы статуса прототипа. Посетите zerlo.net/de/browser-ai, чтобы принять участие.