Zerlo.net Browser-AI: التفاصيل التقنية
توضح هذه المقالة في المدونة طريقة عمل Browser-AI من zerlo.net التجريبية. تصف الحالة الحالية للتطوير والتوجه المستقبلي كاختبار للحاجة.
1. مقدمة: الشفافية في Browser-AI
مصطلح "الذكاء الاصطناعي" منتشر على نطاق واسع. الأسئلة حول التفاصيل التقنية مبررة. نحن نسعى لتحقيق شفافية عالية فيما يتعلق بـ Browser-AI التجريبية الخاصة بنا. تشرح هذه المقالة النموذج الأولي: وظيفته، القيود الحالية، وأهداف التطوير. المشروع يخدم بشكل أساسي كاختبار للحاجة. نقدم الحقائق بدون لغة تسويقية.
2. الهيكلية التقنية لـ Browser-AI
يتكون Browser-AI الخاص بنا من عدة مكونات. تعمل هذه المكونات في حاويات Docker معزولة تحت Kubernetes. تستخدم طبقة Screenshot Capture متصفح Chromium مجهز. يقوم هذا بإنشاء لقطة شاشة PNG لمنطقة عرض المتصفح كل 1-2 ثانية. تذهب البيانات البصرية إلى Vision-Encoder متخصص. هذا مزيج ResNet مدرب على قطع 224x224. يحدد العناصر البصرية مثل الأزرار، النصوص، وحقول الإدخال. يقوم LLM-Controller، وهو نسخة مشتقة من GPT مع نافذة سياق تصل إلى 10,000 توكن، بتخطيط الإجراءات (نقر، إدخال، تمرير) بناءً على المعلومات البصرية. يقوم Action Runner بتنفيذ هذه الإجراءات باستخدام Puppeteer، بما في ذلك منطق الإعادة المحاولة. بعد ذلك، يطلب لقطات شاشة جديدة. يخزن Memory Store مع LiteFS و Redis التاريخ وحالة النظام. يحدد Cost Guardrail استخدام التوكنات بحد أقصى 12,000 توكن لكل إجراء. هذا يقلل التكلفة لكل إجراء إلى حوالي 0.0001 دولار أمريكي (Open Weights). متوسط الكمون لكل إجراء حوالي 600 ميلي ثانية.
3. الحالة الحالية للتطوير ونسب النجاح (يوليو 2025)
في يوليو 2025، تعتبر Browser-AI نموذجًا أوليًا متقدمًا. تختلف نسب النجاح حسب نوع المهمة. المهام المتعلقة بتسجيل الدخول التي تشمل قراءة حقلين تحقق معدل نجاح يبلغ حوالي 75%. التحديات تشمل رموز Captcha، المصادقة الثنائية (2FA)، أو إعادة توجيه تسجيل الدخول. يتم ملء نماذج الاشتراك في النشرات البريدية في حوالي 68% من الحالات؛ قد تعيق حقول Honeypot ذلك. تنزيل ملف PDF عبر سلسلة نقرات يبلغ معدل النجاح حوالي 55%. هنا توجد ثغرات في اكتشاف المسار. مقارنة الأسعار عبر ثلاثة متاجر تبلغ نسبة النجاح حوالي 40%. مشكلات رئيسية تشمل لافتات ملفات تعريف الارتباط وهياكل المتاجر المتغيرة. هذه النسب تشير إلى التنفيذ الخالي من الأخطاء دون تصحيح يدوي. عادةً ما تكون هناك ثلاث إلى خمس محاولات لتنفيذ المهمة بثبات.
4. أسباب الطابع التجريبي
يرجع الطابع التجريبي لـ Browser-AI إلى تعقيد الإنترنت. التغييرات المستمرة في هياكل DOM (الفئات، المعرفات) تشكل تحديًا. محلل الرؤية الخاص بنا مدمج، مما قد يؤثر على الدقة في التعرف على الأزرار الصغيرة جدًا. قد يتطلب الإجراء الفردي ما يصل إلى 20 استدعاء LLM للتخطيط والأمان. الحالات الخاصة مثل Shadow-DOMs، iframes، والنوافذ المنبثقة شائعة وتتطلب معالجة محددة. نظرًا لأن الأداة تعتمد فقط على لقطات الشاشة، فهي تتخذ القرارات بناءً على منطقة العرض المرئية فقط. هذا يشبه الإنسان الذي يتصفح الويب باستخدام لقطات الشاشة فقط. طريقة العمل ليست دائمًا موثوقة حاليًا.

Quelle: zerlo.net
تعمل Browser-AI التجريبية الخاصة بنا فقط على البيانات البصرية. كل إجراء يعتمد على ما هو مرئي على الشاشة. هذه هي قوتها وأكبر قيودها.
5. خارطة الطريق للربع الثالث والرابع من 2025: التطويرات المخطط لها
تم تحديد خارطة طريق واضحة للربعين الثالث والرابع من عام 2025 مع تطورات مستقبلة. Self-Play Fine-Tuning هي الأولوية، لتدريب الوكيل بشكل مستقل على مواقع ويب اصطناعية. سيتم تنفيذ Hierarchical Memory Planner. يهدف هذا إلى تقسيم الأهداف الكبيرة إلى خطوات قابلة للإدارة. سيتم تحسين Consent-Solver بواسطة نموذج متخصص للتعرف بشكل موثوق على لافتات ملفات تعريف الارتباط وإغلاقها. بالإضافة إلى ذلك، نخطط لإدخال User Macros. تمكن هذه المستخدمين من حفظ مسارات نقراتهم الخاصة كـ "Gold-Runs". يجب أن يتدرب النظام على ذلك لزيادة الكفاءة والموثوقية.
6. الرؤية طويلة الأمد: المساعد الشامل للويب
تتجاوز رؤيتنا طويلة الأمد عام 2026. الهدف هو تطوير مساعد شامل للويب. يجب أن يتولى مهامًا بسيطة مثل تسجيل الدخول، الحجز، الإلغاء، والدفع. بالإضافة إلى ذلك، يتم التخطيط لتكامل سلس مع التقويم وأنظمة البريد الإلكتروني وتخزين الملفات. سيكون هناك سوق للمهام قائماً على المجتمع، مشابه لـ GitHub Actions، يمكّن المستخدمين من مشاركة الأتمتة المسبقة الصنع. للتطبيقات الحساسة مثل الخدمات المصرفية عبر الإنترنت، من المخطط التنفيذ المحلي لتعظيم الأمان. الهدف النهائي هو التصفح الآلي في الخلفية من أجل تجربة "بدون انتظار"، حيث تتم تفاعلات الويب بدون مشاركة نشطة من المستخدم.
Quelle: Zerlo.net
يمكنك اختبار المشروع على الصفحة الرسمية لـ Browser-AI من zerlo.net. مساعدتك في التفاعل يساعدنا في تقييم الحاجة وتطوير الأداة بشكل أكبر.
7. غرض المشروع: اختبار الحاجة
يخدم إصدار Browser-AI هذا غرضًا أساسيًا: اختبار الحاجة. نستخدم هذا النموذج الأولي لجمع بيانات صالحة. الأسئلة هي: كم عدد المستخدمين الذين يشاركون؟ ما هي المهام التي يمكن إنجازها في الاستخدام الفعلي؟ كم عدد العمليات التي تفشل، ولماذا؟ إذا كانت هناك حاجة قابلة للقياس، نحن مستعدون للاستثمار بشكل كبير في التطوير، الاستضافة، الدعم، وواجهة برمجة التطبيقات (API). وإلا، سيظل المشروع نموذجًا مفتوح المصدر.
❝ كل ملاحظات، كل نقرة، كل تقرير خطأ يساعدنا في تقييم ضرورة واتجاه هذا المشروع. ❞
تشكيل مستقبل التصفح
8. المساعدة ونظرة مستقبلية لـ Browser-AI
مساهمتك هامة. اختبر Browser-AI الخاص بنا بشكل نشط في حياتك اليومية. دع الأداة تقوم بالمهام وأبلغ عن الأخطاء. أخبرنا بالمهام التي ترغب في أن تقوم بها الذكاء الاصطناعي. تجاربك هي الأساس لتحديد ما إذا كان هذا المشروع سيتجاوز حالة النموذج الأولي. قم بزيارة zerlo.net/ar/browser-ai للمشاركة.