نماذج LLM محلية للشفرة: أفضل التوصيات

Lisa Ernst · 06.10.2025 · التقنية · 5 دقائق

هذا الاستعراض يسلط الضوء على LLMs محلية للشفرة الحالية التي يمكن تشغيلها على أجهزة خاصة بدون اتصال بالسحابة. المعايير الحاسمة هي اختبارات الأداء القابلة للإثبات، ومتطلبات الأجهزة (VRAM/RAM)، وميزات مثل إكمال الشفرة. نحن نلخّص الوضع ونبيّن أي نموذج يناسب أي جهاز.

مقدمة وأساسيات

نقصد بـ«محلي» تشغيل نموذج كامل على جهازك الخاص، على سبيل المثال عبر أدوات تشغيل مثل Ollama أو مباشرة عبر llama.cpp/vLLM. Ollama يسهّل سحب/تشغيل، حتى مع التكميم. Quantisierung (على سبيل المثال GGUF Q4_K_M) يُقلل بشكل كبير من احتياج الذاكرة، عادةً مع فقدان جودة متوسط.

وللإستخدام العملي، تكون الجوانب التالية مهمة:

إكمال الفراغات (FIM): إملاء موجه للثغرات في الشفرة، مدعوم من نماذج مثل StarCoder2 و CodeGemma.
نافذة السياق: القدرة على إدراج ملفات أو مشاريع طويلة ضمن السياق. Qwen2.5-Coder يقدم هنا حتى 128 ألف رمز.
ميزانية التشغيل/الوقت: أرقام تقريبية عامة لـ Ollama : هي: نماذج 7B تحتاج على الأقل 8 جيجابايت RAM/VRAM، ونماذج 13B تحتاج 16 جيجابايت، ونماذج 70B تحتاج 64 جيجابايت.

الدافع لتشغيل محلياً يعود إلى الخصوصية، قابلية التكرار، العمل دون اتصال والتحكم في التكاليف. الشركات مثل BigCode/Hugging Face، Alibaba/Qwen وDeepSeek تزيد السرعة والشفافية. أدوات مثل Ollama تخفض عتبات الدخول عبر سحب/تشغيل بسيط وتكميم (GGUF/4-بت). امتدادات مثل Continue تدمج النماذج المحلية مباشرة في VS Code/JetBrains.

Quelle: YouTube

الوضع الحالي والنماذج

منذ عام 2024 شهدت مجالات LLMs محلية الشفرة تطورات كبيرة:

StarCoder2 (3B/7B/15B): هذا النموذج جلب تدريب FIM على The Stack v2 ونافذة سياق 16K. النسخة 15B übertrifft نماذج كبيرة مماثلة على العديد من الاختبارات، كما في dieser Veröffentlichung المذكورة.
Qwen2.5-Coder (0.5B–32B): يعلن عن نتائج state-of-the-art (SOTA) في اختبارات الشفرة المفتوحة. تستهدف النسخة 32B-Instruct-Variante بشكل صريح SOTA المفتوح عند EvalPlus, LiveCodeBench وBigCodeBench.
DeepSeek-Coder-V2: يُدخل تصميم MoE. الإصدار V2-Lite (16B، نشط 2.4B) يوفر 128K سياق ومصمَّم للاستخدام المحلي. النسخة الأكبر V2-Variante (236B، نشط 21B) تقود العديد من اختبارات الشفرة، لكنها ليست مناسبةً للعتاد الاستهلاكي.
CodeGemma (2B/7B): تركّز على الإكمال الفعّال للفراغات. النسخة 7B موثقة جيداً، بما في ذلك إعداد 4-بت وتوكنات FIM.

للمقارنات العادلة، تتبنى معايير أداء قليلة التلوّث مثل LiveCodeBench (متدرج) و EvalPlus (HumanEval+/MBPP+). Hugging Face تُقدم معلومات إضافية حول ذلك.

Quelle: nutstudio.imyfone.com

تمثيل بصري لأفضل LLM محلية للبرمةجة.

التطبيق العملي والتكامل

اختيار النموذج المناسب يعتمد بشدة على العتاد المتاح وعلى المهمة المخطط لها:

لابتوب/8–12 جيجابايت VRAM: Qwen2.5-Coder-7B أو CodeGemma-7B. هذه النماذج تقدم إكمال فراغات قويًا وبإستجابة منخفضة، خصوصاً في وضع 4-بت.
16 جيجابايت VRAM: StarCoder2-15B-Instruct أو DeepSeek-Coder-V2-Lite (16B aktiv 2.4B). توازن جيد بين الجودة والسرعة.
24 جيجابايت+ VRAM: Qwen2.5-Coder-32B-Instruct. هذا النموذج مفتوح، قوي الأداء، ويقدم نافذة سياق كبيرة.
حصرياً للمعالج المركزي/iGPU: Gemma/CodeGemma أو أصغر Qwen-Coder Varianten. تُظهر جوجل صراحةً التشغيل على المعالج المركزي باستخدام Ollama.

للعمل الفعلي، يوصى بالتكامل مع بيئة التطوير المتكاملة IDE مع Continue (VS Code/JetBrains) بالتعاون مع أداة Ollama-Server. من المستحسن استخدام الإكمال النشط للفراغات، بدلاً من مجرد المحادثة، وإجراء مقارنات A/B مع EvalPlus - أو LiveCodeBench-Problemen لمجالك الخاص.

Quelle: YouTube

التحليل والتقييم

المصنعون غالباً ما يؤكدون على «SOTA المفتوح» (Qwen) أو «best-in-class» (StarCoder2)، وهذا مدعوم جزئياً بالاختبارات، ولكنه يشمل أيضاً جوانب تسويقية. نظرة على mehrere Quellen لذلك من الحكمة أن ننظر في الأمور. المجتمع يورد تجارب متباينة: بينما يحتفل بعض الإعدادات المحلية، يشير آخرون إلى تفاوت في جودة التحرير، غالباً بسبب التوجيه والسياقات وتكامل المحرر، كما hier يُناقَش.

فحص الحقائق: الإثبات مقابل الادعاءات

مُثبت:
- 7B/13B/70B إرشادات RAM التقريبية لـ Ollama مُثبتة على نطاق واسع في الواقع العملي.
- StarCoder2 يقدم تدريب FIM، سياق 16K، ونتائج قوية لـ15B مقارنة بنماذج كبيرة مماثلة (Quelle).
- Qwen2.5-Coder 32B-Instruct يتصدر SOTA في اختبارات الشفرة المفتوحة ويغطي نطاقاً من 0.5B إلى 32B من الأحجام، حتى 128K سياق.
- DeepSeek-Coder-V2-Lite: MoE مع 16B (نشط 2.4B)، 128K سياق. الإصدار الكبير من V2 يعرض قيم كود عالية جدًا في اختبارات الشفرة، ولكنه ليس مناسباً لعتاد المستهلك.
- CodeGemma 7B: توكنات FIM موثقة، وتشغيل 4-بت ممكن تقريباً على نحو 9 جيجابايت.
غير واضح/دقيق:
- «1 جيجابايت VRAM لكل مليار بارامتر» هو معيار تقريبي من المجتمع، يتغير بشكل كبير بسبب التكميم، طول السياق والإزاحة. التوثيق الخاص بالنموذج/المشغلين أكثر دقة هنا ( Qwen, Ollama).
خاطئ/مضلل:
- «التكميم يجعل النماذج غير قابلة للاستخدام». في العديد من سير عمل الترميز، يعتبر 4-بت تسوية جيدة. تعتمد خسارة الجودة على النموذج، المهمة، وطول السياق ( CodeGemma, Qwen).

مقارنة أداء نماذج LLM المختلفة لمهام الترميز.

Quelle: pieces.app

رسم بياني يقارن أداء نماذج LLM المختلفة في مجال الترميز.

الخلاصة والتوقعات

للبحث عن أفضل LLM محلي للترميز اليوم، هناك خيارات حقيقية. فيما يخص 24 جيجابايت+ VRAM، تكون Qwen2.5-Coder-32B-Instruct هي العنوان الأول بين النماذج المفتوحة. عند 16 جيجابايت VRAM، يوفر StarCoder2-15B-Instruct إكمال فراغات دقيق وأداء مستقر. في فئة 7B، توجد Qwen2.5-Coder-7B و CodeGemma-7B خيارات عملية: سريع، اقتصادي وموثوق به جيدًا. DeepSeek-Coder-V2-Lite يتفوق بفعالية MoE وسياق كبير، بشرط أن يتم تقويمه وتكامله بشكل صحيح.

تحليل جدوى الاستخدام

الوزن: الأداء 60%، التوافق مع الموارد المحلية 20%، ميزات IDE/إكمال-الفراغ/السياق 10%، الترخيص 10%. تعتمد تقديرات الأداء على الاختبارات/وثائق النماذج المذكورة.

Qwen2.5-Coder-32B-Instruct: 8.4/10 – أعلى أداء مفتوح، نافذة سياق كبيرة؛ يتطلب VRAM إضافي، ولكنه قوي للمهام المعقدة.
Qwen2.5-Coder-14B-Instruct: 8.4/10 – نسبة سعر-أداء ممتازة، قابلة للتطبيق على نطاق واسع، رخصة Apache-2.0.
DeepSeek-Coder-V2-Lite (16B, aktiv 2.4B): 8.0/10 – MoE فعال، بسياق 128K؛ قابل للاستخدام بشكل قوي عند التكميم.
StarCoder2-15B-Instruct: 7.9/10 – قوي في FIM، بسياق 16K، وتدريب شفاف؛ متين للتحرير/الإكمال.
Qwen2.5-Coder-7B-Instruct: 8.0/10 – محمول/مناسب لللابتوب؛ جودة جيدة مع تأخير سريع؛ مثالي للتحريرات inline.
CodeGemma-7B: 7.5/10 – خَفيف، FIM ممتاز، توثيق وإعدادات جيدة؛ قوي للإكمال التلقائي السريع.

من يرغب في البدء اليوم، يقوم بتثبيت Ollama, يسحب Qwen2.5-Coder-7B أو StarCoder2-15B, يُفَعِّل Continue في VS Code ويستخدم الإكمال بالفراغات بوعي. هكذا ستستفيد فوراً، دون الارتباط بمزود سحابة.

أسئلة مفتوحة

متانة جودة الشفرة عبر لغات البرمجة وأطر العمل المختلفة تبقى مسألة مفتوحة. اختبارات المتابعة المتجددة Rolling Benchmarks تعالج مشكلة تسرب البيانات، لكنها ليست ضماناً كاملاً ( LiveCodeBench, Hugging Face). أي مقاييس ترتبط بأكبر قدر مع الإنتاجية الحقيقية في المحرر (تحرير/إعادة هيكلة/سياق المستودع)? Aider ينشر مقاييس التحرير/إعادة الهيكلة، لكن لم يتم توحيد معيار بعد. بالنسبة للأجهزة المحلية تبقى أسئلة حول إعدادات التكميم/الإزاحة المثلى، هنا تساعد أدلة Runner وأدوات القياس الدقيقة الخاصة بك. Qwen, Ollama).

Quelle: openxcell.com

عرض لتكامل LLMs في عملية التطوير.