LLMs locales para código: recomendaciones principales

Lisa Ernst · 06.10.2025 · Técnica · 5 min

Esta visión general describe los LLMs locales de código actuales, que pueden ejecutarse en hardware propio sin conexión a la nube. Lo crucial son benchmarks verificables, requisitos de hardware (VRAM/RAM) y características como Code-Infilling. Resumimos la situación y mostramos qué modelo se adapta a qué máquina.

Introducción y fundamentos

Por 'local' entendemos el funcionamiento completo de un modelo en hardware propio, por ejemplo mediante entornos de ejecución como Ollama o directamente a través de llama.cpp/vLLM. Ollama Permite un pull/ejeción sencillo, incluso con cuantización. Quantisierung (p. ej. GGUF Q4_K_M) reduce notablemente la necesidad de memoria, normalmente con una pérdida de calidad moderada.

Para la aplicación práctica, los siguientes aspectos son importantes:

Infilling/Relleno: Relleno específico de huecos en el código, soportado por modelos como StarCoder2 y CodeGemma.
Ventana de contexto: La capacidad de incluir archivos o proyectos más largos. Qwen2.5-Coder aquí ofrece hasta 128K tokens.
Presupuesto de ejecución: Cifras aproximadas para Ollama son: los modelos de 7B requieren al menos 8 GB de RAM/VRAM, los de 13B 16 GB y los de 70B 64 GB.

La motivación para operar localmente reside en la privacidad, la reproducibilidad, el trabajo offline y el control de costos. Proveedores como BigCode/Hugging Face, Alibaba/Qwen y DeepSeek aceleran el ritmo y la transparencia. Herramientas como Ollama bajan las barreras de entrada mediante simple pull/Run y cuantización (GGUF/4-bit). Extensiones como Continue integran modelos locales directamente en VS Code/JetBrains.

Quelle: YouTube

Estado actual y modelos

Desde 2024 ha habido desarrollos significativos en el ámbito de los LLMs locales de código:

StarCoder2 (3B/7B/15B): Este modelo introdujo entrenamiento FIM en The Stack v2 y una ventana de contexto de 16K. La variante de 15B übertrifft modelos de tamaño similar en muchas métricas, como en dieser Veröffentlichung descrito.
Qwen2.5-Coder (0.5B–32B): Informa resultados de vanguardia (SOTA) en benchmarks de código abiertos. La variante Instruct de 32B apunta explícitamente a 'SOTA de código abierto' en EvalPlus, LiveCodeBench y BigCodeBench.
DeepSeek-Coder-V2: Presenta un diseño MoE. La versión V2-Lite (16B, activo 2.4B) ofrece 128K de contexto y está diseñada para uso local. La variante V2 más grande (236B, activo 21B) lidera muchos benchmarks de código, pero no es adecuada para hardware de consumo.
CodeGemma (2B/7B): Se enfoca en un Infilling eficiente. La variante 7B está bien documentada, incluyendo configuración de 4 bits y tokens de FIM.

Para comparaciones justas se están estableciendo benchmarks con baja contaminación como LiveCodeBench (dinámicos) EvalPlus (HumanEval+/MBPP+). Hugging Face proporciona más información al respecto.

Los mejores LLMs locales para la programación: una visión general.

Quelle: nutstudio.imyfone.com

Una representación visual de los mejores LLMs locales para la programación.

Aplicación práctica e integración

La selección del modelo adecuado depende en gran medida del hardware disponible y de la tarea prevista:

Portátil/8–12 GB VRAM: Qwen2.5-Coder-7B o CodeGemma-7B. Estos modelos ofrecen un Infilling fuerte y baja latencia, especialmente en funcionamiento de 4 bits.
16 GB VRAM: StarCoder2-15B-Instruct o DeepSeek-Coder-V2-Lite (16B aktiv 2.4B). Un buen equilibrio entre calidad y velocidad.
24 GB+ VRAM: Qwen2.5-Coder-32B-Instruct. Este modelo es abierto, potente y ofrece una gran ventana de contexto.
Solo CPU / iGPU pequeña: Gemma/CodeGemma o más pequeñas Qwen-Coder Varianten. Google demuestra explícitamente la ejecución en CPU con Ollama.

Para la práctica, se recomienda la integración IDE con Continue (VS Code/JetBrains) en combinación con un Ollama-Server. Es recomendable usar Infilling de forma activa, en lugar de solo chatear, y realizar comparaciones A/B con EvalPlus - o LiveCodeBench-Problemen para realizarse en tu dominio.

Quelle: YouTube

Análisis y evaluación

Los fabricantes a menudo destacan 'open SOTA' (Qwen) o 'best-in-class' (StarCoder2), lo cual está parcialmente respaldado por benchmarks, pero también implica aspectos de marketing. Una mirada a mehrere Quellen es por ello recomendable. La comunidad informa experiencias mixtas: mientras que algunos setups locales celebran, otros reportan calidad variable en tareas de edición, a menudo condicionada por prompting, contextos e integración del editor, como hier se discute.

Verificación de hechos: evidencias vs. afirmaciones

Demostrado:
- 7B/13B/70B Las pautas generales de RAM para Ollama están ampliamente confirmadas en la práctica.
- StarCoder2 ofrece entrenamiento FIM, contexto de 16K y fuertes resultados de 15B en comparación con modelos de tamaño similar (Quelle).
- Qwen2.5-Coder 32B-Instruct Reclama SOTA en benchmarks de código abiertos y cubre tamaños de 0.5B a 32B, con hasta 128K de contexto.
- DeepSeek-Coder-V2-Lite: MoE con 16B (activo 2.4B), 128K contexto. La gran variante V2 muestra valores de código muy altos en benchmarks, pero no es adecuada para hardware de consumo.
- CodeGemma 7B: Los tokens FIM están documentados; la operación en 4 bits es posible con alrededor de 9 GB.
Incierto/con matiz:
- "1 GB VRAM por cada mil millones de parámetros" es un valor orientativo de la comunidad, que varía mucho con la cuantización, la longitud de contexto y el offload. La documentación del modelo/runner es más precisa ( Qwen, Ollama).
Falso/Engañoso:
- "La cuantización hace que los modelos sean inutilizables." En muchos flujos de trabajo de codificación, 4 bits es un buen compromiso. Las pérdidas de calidad dependen del modelo, la tarea y la longitud de contexto ( CodeGemma, Qwen).

Comparación de rendimiento de varios modelos LLM para tareas de codificación.

Quelle: pieces.app

Un diagrama que compara el rendimiento de varios modelos LLM en el ámbito de la codificación.

Conclusiones y perspectivas

Para buscar el 'mejor LLM local para Code' hay opciones reales hoy. Para 24 GB+ VRAM es Qwen2.5-Coder-32B-Instruct la primera dirección entre los modelos abiertos. Con 16 GB VRAM, ofrece StarCoder2-15B-Instruct un Infilling muy fluido y rendimiento estable. En el segmento 7B se encuentran Qwen2.5-Coder-7B y CodeGemma-7B opciones pragmáticas: rápidas, eficientes y bien documentadas. DeepSeek-Coder-V2-Lite destaca por la eficiencia MoE y un gran contexto, siempre que se cuantifique e integre correctamente.

Análisis de utilidad

Ponderación: rendimiento 60 %, adaptación de recursos locales 20 %, características IDE/FIM+contexto 10 %, licencia 10 %. Las estimaciones de rendimiento se basan en benchmarks citados/documentos de modelos.

Qwen2.5-Coder-32B-Instruct: 8.4/10 – El rendimiento abierto más alto, gran ventana de contexto; requiere más VRAM, pero es fuerte para tareas complejas.
Qwen2.5-Coder-14B-Instruct: 8.4/10 – Muy buena relación precio/rendimiento, de amplia aplicabilidad, licencia Apache-2.0.
DeepSeek-Coder-V2-Lite (16B, aktiv 2.4B): 8.0/10 – MoE eficiente, 128K de contexto; utilizable fuertemente cuantizado.
StarCoder2-15B-Instruct: 7.9/10 – FIM fuerte, 16K contexto, entrenamiento transparente; robusto para edición/completación.
Qwen2.5-Coder-7B-Instruct: 8.0/10 – Móvil/portátil apto, buena calidad con baja latencia; ideal para ediciones en línea.
CodeGemma-7B: 7.5/10 – Esbelto, FIM muy ordenado, buena documentación/configuraciones; fuerte para autocompletado rápido.

Quien quiera empezar hoy, instala Ollama, descarga Qwen2.5-Coder-7B o StarCoder2-15B, activa Continue en VS Code y utiliza Infilling de forma consciente. Así se beneficia de inmediato, sin atarse a un proveedor de nube.

Preguntas abiertas

La robustez de la calidad de código a través de diferentes lenguajes de programación y frameworks sigue siendo una pregunta abierta. Benchmarks dinámicos abordan fugas de datos, pero no constituyen una garantía completa ( LiveCodeBench, Hugging Face). ¿Qué métricas se correlacionan más fuertemente con la verdadera productividad en el editor (edición/reformulación/contexto de repositorio)? Aider Publica benchmarks de edición/reformulación, pero aún falta estandarización. Para hardware local quedan preguntas sobre la configuración óptima de cuantización/offload; aquí ayudan las guías de runners y tus propios microbenchmarks ( Qwen, Ollama).

Quelle: openxcell.com

Una representación de la integración de LLMs en el proceso de desarrollo.