Sam Altman sobre el uso de tokens de OpenAI y los costos de la IA
Sam Altman ha convertido el uso de tokens en uno de los temas empresariales de IA más importantes de 2026. Según informes recientes, el principal usuario interno de tokens de OpenAI está procesando ahora alrededor de 100 mil millones de tokens por mes, mientras que al menos un usuario externo supuestamente es aún mayor.
Eso importa porque los tokens no son solo un detalle técnico. Son la unidad detrás de la carga de trabajo de la IA, la latencia, la presión de la infraestructura y muchas facturas de API. Para las empresas que crean productos de IA, comprender el uso de tokens es ahora tan importante como comprender el alojamiento en la nube, las consultas a bases de datos o el tráfico de servidores.
Lo que Sam Altman dijo realmente sobre el uso de tokens de OpenAI
La cifra principal es simple: el principal usuario interno de tokens de OpenAI consume supuestamente alrededor de 100 mil millones de tokens por mes. Altman también comparó esa cifra con la era temprana de OpenAI, cuando alrededor de 100,000 tokens por mes se consideraba un nivel de uso muy alto.
Esto muestra cómo el uso de la IA ha pasado de ser indicaciones de chat ocasionales a flujos de trabajo continuos para desarrolladores, agentes de codificación, análisis automatizados, ventanas de contexto largas y sistemas empresariales que se ejecutan en segundo plano.

Fuente: Gobierno de Japón / Oficina del Primer Ministro, CC BY 4.0
Esta imagen real de 2025 de Sam Altman conecta la historia del uso de tokens con las discusiones actuales sobre empresas, infraestructura e inversión internacional en IA de OpenAI.
¿Qué es un token en el uso de OpenAI?
Un token es una pequeña unidad de texto o datos procesada por un modelo de IA. En inglés, un token a menudo tiene alrededor de cuatro caracteres o aproximadamente tres cuartos de una palabra, pero el recuento exacto depende del modelo, el idioma y el formato de entrada.
OpenAI separa el uso en categorías como tokens de entrada, tokens de salida y tokens en caché. Los tokens de entrada provienen de la solicitud, los tokens de salida son generados por el modelo y los tokens en caché se pueden reutilizar de prefijos de prompts o contexto de conversación repetidos.

Fuente: Wikimedia Commons / Logotipo de OpenAI 2025, texto del logotipo de dominio público; pueden aplicarse restricciones de marca registrada
El logotipo de OpenAI le da al artículo una conexión visual directa con la empresa detrás de la discusión sobre el uso de tokens, en lugar de depender solo de imágenes tecnológicas abstractas.
| Tipo de token | Significado | Por qué es importante |
|---|---|---|
| Tokens de entrada | Prompt, instrucciones del sistema, archivos, herramientas y contexto de conversación enviados al modelo. | Los prompts largos, el historial de chat extenso y los documentos repetidos pueden aumentar el costo rápidamente. |
| Tokens de salida | La respuesta generada por el modelo. | Las respuestas largas, los pasos de razonamiento y las salidas de agente pueden volverse costosos a escala. |
| Tokens en caché | Secciones de prompt repetidas que pueden ser reutilizadas por la infraestructura del modelo. | Una buena estructura de prompt puede reducir la latencia y disminuir el costo de entrada para cargas de trabajo repetidas. |
Por qué el uso de tokens puede crecer tan rápido
El salto de miles de tokens a miles de millones generalmente no es causado por un solo prompt. Sucede cuando la IA se integra en los flujos de trabajo. Un asistente de codificación puede leer archivos, inspeccionar errores, generar parches, revisar cambios, llamar a herramientas y repetir ese ciclo muchas veces.

Fuente: Wikimedia Commons / Captura de pantalla de ChatGPT, OpenAI
El uso de tokens comienza con las interacciones diarias del usuario, pero a escala, estas conversaciones, archivos, herramientas y acciones en segundo plano pueden convertirse en volúmenes mensuales de tokens muy grandes.
Los casos de uso empresarial consumen muchos tokens porque a menudo incluyen documentos extensos, registros de clientes, llamadas a herramientas, resultados de recuperación, JSON estructurado, registros y flujos de trabajo de agentes de varios pasos. Una sola acción del usuario puede desencadenar silenciosamente muchas llamadas al modelo.
Razones comunes para un uso explosivo de tokens
- Historial de conversación largo enviado nuevamente con cada solicitud.
- Prompts de sistema grandes e instrucciones repetidas.
- Agentes de codificación de IA que inspeccionan muchos archivos automáticamente.
- Sistemas de recuperación que adjuntan demasiados documentos a cada respuesta.
- Salidas verbosas que son más largas de lo que el usuario realmente necesita.
- Agentes en segundo plano que siguen ejecutándose sin presupuestos estrictos.
Los modelos de razonamiento pueden cambiar el perfil de costos
Los sistemas de IA modernos deciden cada vez más cuándo responder rápidamente y cuándo dedicar más cómputo a una tarea más difícil. Eso puede mejorar la calidad, pero también hace que el seguimiento del uso sea más importante porque las tareas complejas pueden consumir más procesamiento invisible y más presupuesto de salida.

Fuente: Wikimedia Commons / Captura de pantalla de GPT-5 pensando más tiempo, 2025
Las interfaces orientadas al razonamiento hacen que la pregunta del costo sea más visible: respuestas mejores pueden requerir más cómputo, y los equipos necesitan decidir dónde se justifica ese presupuesto de tokens adicional.
Por qué esto es importante para las empresas e_ y los clientes de IA
Para los proveedores de modelos, el alto uso de tokens puede significar más ingresos, pero también más presión sobre la infraestructura. Para los clientes, el alto uso de tokens puede significar una mejor automatización, pero también facturas impredecibles. Los tokens se están convirtiendo en una métrica comercial práctica porque reflejan cuánto trabajo realizan realmente los sistemas de IA.
El punto importante no es maximizar el uso de tokens por sí solo. Más tokens no significan automáticamente más valor comercial. La mejor pregunta es si cada token contribuye a la precisión, la velocidad, la automatización, los ingresos, la calidad del soporte o la productividad del desarrollador.

Fuente: Wikimedia Commons / Estructura corporativa de OpenAI revisada
La discusión sobre el costo y los tokens también se sitúa dentro de un contexto empresarial y de inversión más amplio. La estructura, los socios y la estrategia de infraestructura de OpenAI influyen en cómo se fijan los precios, escalan y gobiernan las IA empresariales.
Cómo los equipos deben medir el uso de tokens de OpenAI
Los usuarios de OpenAI no solo deben mirar los totales mensuales. Deben desglosar el uso por área de producto, usuario, modelo, flujo de trabajo y tipo de tarea. Eso facilita ver qué automatización es valiosa y qué flujo de trabajo solo está consumiendo tokens.
| Métrica | Pregunta a responder |
|---|---|
| Tokens por solicitud | ¿Qué prompts son innecesariamente grandes? |
| Tokens por usuario | ¿Qué clientes o usuarios internos impulsan la mayor parte del costo? |
| Tokens por tarea exitosa | ¿Cuánto cuesta realmente un resultado útil? |
| Ratio de tokens en caché | ¿Están los prompts repetidos estructurados lo suficientemente bien como para beneficiarse del almacenamiento en caché? |
| Longitud de salida | ¿Las respuestas son más largas de lo que los usuarios necesitan? |
El almacenamiento en caché de prompts es ahora una importante palanca de costos
El almacenamiento en caché de prompts puede reducir la latencia y los costos de tokens de entrada cuando los prompts contienen contenido estático repetido. La regla práctica es simple: coloque instrucciones estables, ejemplos y definiciones de herramientas al principio del prompt, y coloque el contenido variable específico del usuario más tarde.
Formas prácticas de reducir el desperdicio de tokens
- Mantenga los prompts del sistema cortos, estables y reutilizables.
- Resuma el historial de conversaciones antiguo en lugar de enviar todo para siempre.
- Use filtros de recuperación para que solo se adjunten documentos relevantes.
- Establezca longitudes de salida máximas para tareas rutinarias.
- Elija modelos más pequeños para clasificación simple, extracción o formato.
- Mida el costo por tarea, no solo el gasto total mensual.
- Detenga los agentes en segundo plano cuando la tarea esté completa.

Fuente: Wikimedia Commons / Imagen de infraestructura de servidor
Solo se utiliza una imagen de infraestructura porque explica directamente la conexión de costos de los tokens: cada token tiene que ser procesado en algún lugar, y eso requiere capacidad de cómputo real.
Qué significa esto para los desarrolladores que crean herramientas de IA
Los desarrolladores deben diseñar sistemas de IA como infraestructura medida. Cada prompt debe tener una razón. Cada resultado de recuperación debe ser necesario. Cada bucle de agente debe tener un límite. Esto es especialmente importante para productos SaaS, copilotos internos y herramientas de codificación automatizada.
Para los equipos que desarrollan flujos de trabajo de IA basados en web, la economía de tokens debe ser parte del diseño del producto desde el principio. Zerlo también proporciona herramientas prácticas de IA y web en Zerlo tools, donde la eficiencia del uso es una parte importante de la creación de software útil.
Preguntas frecuentes: Sam Altman, OpenAI y el uso de tokens
¿Qué dijo Sam Altman sobre el uso de tokens de OpenAI?
Supuestamente dijo que el principal usuario interno de tokens de OpenAI utiliza alrededor de 100 mil millones de tokens por mes, mientras que otro usuario fuera de OpenAI usa aún más.
¿Son los tokens lo mismo que los tokens de criptomonedas?
No. En este contexto, los tokens son piezas de texto o datos procesados por un modelo de IA. Se utilizan para medir el tamaño del contexto, la carga de trabajo del modelo y la facturación de la API.
¿Por qué los tokens de IA cuestan dinero?
Cada token debe ser procesado por la infraestructura del modelo. Más tokens generalmente significan más cómputo, más uso de memoria, más latencia y mayor costo operativo.
¿Usar más tokens siempre significa mejores resultados de IA?
No. Más contexto puede ayudar cuando es relevante, pero el contexto innecesario puede hacer que los sistemas sean más lentos, más caros y, a veces, menos enfocados.
¿Cómo puedo reducir el uso de tokens de OpenAI?
Acortar prompts, resumir historial, limitar longitud de salida, filtrar resultados de recuperación, usar modelos más pequeños siempre que sea posible y estructurar prompts repetidos para el almacenamiento en caché.
En resumen
Los comentarios de Sam Altman sobre los tokens muestran que la adopción de la IA ha entrado en una nueva fase. La pregunta ya no es solo quién tiene más usuarios o el modelo más inteligente. La pregunta es quién puede convertir el uso masivo de tokens en valor confiable sin perder el control del costo, la infraestructura y la complejidad del flujo de trabajo.