Sam Altman sull'uso dei token di OpenAI e sui costi dell'IA

Lisa Ernst · 04.06.2026 · Intelligenza Artificiale · 8 minuti di lettura

Sam Altman ha reso l'uso dei token uno degli argomenti di business più importanti dell'IA nel 2026. Secondo recenti rapporti, il principale utente interno di token di OpenAI sta elaborando circa 100 miliardi di token al mese, mentre almeno un utente esterno sarebbe ancora più elevato.

Questo è importante perché i token non sono solo un dettaglio tecnico. Sono l'unità alla base del carico di lavoro dell'IA, della latenza, della pressione sull'infrastruttura e di molte fatture delle API. Per le aziende che creano prodotti di IA, comprendere l'uso dei token è ora importante quanto comprendere l'hosting cloud, le query del database o il traffico del server.

Cosa ha detto Sam Altman sull'uso dei token di OpenAI

Il numero principale è semplice: il principale utente interno di token di OpenAI consumerebbe circa 100 miliardi di token al mese. Altman ha anche confrontato questo numero con l'era iniziale di OpenAI, quando circa 100.000 token al mese erano considerati un livello di utilizzo molto elevato.

Ciò dimostra come l'uso dell'IA sia passato da prompt di chat occasionali a flussi di lavoro continui per sviluppatori, agenti di codifica, analisi automatizzate, finestre di contesto lunghe e sistemi aziendali che funzionano in background.

Sam Altman incontra il Primo Ministro giapponese Shigeru Ishiba e il CEO di SoftBank Masayoshi Son nel 2025

Fonte: Governo del Giappone / Ufficio del Primo Ministro, CC BY 4.0

Questa immagine reale del 2025 di Sam Altman collega la storia dell'uso dei token con le attuali discussioni sull'IA aziendale, infrastrutturale e sugli investimenti internazionali in IA di OpenAI.

Cos'è un token nell'uso di OpenAI?

Un token è una piccola unità di testo o dati elaborata da un modello di IA. In italiano, un token corrisponde spesso a circa quattro caratteri o a circa tre quarti di parola, ma il conteggio esatto dipende dal modello, dalla lingua e dal formato di input.

OpenAI separa l'utilizzo in categorie come token di input, token di output e token memorizzati nella cache. I token di input provengono dalla richiesta, i token di output vengono generati dal modello e i token memorizzati nella cache possono essere riutilizzati da prefissi di prompt ripetuti o dal contesto della conversazione.

Fonte: Wikimedia Commons / Logo OpenAI 2025, testo del logo di pubblico dominio; potrebbero applicarsi restrizioni sui marchi registrati

Il logo di OpenAI conferisce all'articolo un collegamento visivo diretto con l'azienda dietro la discussione sull'uso dei token, anziché fare affidamento solo su immagini tecnologiche astratte.

Tipo di token	Significato	Perché è importante
Token di input	Prompt, istruzioni di sistema, file, strumenti e contesto di conversazione inviati al modello.	Prompt lunghi, cronologia chat prolungata e documenti ripetuti possono aumentare rapidamente i costi.
Token di output	La risposta generata dal modello.	Risposte lunghe, passaggi di ragionamento e output di agenti possono diventare costosi su larga scala.
Token memorizzati nella cache	Sezioni di prompt ripetute che possono essere riutilizzate dall'infrastruttura del modello.	Una buona struttura del prompt può ridurre la latenza e i costi di input per carichi di lavoro ripetuti.

Perché l'uso dei token può crescere così rapidamente

Il salto da migliaia a miliardi di token di solito non è causato da un singolo prompt. Accade quando l'IA viene integrata nei flussi di lavoro. Un assistente di codifica può leggere file, ispezionare errori, generare patch, rivedere modifiche, chiamare strumenti e ripetere quel ciclo molte volte.

Screenshot dell'interfaccia di ChatGPT che mostra il contesto del prodotto IA rivolto all'utente

Fonte: Wikimedia Commons / Screenshot di ChatGPT, OpenAI

L'uso dei token inizia con le interazioni quotidiane degli utenti, ma su larga scala queste conversazioni, file, strumenti e azioni in background possono trasformarsi in enormi volumi di token mensili.

I casi d'uso aziendali sono particolarmente ricchi di token perché spesso includono documenti lunghi, record di clienti, chiamate a strumenti, risultati di recupero, JSON strutturato, log e flussi di lavoro di agenti a più passaggi. Una singola azione utente può attivare silenziosamente molte chiamate al modello.

Motivi comuni per l'esplosione dell'uso dei token

Cronologia lunga delle conversazioni inviata nuovamente ad ogni richiesta.
Prompt di sistema e istruzioni ripetute molto lunghi.
Agenti di codifica IA che ispezionano automaticamente molti file.
Sistemi di recupero che allegano troppi documenti ad ogni risposta.
Output prolissi più lunghi di quanto l'utente necessiti effettivamente.
Agenti in background che continuano a funzionare senza budget rigorosi.

I modelli di ragionamento possono cambiare il profilo dei costi

I moderni sistemi di IA decidono sempre più spesso quando rispondere rapidamente e quando dedicare più risorse computazionali a un compito più difficile. Ciò può migliorare la qualità, ma rende anche più importante il monitoraggio dell'utilizzo perché i compiti complessi possono consumare più elaborazione invisibile e più budget di output.

Screenshot di GPT-5 con pensiero prolungato che mostra la modalità di ragionamento in ChatGPT

Fonte: Wikimedia Commons / Screenshot di GPT-5 con pensiero prolungato, 2025

Le interfacce orientate al ragionamento rendono la questione dei costi più visibile: risposte migliori possono richiedere più elaborazione e i team devono decidere dove questo budget aggiuntivo di token è giustificato.

Perché ciò è importante per le aziende di IA e i clienti

Per i fornitori di modelli, un elevato utilizzo dei token può significare maggiori ricavi, ma anche maggiore pressione sull'infrastruttura. Per i clienti, un elevato utilizzo dei token può significare una migliore automazione, ma anche fatture imprevedibili. I token stanno diventando una metrica commerciale pratica perché riflettono quanto lavoro i sistemi di IA svolgono effettivamente.

Il punto importante non è massimizzare l'uso dei token fine a se stesso. Più token non significano automaticamente più valore commerciale. La domanda migliore è se ogni token contribuisce all'accuratezza, alla velocità, all'automazione, ai ricavi, alla qualità del supporto o alla produttività dello sviluppatore.

Diagramma della struttura aziendale di OpenAI rivisto nel 2026

Fonte: Wikimedia Commons / Struttura aziendale di OpenAI rivista

La discussione sui costi e sui token si colloca anche all'interno di un contesto aziendale e di investimento più ampio. La struttura di OpenAI, i partner e la strategia infrastrutturale influenzano il modo in cui l'IA aziendale viene prezzata, scalata e governata.

Come i team dovrebbero misurare l'uso dei token di OpenAI

Gli utenti di OpenAI non dovrebbero guardare solo ai totali mensili. Dovrebbero scomporre l'utilizzo per area di prodotto, utente, modello, flusso di lavoro e tipo di attività. Ciò rende più facile vedere quale automazione è preziosa e quale flusso di lavoro sta solo consumando token.

Metrica	Domanda a cui rispondere
Token per richiesta	Quali prompt sono inutilmente lunghi?
Token per utente	Quali clienti o utenti interni guidano la maggior parte dei costi?
Token per attività completata	Quanto costa veramente un risultato utile?
Rapporto token memorizzati nella cache	I prompt ripetuti sono abbastanza ben strutturati da beneficiare della cache?
Lunghezza dell'output	Le risposte sono più lunghe di quanto gli utenti necessitino?

La cache dei prompt è ora una leva di costo seria

La cache dei prompt può ridurre la latenza e i costi dei token di input quando i prompt contengono contenuti statici ripetuti. La regola pratica è semplice: mettere istruzioni stabili, esempi e definizioni di strumenti all'inizio del prompt e posizionare il contenuto variabile specifico dell'utente più tardi.

Modi pratici per ridurre lo spreco di token

Mantieni i prompt di sistema brevi, stabili e riutilizzabili.
Riassumi la cronologia delle conversazioni passate invece di inviare tutto per sempre.
Utilizza filtri di recupero in modo che vengano allegati solo documenti pertinenti.
Imposta lunghezze massime di output per compiti di routine.
Scegli modelli più piccoli per semplici classificazioni, estrazioni o formattazioni.
Misura il costo per attività, non solo la spesa mensile totale.
Interrompi gli agenti in background al completamento dell'attività.

Rack di server fisici che rappresentano l'elaborazione alla base dell'elaborazione di token IA su larga scala

Fonte: Wikimedia Commons / Immagine dell'infrastruttura del server

Viene utilizzata solo un'immagine di infrastruttura perché spiega direttamente il collegamento costo-token: ogni token deve essere elaborato da qualche parte e ciò richiede una reale capacità computazionale.

Cosa significa questo per gli sviluppatori che creano strumenti di IA

Gli sviluppatori dovrebbero progettare sistemi di IA come infrastrutture a consumo. Ogni prompt dovrebbe avere un motivo. Ogni risultato di recupero dovrebbe essere necessario. Ogni ciclo di agente dovrebbe avere un limite. Questo è particolarmente importante per i prodotti SaaS, i copiloti interni e gli strumenti di codifica automatizzati.

Per i team che creano flussi di lavoro IA basati sul Web, l'economia dei token dovrebbe essere parte della progettazione del prodotto fin dall'inizio. Zerlo fornisce anche strumenti pratici di IA e web su Zerlo tools, dove l'efficienza d'uso è una parte importante della creazione di software utile.

FAQ: Sam Altman, OpenAI e l'uso dei token

Cosa ha detto Sam Altman sull'uso dei token di OpenAI?

Secondo quanto riferito, ha affermato che il principale utente interno di token di OpenAI utilizza circa 100 miliardi di token al mese, mentre un altro utente al di fuori di OpenAI ne utilizza ancora di più.

I token sono uguali ai token delle criptovalute?

No. In questo contesto, i token sono pezzi di testo o dati elaborati da un modello di IA. Vengono utilizzati per misurare la dimensione del contesto, il carico di lavoro del modello e la fatturazione delle API.

Perché i token IA costano denaro?

Ogni token deve essere elaborato dall'infrastruttura del modello. Più token di solito significano più elaborazione, maggiore utilizzo di memoria, maggiore latenza e costi operativi più elevati.

Usare più token significa sempre ottenere risultati IA migliori?

No. Più contesto può aiutare quando è pertinente, ma un contesto non necessario può rendere i sistemi più lenti, più costosi e talvolta meno focalizzati.

Come posso ridurre l'uso dei token di OpenAI?

Accorcia i prompt, riassumi la cronologia, limita la lunghezza dell'output, filtra i risultati del recupero, utilizza modelli più piccoli quando possibile e struttura i prompt ripetuti per la cache.

In conclusione

I commenti di Sam Altman sull'uso dei token mostrano che l'adozione dell'IA è entrata in una nuova fase. La domanda non è più solo chi ha più utenti o il modello più intelligente. La domanda è chi può trasformare un uso massiccio di token in valore affidabile senza perdere il controllo dei costi, dell'infrastruttura e della complessità del flusso di lavoro.