Calcolatore costi: GPU dedicata vs Cloud LLM API (break-even 2026)

Premessa: i prezzi cambiano. Questo calcolatore usa i listini di riferimento di maggio 2026. Cambia i valori se hai accordi enterprise migliori. Il risultato è indicativo: serve a capire l'ordine di grandezza, non a sostituire una vera analisi TCO.

Inserisci i tuoi numeri

Volume mensile (milioni di token) Includi sia input che output. 1 pagina A4 ≈ 500 token.

Quota input/output Le API costano molto meno per i token di input.

Provider API Prezzi $/milione di token. Aggiornati a maggio 2026.

GPU per self-hosting Costo orario noleggio (cloud) o ammortizzato (on-prem). Velocità tipica generazione.

Utilizzo GPU (% del tempo) 100% solo se hai workload costante 24/7. Realisticamente 30-60%.

MLOps overhead Costo nascosto del self-hosting: monitoraggio, deploy, fix.

Costo mensile API -

Costo mensile self-hosting (GPU + MLOps) -

Token al mese sostenibili sulla GPU scelta -

Verdetto -

Come leggere il risultato

Il calcolatore confronta solo il costo diretto mensile. Mancano tre fattori importanti che vanno valutati a parte:

Sovranità dei dati: se i tuoi dati non possono uscire dall'UE o dalla tua infrastruttura, l'API cloud potrebbe essere fuori discussione anche se costa meno. Vedi la checklist LLM aziendale.
Costo del lock-in: costruire tutto su API esterne ti rende vulnerabile a cambi di prezzo e deprecation di modelli. Stima del rischio: ~15-25% premium "di assicurazione" da aggiungere al costo API se il prodotto è strategico.
Tempo per andare in produzione. Con API: 1-2 settimane. Con self-hosting: 4-12 settimane. Se hai fretta di validare un'idea, parti API e migra dopo se i volumi salgono.

Quando il calcolo cambia drasticamente

Fine-tuning del modello. Se fai fine-tuning di un Llama 3 8B sui tuoi dati, ottieni performance simili a GPT-4 sul tuo task specifico, costando 10-100× meno per token. Il break-even GPU-vs-API si abbassa drasticamente: diventa conveniente self-hostare anche a 5-10M token/mese.

Quantizzazione spinta. Un Llama 70B in Q4 gira su una A100 80GB. Un Llama 70B in fp16 ha bisogno di 2× A100 o 1× H100. La differenza è 3-5× sui costi infra a parità di qualità (Q4 perde solo ~2-3% di accuracy sui benchmark).

Batching e caching. Su self-hosting puoi raggruppare richieste e cachare risposte frequenti. Effetto netto: 2-5× più throughput sulla stessa GPU. Le API non te lo permettono.