Calcolatore interattivo Prezzi 2026

GPU dedicata vs Cloud LLM API

Inserisci il tuo volume mensile di token: ti dico subito qual è la scelta più economica e dove si trova il break-even.

Premessa: i prezzi cambiano. Questo calcolatore usa i listini di riferimento di maggio 2026. Cambia i valori se hai accordi enterprise migliori. Il risultato è indicativo: serve a capire l'ordine di grandezza, non a sostituire una vera analisi TCO.

Inserisci i tuoi numeri

Includi sia input che output. 1 pagina A4 ≈ 500 token.
Le API costano molto meno per i token di input.
Prezzi $/milione di token. Aggiornati a maggio 2026.
Costo orario noleggio (cloud) o ammortizzato (on-prem). Velocità tipica generazione.
100% solo se hai workload costante 24/7. Realisticamente 30-60%.
Costo nascosto del self-hosting: monitoraggio, deploy, fix.
Costo mensile API
Costo mensile self-hosting (GPU + MLOps)
Token al mese sostenibili sulla GPU scelta
Verdetto

Come leggere il risultato

Il calcolatore confronta solo il costo diretto mensile. Mancano tre fattori importanti che vanno valutati a parte:

  • Sovranità dei dati — se i tuoi dati non possono uscire dall'UE o dalla tua infrastruttura, l'API cloud potrebbe essere fuori discussione anche se costa meno. Vedi la checklist LLM aziendale.
  • Costo del lock-in — costruire tutto su API esterne ti rende vulnerabile a cambi di prezzo e deprecation di modelli. Stima del rischio: ~15-25% premium "di assicurazione" da aggiungere al costo API se il prodotto è strategico.
  • Tempo per andare in produzione — con API: 1-2 settimane. Con self-hosting: 4-12 settimane. Se hai fretta di validare un'idea, parti API e migra dopo se i volumi salgono.

Quando il calcolo cambia drasticamente

Fine-tuning del modello. Se fai fine-tuning di un Llama 3 8B sui tuoi dati, ottieni performance simili a GPT-4 sul tuo task specifico, costando 10-100× meno per token. Il break-even GPU-vs-API si abbassa drasticamente — diventa conveniente self-hostare anche a 5-10M token/mese.

Quantizzazione spinta. Un Llama 70B in Q4 gira su una A100 80GB. Un Llama 70B in fp16 ha bisogno di 2× A100 o 1× H100. La differenza è 3-5× sui costi infra a parità di qualità (Q4 perde solo ~2-3% di accuracy sui benchmark).

Batching e caching. Su self-hosting puoi raggruppare richieste e cachare risposte frequenti. Effetto netto: 2-5× più throughput sulla stessa GPU. Le API non te lo permettono.