Premessa: i prezzi cambiano. Questo calcolatore usa i listini di riferimento di maggio 2026. Cambia i valori se hai accordi enterprise migliori. Il risultato è indicativo: serve a capire l'ordine di grandezza, non a sostituire una vera analisi TCO.
Inserisci i tuoi numeri
Come leggere il risultato
Il calcolatore confronta solo il costo diretto mensile. Mancano tre fattori importanti che vanno valutati a parte:
- Sovranità dei dati — se i tuoi dati non possono uscire dall'UE o dalla tua infrastruttura, l'API cloud potrebbe essere fuori discussione anche se costa meno. Vedi la checklist LLM aziendale.
- Costo del lock-in — costruire tutto su API esterne ti rende vulnerabile a cambi di prezzo e deprecation di modelli. Stima del rischio: ~15-25% premium "di assicurazione" da aggiungere al costo API se il prodotto è strategico.
- Tempo per andare in produzione — con API: 1-2 settimane. Con self-hosting: 4-12 settimane. Se hai fretta di validare un'idea, parti API e migra dopo se i volumi salgono.
Quando il calcolo cambia drasticamente
Fine-tuning del modello. Se fai fine-tuning di un Llama 3 8B sui tuoi dati, ottieni performance simili a GPT-4 sul tuo task specifico, costando 10-100× meno per token. Il break-even GPU-vs-API si abbassa drasticamente — diventa conveniente self-hostare anche a 5-10M token/mese.
Quantizzazione spinta. Un Llama 70B in Q4 gira su una A100 80GB. Un Llama 70B in fp16 ha bisogno di 2× A100 o 1× H100. La differenza è 3-5× sui costi infra a parità di qualità (Q4 perde solo ~2-3% di accuracy sui benchmark).
Batching e caching. Su self-hosting puoi raggruppare richieste e cachare risposte frequenti. Effetto netto: 2-5× più throughput sulla stessa GPU. Le API non te lo permettono.