Se fai ML seriamente, prima o poi ti trovi davanti alla questione GPU. Comprare hardware? Usare il cloud? Quale cloud? I prezzi cambiano continuamente, le disponibilità variano, e fare la scelta sbagliata può costare parecchio.
Ho passato l'ultimo anno a testare praticamente tutti i provider GPU cloud principali, alcuni per progetti di lavoro, altri per curiosità. Quello che segue è quello che ho imparato, senza filtri marketing.
Il Panorama Attuale
Il mercato GPU cloud si divide in quattro categorie:
I big: AWS, Google Cloud, Azure. Hanno tutto, costano tanto, sono affidabili.
I specializzati: Lambda Labs, CoreWeave, Paperspace. Focus sul ML, prezzi più competitivi, meno servizi accessori.
I marketplace: Vast.ai, RunPod. Aggregano GPU di terzi, prezzi bassissimi ma meno garanzie.
I boutique: Provider più piccoli che offrono hardware specifico con supporto personalizzato. Qui ci mettiamo anche noi con HellfireCloud.
La scelta dipende da cosa ti serve. Vediamo caso per caso.
I Big Three: AWS, GCP, Azure
Partiamo dai giganti. Tutti e tre offrono GPU NVIDIA di fascia alta (A100, H100), integrazioni con i loro ecosistemi, e la tranquillità di un provider enterprise.
AWS ha EC2 con istanze P4d (A100) e P5 (H100). L'integrazione con SageMaker è comoda se già usi AWS. I prezzi sono i più alti del mercato, ma hai accesso a tutto l'ecosistema AWS. Una P4d.24xlarge (8x A100 40GB) costa circa $32/ora on-demand.
Google Cloud ha le TPU oltre alle GPU NVIDIA, e se fai training di modelli grossi le TPU possono essere più convenienti. Vertex AI è la loro piattaforma ML gestita e funziona bene. Un A100 40GB costa circa $3/ora, competitivo con gli altri big.
Azure è forte se sei in ambiente enterprise Microsoft. L'integrazione con Azure ML e i tool Microsoft è ottima. I prezzi sono simili ad AWS. La disponibilità di H100 è stata storicamente migliore che su AWS.
Quando usare i big:
- Hai budget enterprise e vuoi supporto serio
- Usi già i loro servizi e vuoi integrazione nativa
- Hai bisogno di compliance, certificazioni, SLA garantiti
- Il progetto richiede scaling massivo e affidabilità totale
Quando evitarli:
- Budget limitato
- Progetto piccolo o sperimentale
- Non ti servono i servizi accessori
Lambda Labs: Il Preferito dei Ricercatori
Lambda si è fatta un nome vendendo workstation GPU per ML, poi ha lanciato il cloud. La loro proposta è semplice: GPU di fascia alta a prezzi onesti, senza fronzoli.
Un A100 80GB costa $1.29/ora, un H100 circa $2.49/ora. Rispetto ai big è significativamente più economico. L'interfaccia è spartana ma funzionale. Niente servizi managed fancy, ma per chi sa cosa sta facendo non servono.
La disponibilità può essere un problema. Le GPU più richieste (H100) spesso sono sold out. Puoi metterti in lista d'attesa, ma se ti serve una GPU adesso potrebbe non essere disponibile.
Ho usato Lambda per diversi progetti di fine-tuning e l'esperienza è stata positiva. Macchine stabili, rete veloce, supporto reattivo. Per un ricercatore o un team piccolo che sa gestirsi l'infrastruttura, è probabilmente il miglior rapporto qualità-prezzo tra i provider "seri".
CoreWeave: Il Challenger Specializzato
CoreWeave è nato nel mining di criptovalute e si è reinventato come provider GPU cloud. Hanno investito pesantemente in infrastruttura NVIDIA e oggi sono uno dei provider con maggiore disponibilità di H100.
I prezzi sono competitivi con Lambda, a volte anche migliori per commitment a lungo termine. Offrono anche storage veloce (NVMe) a prezzi ragionevoli, cosa non scontata.
Il loro punto di forza è la flessibilità. Puoi configurare cluster customizzati, avere networking dedicato, e scalare in modi che i big three non permettono facilmente. Se stai facendo training distribuito serio, CoreWeave è un'opzione da considerare.
Il rovescio della medaglia: è un'azienda più giovane, con meno track record. Se la stabilità a lungo termine è critica, questo può essere un fattore.
Paperspace (ora DigitalOcean)
Paperspace è stato acquisito da DigitalOcean e si è posizionato come l'opzione "facile" per ML. L'interfaccia è pulita, i notebook pre-configurati funzionano, e puoi essere operativo in minuti.
I prezzi sono nella media. Una A100 costa circa $3/ora. Hanno anche GPU più economiche (A4000, A5000) per chi non ha bisogno di potenza massima.
Il loro Gradient è una piattaforma ML gestita che semplifica training e deployment. Non è potente come SageMaker ma è molto più semplice da usare.
Lo consiglio per: chi inizia con ML e non vuole perdere tempo in configurazione, team piccoli che vogliono una soluzione turnkey, progetti che non richiedono hardware estremo.
I Marketplace: Vast.ai e RunPod
Questi provider aggregano GPU di terze parti — data center, miner, persino privati con hardware potente — e le mettono a disposizione a prezzi stracciati.
Vast.ai è il più grande. Puoi trovare A100 anche a $1/ora, RTX 4090 a $0.30/ora. I prezzi sono imbattibili. Ma attenzione: la qualità varia enormemente. Alcune macchine sono veloci e stabili, altre sono configurate male o hanno problemi di rete.
Ho usato Vast.ai per esperimenti non critici e fine-tuning di modelli piccoli. Funziona, ma devi essere preparato a cambiare macchina se quella che hai preso fa schifo. Non lo userei per produzione o per progetti dove non puoi permetterti downtime.
RunPod è simile ma un po' più curato. Hanno anche "secure cloud" con macchine in data center verificati, a prezzi leggermente più alti ma con più garanzie.
Il modello "serverless" di RunPod è interessante per inference: paghi solo quando il modello risponde a richieste, non per il tempo di idle. Per deployment di modelli con traffico variabile può essere molto conveniente.
L'Alternativa Boutique: HellfireCloud
Ok, qui parlo di noi, quindi prendi quello che dico con le dovute cautele. Ma cerco di essere onesto sui pro e contro.
HellfireCloud offre accesso a workstation con NVIDIA RTX 5090 (32GB GDDR7) e AMD Threadripper 9960X (24 core/48 thread). Non siamo un hyperscaler, siamo un servizio boutique con un approccio diverso.
Cosa offriamo:
- RTX 5090 con 32GB di VRAM — più di una RTX 4090, meno di un A100, ma con architettura più recente
- Ambiente preconfigurato: CUDA, PyTorch, TensorFlow, vLLM già installati e ottimizzati
- Supporto tecnico diretto (parli con me, non con un chatbot)
- Prezzi competitivi con fatturazione italiana
- Accesso via VPN sicura, provisioning rapido
Dove ha senso sceglierci:
- Fine-tuning di modelli 7-13B con QLoRA — i 32GB di VRAM sono perfetti
- Inference di LLM locali (Llama, Mistral, etc.)
- Progetti dove vuoi supporto tecnico vero, non ticket system
- Sei in Italia e preferisci fatturazione locale
- Vuoi provare prima di impegnarti con i big cloud
Dove NON ha senso:
- Training distribuito multi-GPU — non abbiamo cluster, abbiamo workstation singole
- Hai bisogno di A100/H100 per modelli enormi (70B+)
- Vuoi l'ecosistema completo di servizi managed (SageMaker, Vertex, etc.)
- Hai bisogno di scaling automatico e infrastruttura enterprise
Rispetto ai marketplace come Vast.ai, offriamo hardware garantito e supporto. Rispetto ai big, costiamo meno ma non abbiamo la stessa scala. È un trade-off che per molti use case funziona benissimo.
Confronto Prezzi Reale
I prezzi cambiano spesso, ma ecco un'istantanea di quanto costa un'ora di GPU (Gennaio 2026):
| Provider | GPU | VRAM | Prezzo/ora | Note |
|---|---|---|---|---|
| AWS | A100 80GB | 80GB | ~$4.10 | On-demand, p4d |
| GCP | A100 40GB | 40GB | ~$3.67 | On-demand |
| Azure | A100 80GB | 80GB | ~$3.40 | On-demand |
| Lambda | A100 80GB | 80GB | $1.29 | Quando disponibile |
| CoreWeave | A100 80GB | 80GB | ~$2.06 | |
| Paperspace | A100 40GB | 40GB | ~$3.00 | |
| Vast.ai | A100 80GB | 80GB | $0.80-1.50 | Qualità variabile |
| RunPod | A100 80GB | 80GB | $1.44 | Community cloud |
| HellfireCloud | RTX 5090 | 32GB | Competitivo | Richiedi preventivo |
Nota sulla RTX 5090 vs A100: L'A100 ha più VRAM (40-80GB vs 32GB), ma la RTX 5090 ha architettura più recente e per molti workload (fine-tuning con QLoRA, inference) performa in modo comparabile a costi inferiori. Se non hai bisogno di 80GB di VRAM, è un'alternativa valida.
Cosa Scegliere: La Mia Decisione Framework
Dopo tanti esperimenti, ecco come scelgo:
Per esperimenti e ricerca personale: Vast.ai o RunPod se vuoi risparmiare al massimo e accetti qualche instabilità.
Per fine-tuning e inference di modelli 7-13B: HellfireCloud. I 32GB della RTX 5090 sono perfetti per QLoRA, l'ambiente è già configurato, e il supporto è diretto. È quello che uso io stesso.
Per progetti enterprise con budget: Lambda Labs o CoreWeave. Buon equilibrio tra costo e affidabilità, con A100/H100 disponibili.
Per training distribuito o modelli enormi: I big three (AWS, GCP, Azure) o CoreWeave. Quando serve multi-GPU e infrastruttura seria, non ci sono scorciatoie.
Per inference in produzione: Dipende dal traffico. Per traffico variabile, RunPod serverless. Per traffico costante, una macchina dedicata (anche la nostra RTX 5090) può essere più conveniente.
Per chi inizia: Paperspace Gradient o Google Colab Pro per la semplicità. Oppure contattaci — aiutiamo anche chi sta muovendo i primi passi.
Il Segreto: Mix and Match
La verità è che non devi scegliere un solo provider. Uso regolarmente più provider per task diversi.
Sviluppo e debug su macchina locale. Fine-tuning e inference su HellfireCloud con la RTX 5090 — è il mio setup principale perché i 32GB di VRAM coprono il 90% dei miei use case. Training distribuito su CoreWeave quando serve scaling serio. AWS solo quando il cliente lo richiede.
Questa flessibilità richiede un po' di overhead — devi saper configurare ambienti su piattaforme diverse — ma il risparmio e l'ottimizzazione che permette valgono lo sforzo. Con HellfireCloud l'ambiente è già preconfigurato, quindi almeno quel pezzo è semplice.
Un Consiglio Finale
Prima di scegliere qualsiasi provider cloud, fai due conti su quanto ti costerebbe comprare hardware.
Una RTX 5090 costa circa €2500 e ha 32GB di VRAM. Se la usi intensivamente, comprare ha senso. Ma se il tuo utilizzo è variabile — un progetto qui, un fine-tuning là — il renting ti dà flessibilità senza l'investimento iniziale e senza sbatterti con driver, raffreddamento, e manutenzione.
Per molti use case — fine-tuning occasionale, inference per progetti, sperimentazione — un servizio come HellfireCloud ti dà il meglio dei due mondi: hardware potente quando ti serve, senza il commitment di comprarlo.
Non esiste una risposta giusta per tutti. Dipende da quanto usi GPU, quanto variabile è l'utilizzo, e quanto valore dai al tuo tempo. Se vuoi fare due chiacchiere sul tuo caso specifico, scrivici — ti aiutiamo a capire cosa ha senso per te, anche se la risposta è "comprare una GPU tua".
I prezzi cambiano continuamente. Verifica sempre sul sito del provider prima di impegnarti.