Se lavori nel ML da qualche anno, sai che il 2023-2024 è stato un periodo di hype pazzesco. ChatGPT ha fatto esplodere l'interesse del pubblico generale, e improvvisamente tutti volevano "mettere l'AI" nei loro prodotti. Ora che siamo nel 2026, la polvere si è un po' posata e possiamo fare il punto su cosa è rimasto, cosa è cambiato davvero, e dove stiamo andando.
Il Grande Shift: dai Modelli Giganti ai Modelli Utili
La cosa più interessante che è successa negli ultimi due anni non è stata la corsa ai modelli sempre più grandi. Quella continua, certo, ma il vero cambiamento è stato nella direzione opposta: modelli più piccoli che fanno cose specifiche molto bene.
Pensaci un attimo. Nel 2023 tutti parlavano di GPT-4 e dei suoi 1.7 trilioni di parametri (presunti). Oggi il modello che gira sulla maggior parte delle applicazioni di produzione non è GPT-4, ma qualcosa tipo Llama 3 8B o Mistral 7B, magari fine-tunato su un task specifico. Perché? Perché funziona, costa poco, e puoi hostarlo tu.
Microsoft con Phi-3 ha dimostrato una cosa che molti sospettavano: non servono centinaia di miliardi di parametri per avere un modello utile. Phi-3 Mini ha 3.8 miliardi di parametri e su certi benchmark batte modelli 10 volte più grandi. Il trucco? Dati di training migliori, non più parametri.
Questo ha implicazioni enormi per chi fa ML in produzione. Se prima dovevi per forza chiamare API esterne e pagare per token, oggi puoi far girare un modello decente su una singola GPU consumer. È un cambio di paradigma.
Gli Strumenti che Usiamo Davvero
Parliamo di cosa c'è nella toolbox di un ML engineer nel 2026, senza hype.
PyTorch ha vinto. Mi dispiace per TensorFlow, ma ormai è così. Google stessa usa JAX internamente per i progetti più importanti, e la community si è spostata quasi interamente su PyTorch. Se stai iniziando oggi, impara PyTorch. TensorFlow va bene se devi mantenere codice legacy o se hai requisiti specifici di deployment su mobile/edge.
Hugging Face è diventato il GitHub del ML. Non solo per i modelli, ma per dataset, spaces (demo), e l'intero ecosistema. La libreria transformers è praticamente lo standard per lavorare con qualsiasi modello di linguaggio. Se non la conosci, è il primo posto da cui partire.
LangChain e LlamaIndex hanno avuto un'evoluzione interessante. Dopo l'hype iniziale e le critiche (meritate) sulla complessità, entrambi si sono semplificati. Oggi LangChain è più modulare e puoi usare solo i pezzi che ti servono. LlamaIndex è diventato lo standard de facto per RAG. Se devi costruire un'applicazione che usa LLM con i tuoi dati, probabilmente userai uno di questi due.
Per il training, se hai bisogno di distribuire su più GPU, la scelta oggi è tra:
- DeepSpeed (Microsoft): ottimo per training di modelli grossi, ZeRO è ancora una delle tecniche più efficaci per risparmiare memoria
- FSDP (PyTorch nativo): più semplice da usare, integrato direttamente in PyTorch
- Accelerate (Hugging Face): astrae le differenze, ti permette di scrivere codice che gira su singola GPU e scala automaticamente
Personalmente uso Accelerate per la maggior parte dei progetti perché non voglio pensare troppo all'infrastruttura quando sto iterando. Passo a DeepSpeed solo quando ho bisogno di spremere ogni MB di VRAM.
MLOps: Finalmente Maturo?
Ricordo quando MLOps era fondamentalmente "scriviamo qualche script bash e speriamo che funzioni". Oggi la situazione è molto migliorata.
MLflow è diventato quasi uno standard per experiment tracking e model registry. Non è perfetto, ma funziona e la maggior parte dei team lo usa. Weights & Biases (wandb) è l'alternativa più fancy, con UI migliore ma a pagamento per team. Per progetti personali o piccoli team, MLflow va benissimo.
Per il deployment, il panorama si è consolidato attorno a poche opzioni:
- Servizi managed: SageMaker, Vertex AI, Azure ML. Costano, ma non devi pensare a niente.
- Self-hosted: vLLM per LLM (è velocissimo), TorchServe per modelli generici, Triton se hai bisogno di performance estreme.
- Serverless: Lambda/Cloud Functions per modelli piccoli, anche se i cold start sono ancora un problema.
La mia raccomandazione? Se stai iniziando e vuoi andare in produzione velocemente, usa un servizio managed. Il tempo che risparmi vale il costo extra. Quando hai volumi alti e capisci meglio i tuoi pattern di utilizzo, puoi pensare di ottimizzare.
I Trend che Contano Davvero
Lasciamo perdere l'hype e parliamo di cosa sta effettivamente cambiando il modo in cui lavoriamo.
Multimodalità Ovunque
I modelli che capiscono solo testo stanno diventando obsoleti. GPT-4V, Gemini, Claude 3 - tutti capiscono immagini. LLaVA e altri modelli open source fanno lo stesso. Questo apre possibilità che prima erano impensabili: puoi passare uno screenshot a un modello e chiedergli di scrivere il codice per replicare quell'interfaccia. Puoi fargli analizzare grafici. Puoi costruire applicazioni che "vedono".
Sul fronte audio, Whisper ha risolto il problema della trascrizione. È gratis, funziona offline, ed è dannatamente accurato. Se il tuo prodotto ha bisogno di speech-to-text, non hai più scuse per non implementarlo.
AI Agents: Hype o Realtà?
Qui bisogna essere onesti. L'idea di agenti AI che fanno task complessi in autonomia è affascinante, ma siamo ancora lontani dall'avere qualcosa di affidabile per produzione seria.
AutoGPT e simili hanno dimostrato il concetto ma anche i limiti: i modelli si perdono, fanno errori che si accumulano, e costano un sacco in API calls. Quello che funziona oggi sono agenti molto vincolati, con task specifici e guardrails stretti.
La mia previsione? Gli agenti diventeranno utili quando avremo modelli con context window enormi (siamo già a 1M+ token con Gemini), costi per token molto più bassi, e reasoning più affidabile. Probabilmente 2027-2028.
On-Device AI
Apple ha spinto tanto su questo con i chip M-series e il Neural Engine. Google fa lo stesso con i Tensor. Il risultato è che oggi puoi far girare modelli interessanti direttamente su smartphone e laptop senza cloud.
Per gli sviluppatori questo significa: pensa a cosa puoi fare localmente prima di chiamare un'API. Spesso un modello piccolo locale batte un modello grosso remoto in termini di latenza e user experience.
Hardware: La GPU Shortage è Finita?
Più o meno. Le H100 sono ancora difficili da trovare se ne vuoi comprare, ma il mercato cloud si è normalizzato. Puoi affittare GPU A100/H100 a prezzi ragionevoli su provider come Lambda, RunPod, Vast.ai.
AMD sta finalmente diventando un'alternativa seria con le MI300. Non hanno ancora l'ecosistema software di NVIDIA (CUDA è ancora re), ma ROCm è migliorato molto e per inference funziona bene.
Se hai un Mac con Apple Silicon, sei in una posizione interessante. I chip M3 Pro/Max/Ultra hanno abbastanza memoria unificata da far girare modelli che su PC richiederebbero GPU da migliaia di euro. Per sviluppo e sperimentazione, un MacBook Pro è diventato una scelta legittima.
Cosa Aspettarsi nei Prossimi Mesi
Facciamo un po' di speculation informata:
Modelli più efficienti, non più grandi. Il trend dei small language models continuerà. Aspettati Llama 4 con versioni da 3-8B che battono le versioni da 70B di oggi.
RAG everywhere. Praticamente ogni applicazione enterprise che usa LLM userà retrieval augmented generation. I modelli base sono troppo generici e non sanno nulla dei tuoi dati. RAG risolve questo problema in modo pragmatico.
Fine-tuning diventa commoditizzato. Con tecniche come LoRA e QLoRA, fare fine-tuning è diventato accessibile. Aspettati più servizi che ti permettono di fine-tunare modelli con pochi click.
Regolamentazione. L'AI Act europeo è entrato in vigore. Se lavori su AI in Europa, devi iniziare a pensare a compliance, documentazione, e risk assessment. Non è sexy, ma è realtà.
Per Chi Inizia Oggi
Se stai entrando nel campo del ML nel 2026, ecco il mio consiglio non richiesto:
Non cercare di imparare tutto. Il campo è troppo vasto. Scegli un'area (NLP, computer vision, ML systems) e vai in profondità.
Impara a usare i modelli esistenti prima di provare a trainare i tuoi. Il 90% del valore che puoi creare oggi viene dal saper usare bene modelli pre-trained, fare fine-tuning intelligente, e costruire buone applicazioni attorno a loro.
Fai progetti. Il modo migliore per imparare è costruire qualcosa di reale. Prendi un problema che ti interessa e usa ML per risolverlo. Imparerai più in un progetto che in dieci corsi.
E soprattutto: mantieni un sano scetticismo verso l'hype. Non tutto quello che leggi su Twitter è vero, non ogni paper su arXiv è una rivoluzione, e non ogni startup AI sta cambiando il mondo. Il ML è un campo potente ma con limiti reali. Capire questi limiti è importante quanto capire le possibilità.
Scritto da chi ci lavora ogni giorno e cerca di separare il segnale dal rumore.