Dopo mesi passati a pagare bollette salate per le API di OpenAI, mi sono chiesto: ma davvero non c'e un modo per far girare questi modelli direttamente sul mio PC? Spoiler: si puo fare, e nel 2026 e diventato sorprendentemente accessibile.
Ho iniziato a sperimentare con LLM locali circa un anno fa, quando un cliente mi ha chiesto di implementare un sistema di analisi documenti che non poteva mandare dati all'esterno per questioni di compliance. Da li ho scoperto un mondo che, onestamente, avrei dovuto esplorare prima.
Perche dovresti considerarlo
Il motivo principale per cui ho fatto il salto e stato economico, non lo nego. Stavo spendendo sui 200 euro al mese in API per vari progetti, e con hardware che gia avevo in casa potevo azzerare quel costo. Ma ci sono altri vantaggi che ho apprezzato solo dopo.
La privacy e il piu ovvio. Se lavori con dati sensibili - documenti legali, cartelle cliniche, codice proprietario - mandare tutto a server esterni e un rischio. Con un LLM locale i dati restano sul tuo disco. Fine della storia.
Poi c'e la questione della latenza. Quando fai richieste ripetute, tipo in un loop di elaborazione, non avere il round-trip di rete fa una differenza enorme. E se sei in treno con connessione ballerina, il modello locale continua a funzionare come se niente fosse.
Di che hardware hai bisogno
Arriviamo al punto dolente: serve una GPU decente. La VRAM e quello che conta davvero, non tanto la potenza di calcolo.
Con 8 GB di VRAM (una RTX 3060 o 4060) puoi far girare tranquillamente Llama 3 8B o Mistral 7B in versione quantizzata. Sono modelli che per il 90% dei task vanno piu che bene.
Se hai una RTX 3090 o 4090 con 24 GB, si apre un altro mondo: Mixtral, modelli da 30B parametri, roba che fino a due anni fa sembrava fantascienza su hardware consumer.
Una nota importante sulla quantizzazione: i modelli vengono compressi per usare meno memoria. Q4 significa 4 bit per peso invece dei 16 o 32 originali. Sulla carta sembra un compromesso pesante, ma nella pratica la differenza di qualita e spesso impercettibile. Ho fatto test A/B con colleghi e nessuno distingueva le risposte.
Se non hai GPU, puoi comunque provare con la sola CPU. Funziona, ma e lento - parliamo di 5-20 volte piu lento. Utile per sperimentare, non per produzione.
Un discorso a parte merita Apple Silicon. I Mac con M1/M2/M3 sono sorprendentemente bravi con gli LLM grazie alla memoria unificata. Un M2 Max con 32GB gestisce modelli che su PC richiederebbero GPU da migliaia di euro.
Ollama: il modo piu semplice per iniziare
Se non hai mai toccato un LLM locale, parti da Ollama. Sul serio, e cosi semplice che quasi ti senti in colpa.
Su Linux basta una riga:
curl -fsSL https://ollama.com/install.sh | sh
Su Mac con Homebrew:
brew install ollama
Su Windows scarichi l'installer dal sito e via.
Una volta installato, scaricare e usare un modello e questione di secondi:
ollama run llama3
Questo comando scarica Llama 3 8B (se non l'hai gia) e apre una chat interattiva. Puoi iniziare a scrivere subito.
La cosa bella di Ollama e che espone anche un'API REST. Quindi puoi integrarlo nelle tue applicazioni:
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "Spiega il machine learning in 3 frasi"
}'
Se lavori con Python, l'integrazione e banale:
import requests
def query_ollama(prompt, model="llama3"):
response = requests.post(
"http://localhost:11434/api/generate",
json={"model": model, "prompt": prompt, "stream": False}
)
return response.json()["response"]
risposta = query_ollama("Cos'e Kubernetes?")
print(risposta)
Tra i modelli che uso di piu: llama3 per task generici, mistral quando devo ragionare su problemi complessi, codellama per la programmazione. Phi-3 e interessante se hai hardware limitato - con soli 3.8B di parametri fa cose che non ti aspetteresti.
llama.cpp: quando vuoi spremere ogni goccia di performance
Ollama sotto il cofano usa llama.cpp, ma se vuoi il controllo totale puoi usarlo direttamente. E scritto in C/C++ puro e le performance sono imbattibili.
La compilazione non e complicata:
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make LLAMA_CUDA=1 # per GPU NVIDIA
Su Mac con Apple Silicon:
make LLAMA_METAL=1
I modelli per llama.cpp sono in formato GGUF. Li trovi su Hugging Face, spesso gia quantizzati a vari livelli. TheBloke e un utente che ha fatto un lavoro monumentale quantizzando praticamente ogni modello esistente.
./main -m Meta-Llama-3-8B-Instruct-Q4_K_M.gguf \
-n 512 \
--color \
-i -r "User:" \
-p "You are a helpful assistant."
Puoi anche avviare un server API compatibile con il formato OpenAI:
./server -m Meta-Llama-3-8B-Instruct-Q4_K_M.gguf --host 0.0.0.0 --port 8080
Il bello di llama.cpp e il controllo granulare. Puoi decidere quanti layer caricare sulla GPU con -ngl, aumentare il context con -c, ottimizzare il batch size con -b. Quando capisci come funziona, riesci a far girare modelli che sulla carta non dovrebbero starci nella tua VRAM.
LM Studio: per chi preferisce cliccare
Non tutti vogliono stare sul terminale, e va benissimo cosi. LM Studio e un'applicazione desktop con interfaccia grafica che fa tutto quello che fanno Ollama e llama.cpp, ma con i bottoni.
Apri l'app, cerchi il modello che vuoi, clicchi download, aspetti, e poi chatti. Ha anche un server API integrato per quando vuoi usare i modelli nelle tue applicazioni.
Lo consiglio a chi sta iniziando o a chi deve far provare LLM locali a persone meno tecniche. L'esperienza utente e curata e non devi configurare nulla.
Quale modello scegliere
Dopo aver provato decine di modelli, ecco le mie raccomandazioni pratiche.
Per uso generale, Llama 3 8B e il punto di partenza ideale. E il modello con il miglior rapporto qualita/risorse che abbia mai usato. Mistral 7B e un'alternativa valida, specialmente se ti serve ragionamento logico.
Per programmazione, CodeLlama resta una scelta solida, ma DeepSeek Coder mi ha sorpreso positivamente. Se scrivi principalmente Python, provalo.
Se hai hardware limitato (4-6 GB di VRAM), Phi-3 Mini e una piccola meraviglia. Microsoft ha dimostrato che con dati di training di qualita puoi ottenere risultati impressionanti anche con modelli piccoli.
Se invece hai una bestia come una RTX 4090 o due 3090 in SLI, Llama 3 70B in Q4 e un'esperienza. La qualita si avvicina a GPT-4, e gira tutto sul tuo hardware.
Problemi comuni e come risolverli
"Out of Memory" e il messaggio che vedrai piu spesso all'inizio. Le soluzioni sono sempre le stesse: usa un modello piu piccolo, aumenta la quantizzazione (passa da Q8 a Q4), riduci il context length. Se niente funziona, probabilmente stai provando a far entrare un elefante in una 500.
Se le performance sono deludenti, prima cosa: verifica che stia effettivamente usando la GPU. Un nvidia-smi ti dice subito se c'e attivita. Se la GPU e a zero, c'e qualcosa che non va nella configurazione CUDA.
Se le risposte sono strane o il modello sembra "stupido", controlla il prompt di sistema. Ogni modello ha il suo formato preferito per i messaggi chat, e usare quello sbagliato puo degradare parecchio la qualita.
Casi d'uso reali
Ho usato LLM locali per diversi progetti negli ultimi mesi. Un paio di esempi concreti.
Per un cliente ho implementato un sistema RAG che analizza documentazione tecnica interna. I documenti non potevano uscire dalla loro rete, quindi LLM locale era l'unica opzione. Ollama + LangChain + ChromaDB, tutto su un server con una A4000.
Per uso personale, ho configurato Continue.dev su VS Code per usare Ollama come backend. E come avere Copilot ma completamente offline e gratuito. Non e altrettanto potente, ma per l'80% dei task e piu che sufficiente.
Un altro uso che trovo comodo: script bash che pipano output a Ollama per analisi. Tipo cat error.log | ollama run llama3 "Analizza questi errori e suggerisci fix". Sembra banale ma fa risparmiare un sacco di tempo.
Conclusioni
Eseguire LLM in locale nel 2026 non e piu roba da smanettoni. Con una GPU da gaming e cinque minuti di setup hai un assistente AI che funziona offline, non costa nulla e rispetta la privacy dei tuoi dati.
Il mio consiglio: parti con Ollama e Llama 3 8B. E la combinazione piu semplice e gia molto capace. Quando avrai preso confidenza, potrai esplorare llama.cpp per ottimizzare le performance o provare modelli piu grandi.
Il trend e chiaro: i modelli diventano sempre piu efficienti e l'hardware consumer sempre piu potente. Tra qualche anno avere un LLM locale sara normale come avere un antivirus. Tanto vale iniziare a familiarizzare adesso.