Un anno fa la scelta era semplice: volevi qualcosa di decente, usavi le API di OpenAI. I modelli open source esistevano, ma erano chiaramente inferiori. Oggi la situazione e completamente diversa, e orientarsi tra le opzioni disponibili e diventato complicato.
Ho passato gli ultimi mesi a testare praticamente ogni modello open source rilevante per capire quale usare nei miei progetti. Quello che segue e il risultato di questa esplorazione, con opinioni sincere su cosa funziona e cosa no.
Il panorama attuale
I player principali sono cinque: Meta con Llama 3, Mistral AI con Mistral e Mixtral, Google con Gemma, Microsoft con Phi-3, e Alibaba con Qwen. Ognuno ha filosofie diverse e punti di forza specifici.
Meta domina per community e adozione. Mistral ha fatto scalpore con modelli incredibilmente efficienti. Google punta sulla sicurezza e il multilingua. Microsoft ha dimostrato che piccolo non significa scarso. Alibaba ha il miglior supporto per il cinese, ma e forte anche in inglese.
Llama 3: il tuttofare
Meta ha fatto un lavoro eccellente con Llama 3. Rispetto alla versione 2, il salto di qualita e evidente in tutto: segue meglio le istruzioni, ragiona in modo piu coerente, e finalmente gestisce l'italiano decentemente.
La versione 8B e quella che uso quotidianamente. Con 6 GB di VRAM in Q4 gira su qualsiasi GPU moderna, e la qualita e sorprendente. Per capirci: in molti task supera GPT-3.5, che fino a poco fa era il benchmark da battere.
La versione 70B e un'altra bestia. Richiede hardware serio (almeno 40 GB di VRAM in Q4), ma la qualita si avvicina a GPT-4 in diversi ambiti. Se hai una RTX 4090 o una workstation con A6000, vale la pena provarla.
C'e anche la 405B, ma e piu una dimostrazione di forza che qualcosa di praticamente utilizzabile. Serve un cluster per farla girare.
Un difetto di Llama 3: Meta ha implementato filtri di sicurezza piuttosto aggressivi. A volte rifiuta richieste perfettamente legittime perche le interpreta come potenzialmente problematiche. Esistono versioni "uncensored" della community, ma ovviamente perdi il supporto ufficiale.
La licenza e un altro punto controverso. Non e veramente open source nel senso stretto: c'e un limite di 700 milioni di utenti mensili e alcune restrizioni sull'uso. Per il 99% dei casi non e un problema, ma se stai costruendo il prossimo ChatGPT, devi parlare con Meta.
Mistral e Mixtral: efficienza francese
Mistral AI e una startup che ha fatto parlare molto di se. Fondata da ex-ricercatori di Google e Meta, ha rilasciato modelli che sulla carta non dovrebbero funzionare cosi bene.
Mistral 7B compete con modelli da 13B parametri. Come ci riescono? Architettura ottimizzata e training curato. Il risultato e un modello che gira con 5 GB di VRAM e produce output di qualita.
Dove Mistral brilla davvero e nel coding e nel ragionamento logico. Se devi risolvere problemi che richiedono pensiero strutturato, spesso batte Llama 3 8B nonostante le dimensioni inferiori.
Mixtral 8x7B e ancora piu interessante. Usa un'architettura chiamata Mixture of Experts: ha 46 miliardi di parametri totali, ma per ogni token ne attiva solo 12.9 miliardi. In pratica hai la qualita di un modello grande con i costi computazionali di uno piccolo. Richiede circa 24 GB di VRAM in Q4.
Il punto forte di Mistral AI e la licenza: Apache 2.0, completamente libera. Puoi fare quello che vuoi, uso commerciale incluso, senza asterischi.
Il punto debole e il supporto multilingua. Sono modelli ottimizzati per l'inglese. L'italiano lo capiscono, ma le risposte sono meno naturali rispetto a Llama 3 o Gemma.
Un altro aspetto da considerare: Mistral non ha filtri di sicurezza integrati. Per alcuni e un vantaggio (niente rifiuti arbitrari), per altri un problema (devi implementare i tuoi controlli se servono).
Gemma 2: la scelta per l'italiano
Google ha rilasciato Gemma come versione open weight dei modelli Gemini. E disponibile in tre taglie: 2B, 9B, e 27B.
Il punto di forza principale e il supporto multilingua. Se lavori con l'italiano, Gemma 2 9B e probabilmente la scelta migliore nel segmento. Le risposte sono naturali, il vocabolario e ricco, e gestisce bene le sfumature della lingua.
La versione 2B e interessante per chi ha hardware limitatissimo. Con 2 GB di VRAM fai girare un modello che, per task semplici, se la cava. Non aspettarti miracoli, ma per classificazione di testo o risposte brevi funziona.
Google ha integrato filtri di sicurezza piuttosto stretti. Piu stretti di Llama 3, a dire il vero. Questo rende Gemma adatto ad applicazioni consumer, ma puo essere frustrante per usi tecnici dove vorresti risposte dirette.
La licenza (Gemma Terms of Use) e permissiva per la maggior parte degli usi ma ha alcune clausole specifiche. Leggila se stai pianificando un prodotto commerciale.
Phi-3: il piccolo gigante
Microsoft ha preso una strada diversa con Phi-3. Invece di aumentare i parametri, ha investito nella qualita dei dati di training. Il risultato e un modello da 3.8B parametri che in certi benchmark batte modelli tre volte piu grandi.
Phi-3 Mini gira con 3 GB di VRAM. E perfetto per hardware vecchio, laptop senza GPU dedicata, o deployment su edge devices. Ho visto gente farlo girare su Raspberry Pi (lentissimo, ma funziona).
Dove eccelle: ragionamento matematico e logico. I benchmark GSM8K lo mostrano chiaramente - Phi-3 Mini supera Llama 3 8B in questo ambito. Se hai bisogno di un modello per task analitici e hai hardware limitato, e una scelta eccellente.
Dove delude: conoscenza generale e creativita. Il training data ristretto si vede. Per conversazioni aperte o task che richiedono conoscenza del mondo, modelli piu grandi restano superiori.
La licenza MIT e la piu permissiva possibile. Fai letteralmente quello che vuoi.
Qwen 2: il jolly cinese
Alibaba con Qwen 2 ha creato qualcosa di notevole. E pensato per il bilinguismo cinese-inglese, ma le performance in inglese sono competitive con i migliori.
La gamma e ampia: da 0.5B a 72B parametri. Le versioni piccole (0.5B e 1.5B) sono interessanti per deployment estremi. La 72B compete con Llama 3 70B nei benchmark.
Il supporto per context lunghi e nativo: 128K token senza trucchi. Se devi processare documenti lunghi, Qwen 2 e una delle opzioni migliori.
Per progetti occidentali, il limite principale e la community piu piccola e la documentazione spesso in cinese. Se non ti spaventa, e un modello che merita attenzione.
Quale scegliere in pratica
Dopo tutti questi test, le mie raccomandazioni sono abbastanza chiare.
Se non sai da dove partire e hai hardware nella media (8 GB VRAM), vai con Llama 3 8B. E il modello con la community piu grande, il supporto migliore, e qualita eccellente. Non sbagli.
Se lavori principalmente in italiano, considera Gemma 2 9B. La differenza nella qualita delle risposte in italiano e tangibile.
Se fai coding e ragionamento logico, Mistral 7B e spesso la scelta migliore. E anche completamente open source, che per certi progetti e un requisito.
Se hai hardware limitato, Phi-3 Mini fa miracoli con risorse minime. Non e versatile come i modelli piu grandi, ma per task specifici e sorprendente.
Se hai hardware potente e vuoi il massimo, Llama 3 70B in Q4 su una RTX 4090 e un'esperienza. Mixtral 8x7B e un'alternativa interessante se preferisci licenza Apache 2.0.
Una nota sui benchmark
Ho citato vari benchmark nell'articolo, ma prendi quei numeri con le pinze. MMLU, HumanEval, GSM8K sono utili per confronti rapidi, ma non raccontano tutta la storia.
Ho visto modelli che brillano nei benchmark e poi producono output mediocri su task reali. E viceversa: modelli con punteggi modesti che nel mio workflow specifico funzionano meglio di altri teoricamente superiori.
Il mio consiglio: prova 2-3 modelli sul tuo caso d'uso specifico prima di decidere. Con Ollama ci vogliono letteralmente minuti:
ollama run llama3 "il tuo prompt"
ollama run mistral "il tuo prompt"
ollama run gemma2 "il tuo prompt"
I benchmark ti danno una direzione, ma l'unico test che conta e quello sui tuoi dati.
Il futuro
Il ritmo di evoluzione e impressionante. Mentre scrivo questo articolo, probabilmente qualcuno sta rilasciando un nuovo modello che rendera obsoleta qualche raccomandazione.
La tendenza e chiara: modelli piu piccoli ed efficienti che raggiungono qualita prima riservata a modelli enormi. Phi-3 ha dimostrato che e possibile, e altri seguiranno.
Per chi sviluppa applicazioni AI, e il momento migliore di sempre. Hai opzioni open source competitive con le soluzioni proprietarie, licenze permissive, e una community attiva che rilascia fine-tune e ottimizzazioni continuamente.
Il mio suggerimento: non innamorarti di un modello specifico. Rimani aggiornato, sperimenta con le nuove uscite, e sii pronto a cambiare quando qualcosa di meglio arriva. Nel mondo LLM, "meglio" arriva spesso.