LLM per tutti con Ollama e Llama 3.2

Questo è un breve articolo di segnalazione, ma credo ne valga la pena.

1. Llama 3.2

In questi giorni infatti Meta, ex Facebook, rilasciato Llama3.2 della versione da 1B e 3B. Sono modelli esclusivamente testuali e larghe language model multilingue.

1.1 3B (3 milioni di parametri)

Il modello 3B supera i modelli Gemma 2 2.6B e Phi 3.5-mini su attività quali:

Seguendo le istruzioni
Riassunto
Riscrittura rapida
utilizzo con tool

La versione quantizzata a 4 bit pesa 2 Gb e può girare senza troppa fatica su qualsiasi Mac con Apple Silicon.

Ho fatto qualche test rapido e, sul mio MacMini M1 con 8Gb di ram, le risposte del modello sono di circa 20 token al secondo. In pratica sputa fuori il testo quasi come chatGPT. Devo fare dei test più approfonditi ma "parla" relativamente bene l'italiano anche se dalle domande standard che ho provato le risposte sono un po' troppo prolisse.

1.2 1B (1 milione di parametri)

Il modello 1B è competitivo con altri modelli di parametri 1-3B. I suoi casi d'uso includono:

Gestione delle informazioni personali
Recupero delle conoscenze multilingue
Riscrivere le attività in esecuzione localmente sul bordo

Quest'ultimo modello (quantizzato ad 8bit) pesa solo 1,3 Gb. Questo modello, sempre sul MacMini M1, raggiunge i 34 token al secondo nella risposta. Anche qui ho fatto dei test superficiali e questo modello parla bene l'italiano ma è meno "istruito" del precedente. Alla classica domanda "perché il cielo è blu?" Mi ha risposto con un lungo testo ma senza spiegare le motivazioni scientifiche, come aveva fatto il fratello maggiore.

1.3 Finestra di contesto da 128.000 token

Altra particolarità interessante di questi 2 modelli è che la finestra di contesto può raggiungere i 128.000 token che, per la tipologia di LLM, è "tanta roba".

La finestra di contesto grossa, tuttavia, non sempre è un vantaggio e comunque non è sfruttabile su Mac con poca RAM.

2. Ollama e Llama3.2

La notizia è rilevante, almeno dal mio punto di vista, perché questi modelli sono da subito disponibili per Ollama.

Ti ho già spiegato in questo articolo come installare Ollama sul tuo Mac.

In un prossimo futuro conto di mostrarti come utilizzare Comandi Rapidi per sfruttare Ollama e gli LLM per creare automazioni su macOS ed iOS.

Unendo questi strumenti si potrà avere qualcosa di simile a quello che promette di offrire Apple Intelligence ma prima che Apple la porti in Italia.

In conclusione

Abitualmente non tratto le “news” sull’intelligenza artificiale e gli LLM ma i nuovi modelli di Meta possono diventare uno strumento interessante per chi, come me, vuole lavorare solo in locale con i propri dati. Sempre in attesa (senza troppa fretta – si parla forse del 2025) di Apple Intelligence.

Come sempre, se ti è piaciuto quel che hai letto o visto e non l’hai già fatto, ti suggerisco di iscriverti alla mia newsletter. Ti avvertirò dei nuovi articoli che pubblico (oltre ai podcast e video su YouTube) e, mensilmente, ti segnalerò articoli che ho raccolto nel corso del mese ed ho ritenuto interessanti.