In questa puntata ti parlo di Apple Intelligence in italiano, di nuovi LLM locali che mi stanno stupendo e di RAG “agentica” con n8n.

Note dell’episodio

Link

Ecco un elenco puntato di possibili argomenti per cui creare link nelle note dell'episodio:

Apple Intelligence: In uscita a breve in italiano.
iOS 18.4: Versione del sistema operativo testata con Apple Intelligence.
Sequoia 15.4: Versione del sistema operativo macOS testata con Apple Intelligence.
Gemmoji: Funzione di generazione immagini con intelligenza artificiale su iPhone, iPad e Ma.
MacStudio (M1): Computer utilizzato per i test di Apple Intelligence e altri strumenti di IA.
Funzioni di scrittura di Apple Intelligence: Revisione testi, e-mail professionali/amichevoli.
Estrapolazione di tabelle dal testo con Apple Intelligence: Funzionalità per strutturare informazioni.
Emoji modificate/generate con intelligenza artificiale (Apple Intelligence): Personalizzazione delle emoji.
Stable Diffusion: Modello di intelligenza artificiale per la creazione di immagini.
Flux: Modello di intelligenza artificiale avanzato per la creazione di immagini.
Ritardo di Siri più intelligente e interfaccia AI con le app iOS/macOS: Funzionalità non disponibili a breve.
Articolo di Federico Viticci: Contiene considerazioni sul ritardo delle funzioni avanzate di Apple Intelligence.
Alexa Intelligente: Funzione di intelligenza artificiale di Amazon, menzionata in relazione al marketing di Apple.
Ollama: Strumento alternativo per utilizzare modelli di intelligenza artificiale su Mac.
QWQ (32 miliardi di parametri): Modello di linguaggio di grandi dimensioni utilizzato per esperimenti.
OpenThinker (32 miliardi di parametri): Modello di linguaggio di grandi dimensioni utilizzato per esperimenti.
DeepSeek R1 (670 miliardi di parametri): Modello di linguaggio di grandi dimensioni con cui QWQ rivaleggia nei benchmark.
Finestra di contesto (token): Capacità dei modelli QWQ e OpenSync di gestire lunghe sequenze di testo.
Mistral Small: Modello di linguaggio utilizzato per la traduzione in italiano.
RAG agentica (o "agentic rag"): Esperimenti con sistemi di Retrieval-Augmented Generation potenziati da agenti.
Video sull'agentic RAG in n8n: Fonte di ispirazione per gli esperimenti descritti.
n8n: Piattaforma di automazione del flusso di lavoro utilizzata per costruire l'agentic RAG.
Docker: Tecnologia di containerizzazione utilizzata per semplificare l'installazione del sistema agentic RAG.
Agente (nel contesto dell'IA): Programma che utilizza un LLM come interfaccia per risolvere compiti.
LLM (Large Language Model): Modello linguistico per l'autocompletamento e l'interazione testuale.
RAG (Retrieval-Augmented Generation): Tecnica per migliorare le risposte degli LLM fornendo loro informazioni esterne (dai documenti).
Open Web UI: Interfaccia utente menzionata in relazione a semplici implementazioni di RAG.
SuperBase: Database vettoriale utilizzato nel workflow agentic RAG.
Embedding: Processo di conversione del testo in vettori per la RAG.
Docling: Convertitore di formati di documenti (pdf, docx, powerpoint) in Markdown.
Markdown: Formato di testo semplice con markup, preferito per l'elaborazione da parte degli LLM.
API di Docling: Interfaccia HTTP per interagire con Docklink.
Container (Docker) con le API di Docklink: Soluzione implementata per utilizzare Docklink in N8n.
Passthrough della GPU con Docker su Mac: Limitazione tecnica che impedisce l'utilizzo completo delle GPU Apple all'interno dei container.
Chip ARM di Apple: Architettura dei processori Apple Silicon su cui il passthrough della GPU in Docker non è attualmente disponibile.
GDPR (Regolamento generale sulla protezione dei dati): Documento utilizzato per i test della RAG agentica.
Data breach: Scenario utilizzato come esempio per interrogare il GDPR con la RAG agentica.
Ricerca online (integrazione con agentic RAG): Possibilità di estendere le capacità della RAG agentica all'informazione presente su internet.
Interrogazione di database (integrazione con agentic RAG): Capacità di estrarre dati da database.
Newsletter di Avvocati e Mac

Sinossi

Novità su Apple Intelligence in italiano

Filippo parla del ritardo di Apple Intelligence e dei suoi test sulla versione italiana di Apple Intelligence, avendo aggiornato il suo iPhone 16 a iOS 18.4 e il MacStudio a Sequoia 15.4.

Le sue prime impressioni sull'utilizzo di Apple Intelligence in italiano sono in linea con le sue aspettative.
Sull'iPhone 16, l'utilizzo delle Gemmoji (generazione di immagini con AI) porta a un significativo riscaldamento del dispositivo e a un maggiore consumo della batteria. Nonostante ciò, in condizioni di utilizzo normale, la batteria dell'iPhone 16 ha prestazioni eccezionali.
Sul MacStudio M1, non ha notato particolari rallentamenti.
Il giudizio complessivo su Apple Intelligence in italiano è che sia "carino ma abbastanza inutile". Alcune funzioni di scrittura potrebbero essere utili per l'utente medio (revisione testi, professionalizzazione/amichevolizzazione email).
La funzione di estrapolazione di tabelle dal testo è considerata interessante, a seconda del testo fornito.
L'approccio di Apple è definito conservativo ma utile per chi non ha familiarità con l'intelligenza artificiale.
Le Gemmoji sono descritte come un modo semplice e divertente per generare immagini cartoon, con risultati migliori in questo stile rispetto a immagini più pittoriche.
Analizzando le immagini AI nel dettaglio, si notano difetti tipici come dettagli imprecisi (denti, mani, pupille), suggerendo un compromesso sulla qualità.
Strumenti più avanzati su Mac (DiffusioneBee o ComfyUI) con modelli come Stable Diffusion e Flux permettono di ottenere risultati di livello elevato. I modelli di Apple Intelligence sfruttano meno la potenza del MacStudio.
I modelli di Apple Intelligence occupano un notevole spazio sull'iPhone (circa 18 GB rispetto agli 11 GB del sistema operativo).
Le funzioni più interessanti di Apple Intelligence, come Siri più intelligente e l'integrazione AI con le app, sono in ritardo rispetto all'annuncio del WWDC 2024. Questo viene visto come una "brutta figura" per Apple, anche in confronto all'uscita di Alexa Intelligente.
I dispositivi mobili (iPhone 16) sono considerati meno capaci di gestire l'AI di alto livello rispetto ai Mac (con chip M3 e M4) a causa di limitazioni di RAM. Anche un MacStudio M1 con 32GB di RAM può faticare con operazioni complesse.
Apple potrebbe aver scelto di offrire un'intelligenza artificiale più semplice e accessibile alle masse, a discapito di funzionalità più avanzate.
Apple Intelligence sui dispositivi mobili è limitata ai modelli più recenti (iPhone 15 Pro, 16, 16 Pro). Su Mac (con chip M1 e successivi), le possibilità sono maggiori, ma si consiglia di esplorare anche strumenti di terze parti come Ollama.

Test con altri modelli di intelligenza artificiale su Mac

Vengono presentati i test con QWQ (32 miliardi di parametri) e OpenSync (32 milioni di parametri), quantizzati a 4 bit, sul MacStudio M1.

Questi modelli funzionano relativamente bene su Mac con 32 GB di RAM, mentre faticano su macchine con meno RAM.
La particolarità di questi modelli è la catena di pensiero che utilizzano prima di rispondere, portando a risposte più centrate, specialmente con prompt poco dettagliati.
QWQ (di Alibaba) rivaleggia con DeepSeek R1 (molto più grande) nei benchmark.
Con il MacStudio M1, è stato possibile far girare entrambi i modelli con una finestra di contesto tra i 9.000 e i 10.000 token, permettendo l'elaborazione di prompt complessi.
Questi modelli hanno un training limitato in italiano; si preferisce spesso farli rispondere in inglese e poi tradurre con Mistral Small, che ha un ottimo supporto per l'italiano. Gli LLM di Mistral sono considerati i migliori per la lingua italiana.

Esperimenti con la RAG agentica

Vengono descritti gli esperimenti con la cosiddetta RAG agentica (o "agentic rag"), ispirati a un video (link in descrizione) che illustra un workflow avanzato in n8n.

L'autore del video ha creato un sistema per interagire localmente con i documenti, basato su uno stack creato dai creatori di n8n, con l'aggiunta di un database vettoriale con supporto SQL. Questo sistema è dockerizzato e relativamente semplice da installare.
Viene spiegato cos'è un agente: un programma che utilizza un LLM come interfaccia per risolvere compiti, andando oltre la semplice autocompletamento linguistico dell'LLM.
Il video mostra varie implementazioni dell'agente, come l'elenco dei documenti caricati, una RAG vera e propria e la ricerca di dati in fogli di calcolo.
Viene ribadita la definizione di RAG (Retrieval-Augmented Generation) come un modo per ridurre le "allucinazioni" degli LLM fornendo loro informazioni aggiuntive dai documenti.
La RAG agentica permette all'LLM non solo di estrapolare dati pertinenti dai documenti, ma anche di cercare autonomamente altre informazioni per rispondere.
L'esempio dell'autore del video include la ricerca e l'analisi di dati in un foglio di calcolo tramite query SQL gestite dall'agente.
Il workflow utilizzato dall'autore impiega SuperBase come database vettoriale e Ollama sia come LLM che per gli embedding, permettendo di lavorare in locale. Questo è particolarmente importante per la privacy dei dati sensibili, come quelli di un avvocato.
Viene sottolineato il rischio per la privacy nell'utilizzare piattaforme cloud come ChatGPT per interagire con documenti locali, in quanto i documenti vengono comunque convertiti in vettori e inviati ai server esterni.
L'autore ha lavorato alla creazione di un sotto-workflow in n8n per convertire automaticamente i PDF in Markdown utilizzando Dockling e poi inserirli nel database vettoriale.
Dockling è un convertitore di vari formati in Markdown, formato ideale per gli LLM. Docklink funziona a riga di comando o tramite API Python. L'autore preferisce interfacciarsi tramite API per integrarlo in N8n.
È stato creato un container con le API di Docklink per la conversione di file in Markdown.
Si è riscontrato che Docklink e altri strumenti simili richiedono molte risorse. Le migliori performance si ottengono lavorando direttamente sul MacStudio.
Un limite dei Mac con chip ARM è l'impossibilità di fare il passthrough della GPU all'interno dei container Docker, il che complica l'utilizzo efficiente delle risorse per l'AI.
I primi test con la RAG agentica su documenti GDPR hanno mostrato che per ricerche semplici, una RAG tradizionale con Open Web UI può essere più performante.
La RAG agentica è più efficace con documenti eterogenei e informazioni sparse, dove l'agente deve affrontare diversi contesti e approcci per recuperare i dati.
Un aspetto della RAG agentica è il tempo maggiore richiesto, poiché il sistema ragiona e pianifica le azioni prima di rispondere. La catena di pensiero (Chain of Thought) è fondamentale in questo approccio.
L'obiettivo è utilizzare la RAG agentica per interrogare diverse fonti di informazione (documenti, internet, database, tabelle) per ottenere risultati complessi e pertinenti, a seconda della base dati.
Questi strumenti sono considerati il futuro, sebbene complessi e ancora in fase di apprendimento per l'autore. N8n è visto come uno strumento utile per creare piccoli programmi che sfruttano l'AI e si interfacciano con diverse fonti di dati.