52. Apple Intelligence in italiano ed esperimenti con Intelligenza Artificiale
In questa puntata ti parlo di Apple Intelligence in italiano, di nuovi LLM locali che mi stanno stupendo e di RAG “agentica” con n8n.
Note dell’episodio
Link
Ecco un elenco puntato di possibili argomenti per cui creare link nelle note dell'episodio:
- Apple Intelligence: In uscita a breve in italiano.
- iOS 18.4: Versione del sistema operativo testata con Apple Intelligence.
- Sequoia 15.4: Versione del sistema operativo macOS testata con Apple Intelligence.
- Gemmoji: Funzione di generazione immagini con intelligenza artificiale su iPhone, iPad e Ma.
- MacStudio (M1): Computer utilizzato per i test di Apple Intelligence e altri strumenti di IA.
- Funzioni di scrittura di Apple Intelligence: Revisione testi, e-mail professionali/amichevoli.
- Estrapolazione di tabelle dal testo con Apple Intelligence: Funzionalità per strutturare informazioni.
- Emoji modificate/generate con intelligenza artificiale (Apple Intelligence): Personalizzazione delle emoji.
- Stable Diffusion: Modello di intelligenza artificiale per la creazione di immagini.
- Flux: Modello di intelligenza artificiale avanzato per la creazione di immagini.
- Ritardo di Siri più intelligente e interfaccia AI con le app iOS/macOS: Funzionalità non disponibili a breve.
- Articolo di Federico Viticci: Contiene considerazioni sul ritardo delle funzioni avanzate di Apple Intelligence.
- Alexa Intelligente: Funzione di intelligenza artificiale di Amazon, menzionata in relazione al marketing di Apple.
- Ollama: Strumento alternativo per utilizzare modelli di intelligenza artificiale su Mac.
- QWQ (32 miliardi di parametri): Modello di linguaggio di grandi dimensioni utilizzato per esperimenti.
- OpenThinker (32 miliardi di parametri): Modello di linguaggio di grandi dimensioni utilizzato per esperimenti.
- DeepSeek R1 (670 miliardi di parametri): Modello di linguaggio di grandi dimensioni con cui QWQ rivaleggia nei benchmark.
- Finestra di contesto (token): Capacità dei modelli QWQ e OpenSync di gestire lunghe sequenze di testo.
- Mistral Small: Modello di linguaggio utilizzato per la traduzione in italiano.
- RAG agentica (o "agentic rag"): Esperimenti con sistemi di Retrieval-Augmented Generation potenziati da agenti.
- Video sull'agentic RAG in n8n: Fonte di ispirazione per gli esperimenti descritti.
- n8n: Piattaforma di automazione del flusso di lavoro utilizzata per costruire l'agentic RAG.
- Docker: Tecnologia di containerizzazione utilizzata per semplificare l'installazione del sistema agentic RAG.
- Agente (nel contesto dell'IA): Programma che utilizza un LLM come interfaccia per risolvere compiti.
- LLM (Large Language Model): Modello linguistico per l'autocompletamento e l'interazione testuale.
- RAG (Retrieval-Augmented Generation): Tecnica per migliorare le risposte degli LLM fornendo loro informazioni esterne (dai documenti).
- Open Web UI: Interfaccia utente menzionata in relazione a semplici implementazioni di RAG.
- SuperBase: Database vettoriale utilizzato nel workflow agentic RAG.
- Embedding: Processo di conversione del testo in vettori per la RAG.
- Docling: Convertitore di formati di documenti (pdf, docx, powerpoint) in Markdown.
- Markdown: Formato di testo semplice con markup, preferito per l'elaborazione da parte degli LLM.
- API di Docling: Interfaccia HTTP per interagire con Docklink.
- Container (Docker) con le API di Docklink: Soluzione implementata per utilizzare Docklink in N8n.
- Passthrough della GPU con Docker su Mac: Limitazione tecnica che impedisce l'utilizzo completo delle GPU Apple all'interno dei container.
- Chip ARM di Apple: Architettura dei processori Apple Silicon su cui il passthrough della GPU in Docker non è attualmente disponibile.
- GDPR (Regolamento generale sulla protezione dei dati): Documento utilizzato per i test della RAG agentica.
- Data breach: Scenario utilizzato come esempio per interrogare il GDPR con la RAG agentica.
- Ricerca online (integrazione con agentic RAG): Possibilità di estendere le capacità della RAG agentica all'informazione presente su internet.
- Interrogazione di database (integrazione con agentic RAG): Capacità di estrarre dati da database.
- Newsletter di Avvocati e Mac
Sinossi
Novità su Apple Intelligence in italiano
Filippo parla del ritardo di Apple Intelligence e dei suoi test sulla versione italiana di Apple Intelligence, avendo aggiornato il suo iPhone 16 a iOS 18.4 e il MacStudio a Sequoia 15.4.
- Le sue prime impressioni sull'utilizzo di Apple Intelligence in italiano sono in linea con le sue aspettative.
- Sull'iPhone 16, l'utilizzo delle Gemmoji (generazione di immagini con AI) porta a un significativo riscaldamento del dispositivo e a un maggiore consumo della batteria. Nonostante ciò, in condizioni di utilizzo normale, la batteria dell'iPhone 16 ha prestazioni eccezionali.
- Sul MacStudio M1, non ha notato particolari rallentamenti.
- Il giudizio complessivo su Apple Intelligence in italiano è che sia "carino ma abbastanza inutile". Alcune funzioni di scrittura potrebbero essere utili per l'utente medio (revisione testi, professionalizzazione/amichevolizzazione email).
- La funzione di estrapolazione di tabelle dal testo è considerata interessante, a seconda del testo fornito.
- L'approccio di Apple è definito conservativo ma utile per chi non ha familiarità con l'intelligenza artificiale.
- Le Gemmoji sono descritte come un modo semplice e divertente per generare immagini cartoon, con risultati migliori in questo stile rispetto a immagini più pittoriche.
- Analizzando le immagini AI nel dettaglio, si notano difetti tipici come dettagli imprecisi (denti, mani, pupille), suggerendo un compromesso sulla qualità.
- Strumenti più avanzati su Mac (DiffusioneBee o ComfyUI) con modelli come Stable Diffusion e Flux permettono di ottenere risultati di livello elevato. I modelli di Apple Intelligence sfruttano meno la potenza del MacStudio.
- I modelli di Apple Intelligence occupano un notevole spazio sull'iPhone (circa 18 GB rispetto agli 11 GB del sistema operativo).
- Le funzioni più interessanti di Apple Intelligence, come Siri più intelligente e l'integrazione AI con le app, sono in ritardo rispetto all'annuncio del WWDC 2024. Questo viene visto come una "brutta figura" per Apple, anche in confronto all'uscita di Alexa Intelligente.
- I dispositivi mobili (iPhone 16) sono considerati meno capaci di gestire l'AI di alto livello rispetto ai Mac (con chip M3 e M4) a causa di limitazioni di RAM. Anche un MacStudio M1 con 32GB di RAM può faticare con operazioni complesse.
- Apple potrebbe aver scelto di offrire un'intelligenza artificiale più semplice e accessibile alle masse, a discapito di funzionalità più avanzate.
- Apple Intelligence sui dispositivi mobili è limitata ai modelli più recenti (iPhone 15 Pro, 16, 16 Pro). Su Mac (con chip M1 e successivi), le possibilità sono maggiori, ma si consiglia di esplorare anche strumenti di terze parti come Ollama.
Test con altri modelli di intelligenza artificiale su Mac
Vengono presentati i test con QWQ (32 miliardi di parametri) e OpenSync (32 milioni di parametri), quantizzati a 4 bit, sul MacStudio M1.
- Questi modelli funzionano relativamente bene su Mac con 32 GB di RAM, mentre faticano su macchine con meno RAM.
- La particolarità di questi modelli è la catena di pensiero che utilizzano prima di rispondere, portando a risposte più centrate, specialmente con prompt poco dettagliati.
- QWQ (di Alibaba) rivaleggia con DeepSeek R1 (molto più grande) nei benchmark.
- Con il MacStudio M1, è stato possibile far girare entrambi i modelli con una finestra di contesto tra i 9.000 e i 10.000 token, permettendo l'elaborazione di prompt complessi.
- Questi modelli hanno un training limitato in italiano; si preferisce spesso farli rispondere in inglese e poi tradurre con Mistral Small, che ha un ottimo supporto per l'italiano. Gli LLM di Mistral sono considerati i migliori per la lingua italiana.
Esperimenti con la RAG agentica
Vengono descritti gli esperimenti con la cosiddetta RAG agentica (o "agentic rag"), ispirati a un video (link in descrizione) che illustra un workflow avanzato in n8n.
- L'autore del video ha creato un sistema per interagire localmente con i documenti, basato su uno stack creato dai creatori di n8n, con l'aggiunta di un database vettoriale con supporto SQL. Questo sistema è dockerizzato e relativamente semplice da installare.
- Viene spiegato cos'è un agente: un programma che utilizza un LLM come interfaccia per risolvere compiti, andando oltre la semplice autocompletamento linguistico dell'LLM.
- Il video mostra varie implementazioni dell'agente, come l'elenco dei documenti caricati, una RAG vera e propria e la ricerca di dati in fogli di calcolo.
- Viene ribadita la definizione di RAG (Retrieval-Augmented Generation) come un modo per ridurre le "allucinazioni" degli LLM fornendo loro informazioni aggiuntive dai documenti.
- La RAG agentica permette all'LLM non solo di estrapolare dati pertinenti dai documenti, ma anche di cercare autonomamente altre informazioni per rispondere.
- L'esempio dell'autore del video include la ricerca e l'analisi di dati in un foglio di calcolo tramite query SQL gestite dall'agente.
- Il workflow utilizzato dall'autore impiega SuperBase come database vettoriale e Ollama sia come LLM che per gli embedding, permettendo di lavorare in locale. Questo è particolarmente importante per la privacy dei dati sensibili, come quelli di un avvocato.
- Viene sottolineato il rischio per la privacy nell'utilizzare piattaforme cloud come ChatGPT per interagire con documenti locali, in quanto i documenti vengono comunque convertiti in vettori e inviati ai server esterni.
- L'autore ha lavorato alla creazione di un sotto-workflow in n8n per convertire automaticamente i PDF in Markdown utilizzando Dockling e poi inserirli nel database vettoriale.
- Dockling è un convertitore di vari formati in Markdown, formato ideale per gli LLM. Docklink funziona a riga di comando o tramite API Python. L'autore preferisce interfacciarsi tramite API per integrarlo in N8n.
- È stato creato un container con le API di Docklink per la conversione di file in Markdown.
- Si è riscontrato che Docklink e altri strumenti simili richiedono molte risorse. Le migliori performance si ottengono lavorando direttamente sul MacStudio.
- Un limite dei Mac con chip ARM è l'impossibilità di fare il passthrough della GPU all'interno dei container Docker, il che complica l'utilizzo efficiente delle risorse per l'AI.
- I primi test con la RAG agentica su documenti GDPR hanno mostrato che per ricerche semplici, una RAG tradizionale con Open Web UI può essere più performante.
- La RAG agentica è più efficace con documenti eterogenei e informazioni sparse, dove l'agente deve affrontare diversi contesti e approcci per recuperare i dati.
- Un aspetto della RAG agentica è il tempo maggiore richiesto, poiché il sistema ragiona e pianifica le azioni prima di rispondere. La catena di pensiero (Chain of Thought) è fondamentale in questo approccio.
- L'obiettivo è utilizzare la RAG agentica per interrogare diverse fonti di informazione (documenti, internet, database, tabelle) per ottenere risultati complessi e pertinenti, a seconda della base dati.
- Questi strumenti sono considerati il futuro, sebbene complessi e ancora in fase di apprendimento per l'autore. N8n è visto come uno strumento utile per creare piccoli programmi che sfruttano l'AI e si interfacciano con diverse fonti di dati.