In questa puntata ti parlo di Apple Intelligence in italiano, di nuovi LLM locali che mi stanno stupendo e di RAG “agentica” con n8n.

Note dell’episodio

Ecco un elenco puntato di possibili argomenti per cui creare link nelle note dell’episodio:

  • Apple Intelligence: In uscita a breve in italiano.
  • iOS 18.4: Versione del sistema operativo testata con Apple Intelligence.
  • Sequoia 15.4: Versione del sistema operativo macOS testata con Apple Intelligence.
  • Gemmoji: Funzione di generazione immagini con intelligenza artificiale su iPhone, iPad e Ma.
  • MacStudio (M1): Computer utilizzato per i test di Apple Intelligence e altri strumenti di IA.
  • Funzioni di scrittura di Apple Intelligence: Revisione testi, e-mail professionali/amichevoli.
  • Estrapolazione di tabelle dal testo con Apple Intelligence: Funzionalità per strutturare informazioni.
  • Emoji modificate/generate con intelligenza artificiale (Apple Intelligence): Personalizzazione delle emoji.
  • Stable Diffusion: Modello di intelligenza artificiale per la creazione di immagini.
  • Flux: Modello di intelligenza artificiale avanzato per la creazione di immagini.
  • Ritardo di Siri più intelligente e interfaccia AI con le app iOS/macOS: Funzionalità non disponibili a breve.
  • Articolo di Federico Viticci: Contiene considerazioni sul ritardo delle funzioni avanzate di Apple Intelligence.
  • Alexa Intelligente: Funzione di intelligenza artificiale di Amazon, menzionata in relazione al marketing di Apple.
  • Ollama: Strumento alternativo per utilizzare modelli di intelligenza artificiale su Mac.
  • QWQ (32 miliardi di parametri): Modello di linguaggio di grandi dimensioni utilizzato per esperimenti.
  • OpenThinker (32 miliardi di parametri): Modello di linguaggio di grandi dimensioni utilizzato per esperimenti.
  • DeepSeek R1 (670 miliardi di parametri): Modello di linguaggio di grandi dimensioni con cui QWQ rivaleggia nei benchmark.
  • Finestra di contesto (token): Capacità dei modelli QWQ e OpenSync di gestire lunghe sequenze di testo.
  • Mistral Small: Modello di linguaggio utilizzato per la traduzione in italiano.
  • RAG agentica (o “agentic rag”): Esperimenti con sistemi di Retrieval-Augmented Generation potenziati da agenti.
  • Video sull’agentic RAG in n8n: Fonte di ispirazione per gli esperimenti descritti.
  • n8n: Piattaforma di automazione del flusso di lavoro utilizzata per costruire l’agentic RAG.
  • Docker: Tecnologia di containerizzazione utilizzata per semplificare l’installazione del sistema agentic RAG.
  • Agente (nel contesto dell’IA): Programma che utilizza un LLM come interfaccia per risolvere compiti.
  • LLM (Large Language Model): Modello linguistico per l’autocompletamento e l’interazione testuale.
  • RAG (Retrieval-Augmented Generation): Tecnica per migliorare le risposte degli LLM fornendo loro informazioni esterne (dai documenti).
  • Open Web UI: Interfaccia utente menzionata in relazione a semplici implementazioni di RAG.
  • SuperBase: Database vettoriale utilizzato nel workflow agentic RAG.
  • Embedding: Processo di conversione del testo in vettori per la RAG.
  • Docling: Convertitore di formati di documenti (pdf, docx, powerpoint) in Markdown.
  • Markdown: Formato di testo semplice con markup, preferito per l’elaborazione da parte degli LLM.
  • API di Docling: Interfaccia HTTP per interagire con Docklink.
  • Container (Docker) con le API di Docklink: Soluzione implementata per utilizzare Docklink in N8n.
  • Passthrough della GPU con Docker su Mac: Limitazione tecnica che impedisce l’utilizzo completo delle GPU Apple all’interno dei container.
  • Chip ARM di Apple: Architettura dei processori Apple Silicon su cui il passthrough della GPU in Docker non è attualmente disponibile.
  • GDPR (Regolamento generale sulla protezione dei dati): Documento utilizzato per i test della RAG agentica.
  • Data breach: Scenario utilizzato come esempio per interrogare il GDPR con la RAG agentica.
  • Ricerca online (integrazione con agentic RAG): Possibilità di estendere le capacità della RAG agentica all’informazione presente su internet.
  • Interrogazione di database (integrazione con agentic RAG): Capacità di estrarre dati da database.
  • Newsletter di Avvocati e Mac

Sinossi

Novità su Apple Intelligence in italiano

Filippo parla del ritardo di Apple Intelligence e dei suoi test sulla versione italiana di Apple Intelligence, avendo aggiornato il suo iPhone 16 a iOS 18.4 e il MacStudio a Sequoia 15.4.

  • Le sue prime impressioni sull’utilizzo di Apple Intelligence in italiano sono in linea con le sue aspettative.
  • Sull’iPhone 16, l’utilizzo delle Gemmoji (generazione di immagini con AI) porta a un significativo riscaldamento del dispositivo e a un maggiore consumo della batteria. Nonostante ciò, in condizioni di utilizzo normale, la batteria dell’iPhone 16 ha prestazioni eccezionali.
  • Sul MacStudio M1, non ha notato particolari rallentamenti.
  • Il giudizio complessivo su Apple Intelligence in italiano è che sia “carino ma abbastanza inutile”. Alcune funzioni di scrittura potrebbero essere utili per l’utente medio (revisione testi, professionalizzazione/amichevolizzazione email).
  • La funzione di estrapolazione di tabelle dal testo è considerata interessante, a seconda del testo fornito.
  • L’approccio di Apple è definito conservativo ma utile per chi non ha familiarità con l’intelligenza artificiale.
  • Le Gemmoji sono descritte come un modo semplice e divertente per generare immagini cartoon, con risultati migliori in questo stile rispetto a immagini più pittoriche.
  • Analizzando le immagini AI nel dettaglio, si notano difetti tipici come dettagli imprecisi (denti, mani, pupille), suggerendo un compromesso sulla qualità.
  • Strumenti più avanzati su Mac (DiffusioneBee o ComfyUI) con modelli come Stable Diffusion e Flux permettono di ottenere risultati di livello elevato. I modelli di Apple Intelligence sfruttano meno la potenza del MacStudio.
  • I modelli di Apple Intelligence occupano un notevole spazio sull’iPhone (circa 18 GB rispetto agli 11 GB del sistema operativo).
  • Le funzioni più interessanti di Apple Intelligence, come Siri più intelligente e l’integrazione AI con le app, sono in ritardo rispetto all’annuncio del WWDC 2024. Questo viene visto come una “brutta figura” per Apple, anche in confronto all’uscita di Alexa Intelligente.
  • dispositivi mobili (iPhone 16) sono considerati meno capaci di gestire l’AI di alto livello rispetto ai Mac (con chip M3 e M4) a causa di limitazioni di RAM. Anche un MacStudio M1 con 32GB di RAM può faticare con operazioni complesse.
  • Apple potrebbe aver scelto di offrire un’intelligenza artificiale più semplice e accessibile alle masse, a discapito di funzionalità più avanzate.
  • Apple Intelligence sui dispositivi mobili è limitata ai modelli più recenti (iPhone 15 Pro, 16, 16 Pro). Su Mac (con chip M1 e successivi), le possibilità sono maggiori, ma si consiglia di esplorare anche strumenti di terze parti come Ollama.

Test con altri modelli di intelligenza artificiale su Mac

Vengono presentati i test con QWQ (32 miliardi di parametri) e OpenSync (32 milioni di parametri), quantizzati a 4 bit, sul MacStudio M1.

  • Questi modelli funzionano relativamente bene su Mac con 32 GB di RAM, mentre faticano su macchine con meno RAM.
  • La particolarità di questi modelli è la catena di pensiero che utilizzano prima di rispondere, portando a risposte più centrate, specialmente con prompt poco dettagliati.
  • QWQ (di Alibaba) rivaleggia con DeepSeek R1 (molto più grande) nei benchmark.
  • Con il MacStudio M1, è stato possibile far girare entrambi i modelli con una finestra di contesto tra i 9.000 e i 10.000 token, permettendo l’elaborazione di prompt complessi.
  • Questi modelli hanno un training limitato in italiano; si preferisce spesso farli rispondere in inglese e poi tradurre con Mistral Small, che ha un ottimo supporto per l’italiano. Gli LLM di Mistral sono considerati i migliori per la lingua italiana.

Esperimenti con la RAG agentica

Vengono descritti gli esperimenti con la cosiddetta RAG agentica (o “agentic rag”), ispirati a un video (link in descrizione) che illustra un workflow avanzato in n8n.

  • L’autore del video ha creato un sistema per interagire localmente con i documenti, basato su uno stack creato dai creatori di n8n, con l’aggiunta di un database vettoriale con supporto SQL. Questo sistema è dockerizzato e relativamente semplice da installare.
  • Viene spiegato cos’è un agente: un programma che utilizza un LLM come interfaccia per risolvere compiti, andando oltre la semplice autocompletamento linguistico dell’LLM.
  • Il video mostra varie implementazioni dell’agente, come l’elenco dei documenti caricati, una RAG vera e propria e la ricerca di dati in fogli di calcolo.
  • Viene ribadita la definizione di RAG (Retrieval-Augmented Generation) come un modo per ridurre le “allucinazioni” degli LLM fornendo loro informazioni aggiuntive dai documenti.
  • La RAG agentica permette all’LLM non solo di estrapolare dati pertinenti dai documenti, ma anche di cercare autonomamente altre informazioni per rispondere.
  • L’esempio dell’autore del video include la ricerca e l’analisi di dati in un foglio di calcolo tramite query SQL gestite dall’agente.
  • Il workflow utilizzato dall’autore impiega SuperBase come database vettoriale e Ollama sia come LLM che per gli embedding, permettendo di lavorare in locale. Questo è particolarmente importante per la privacy dei dati sensibili, come quelli di un avvocato.
  • Viene sottolineato il rischio per la privacy nell’utilizzare piattaforme cloud come ChatGPT per interagire con documenti locali, in quanto i documenti vengono comunque convertiti in vettori e inviati ai server esterni.
  • L’autore ha lavorato alla creazione di un sotto-workflow in n8n per convertire automaticamente i PDF in Markdown utilizzando Dockling e poi inserirli nel database vettoriale.
  • Dockling è un convertitore di vari formati in Markdown, formato ideale per gli LLM. Docklink funziona a riga di comando o tramite API Python. L’autore preferisce interfacciarsi tramite API per integrarlo in N8n.
  • È stato creato un container con le API di Docklink per la conversione di file in Markdown.
  • Si è riscontrato che Docklink e altri strumenti simili richiedono molte risorse. Le migliori performance si ottengono lavorando direttamente sul MacStudio.
  • Un limite dei Mac con chip ARM è l’impossibilità di fare il passthrough della GPU all’interno dei container Docker, il che complica l’utilizzo efficiente delle risorse per l’AI.
  • I primi test con la RAG agentica su documenti GDPR hanno mostrato che per ricerche semplici, una RAG tradizionale con Open Web UI può essere più performante.
  • La RAG agentica è più efficace con documenti eterogenei e informazioni sparse, dove l’agente deve affrontare diversi contesti e approcci per recuperare i dati.
  • Un aspetto della RAG agentica è il tempo maggiore richiesto, poiché il sistema ragiona e pianifica le azioni prima di rispondere. La catena di pensiero (Chain of Thought) è fondamentale in questo approccio.
  • L’obiettivo è utilizzare la RAG agentica per interrogare diverse fonti di informazione (documenti, internet, database, tabelle) per ottenere risultati complessi e pertinenti, a seconda della base dati.
  • Questi strumenti sono considerati il futuro, sebbene complessi e ancora in fase di apprendimento per l’autore. N8n è visto come uno strumento utile per creare piccoli programmi che sfruttano l’AI e si interfacciano con diverse fonti di dati.