Ci siamo abituati a usare ChatGPT, Gemini e Perplexity come se fossero oracoli. Gli chiediamo tutto — consigli, sintesi, analisi, soluzioni. E poi ci indigniamo quando sbagliano, o ci illudiamo che abbiano ragione perché la risposta è formulata bene e suona convincente.
Arthur C. Clarke scrisse che qualunque tecnologia sufficientemente avanzata è indistinguibile dalla magia. Gli LLM sono un caso quasi perfetto: sembrano sapere tutto, sembrano capire tutto, e quando si sbagliano lo fanno con una tale sicurezza che è difficile accorgersene sul momento.
Il problema, quasi sempre, siamo noi. Non perché siamo ingenui — ma perché non sappiamo come funzionano. E non saperlo ci fa fare le domande sbagliate, interpretare male le risposte, e lavorare su leve che non spostano nulla.
Questo articolo prova a cambiare quella cosa — spiegando, in modo accessibile, i tre meccanismi che determinano cosa sa un modello AI e come lo sa.
La memoria del modello
Un LLM non "cerca" le informazioni ogni volta che risponde. Le ha già dentro, codificate nei miliardi di parametri che compongono il modello, costruiti leggendo e digerendo una quantità enorme di testo: pagine web, articoli, enciclopedie, forum, libri. Questo processo si chiama pre-training, e avviene una volta sola — poi il modello viene congelato e distribuito al mondo.
Pensa a un consulente che ha letto moltissimo, ha una memoria straordinaria, e ha elaborato tutto quello che ha assorbito in una visione del mondo coerente. Quando gli fai una domanda non va a cercare — risponde da quello che sa già. È fluente, rapido, sicuro. E quasi sempre utile.
Questa è la cosiddetta conoscenza parametrica: il sapere che vive dentro il modello, indipendentemente da qualsiasi connessione a internet.
Il problema della fotografia
Quella memoria, però, ha una data di scadenza.
Il pre-training si ferma a un certo punto, e qui entra in gioco un concetto che vale la pena conoscere: il knowledge cutoff, o data di taglio. Ogni modello ha la sua, ed è quasi sempre indicata nella documentazione ufficiale o nelle FAQ del prodotto — vale la pena cercarla per i modelli che si usano abitualmente, non solo per curiosità tecnica.
Tutto quello che è successo dopo quella data, per il modello, semplicemente non esiste. Non perché sia impreciso o poco aggiornato: perché non l'ha mai letto. È come chiedere a qualcuno un'opinione su un libro che non ha ancora avuto modo di leggere — risponde benissimo su tutto il resto, ma su quel libro non ha nulla da dire.
Per un brand, le conseguenze sono concrete. Un'azienda nata o cresciuta significativamente dopo il cutoff potrebbe non esistere nella conoscenza parametrica del modello, o esistere in modo vago e incompleto. Un brand che ha cambiato posizionamento, rinnovato la gamma o attraversato una crisi di reputazione potrebbe essere ancora ricordato per come era, non per come è oggi. I grandi brand consolidati — quelli citati in migliaia di articoli distribuiti nel tempo, ben prima di qualsiasi cutoff — partono strutturalmente avvantaggiati, indipendentemente da qualsiasi ottimizzazione.
I principali LLM vengono riaddestrati ogni diversi mesi, a volte ogni anno. Il gap tra oggi e quello che il modello sa può essere sostanziale — e durante quel gap il mondo continua a muoversi.
C'è un ulteriore meccanismo che rende tutto questo più insidioso. La formazione parametrica è talmente potente da condizionare il comportamento del modello anche quando avrebbe gli strumenti per andare a verificare. In pratica, molti modelli tendono a rispondere dalla propria memoria — dal comfort di quello che sanno già — anche quando avrebbero accesso a una ricerca web in tempo reale. È come se il consulente della nostra metafora, abituato a essere competente su quasi tutto, faticasse ad ammettere a se stesso che su un argomento specifico dovrebbe fermarsi e ricontrollare.
È qui che si annidano spesso le allucinazioni. Non nel vuoto, non per un malfunzionamento tecnico — ma nell'eccesso di confidenza della conoscenza parametrica, che porta il modello a rispondere con sicurezza su qualcosa che nel frattempo è cambiato. La risposta suona bene, è ben strutturata, ha tutti i crismi della correttezza. Solo che si riferisce a un mondo che non esiste più.
Per un brand, le conseguenze non sono solo informative — sono reputazionali. Un modello che descrive un'azienda sulla base di informazioni outdated può associarla a un posizionamento che ha abbandonato, a una crisi che ha risolto, a una gamma di prodotti che non esiste più. Può nominare un competitor come punto di riferimento nel settore mentre il mercato si è già spostato. Può descrivere caratteristiche, prezzi o servizi in modo inesatto con la stessa sicurezza con cui citerebbe un dato verificato. E quella descrizione sbagliata arriva a utenti che non hanno elementi per dubitarne — perché è stata formulata da un sistema che sembra sapere tutto.
La ricerca in tempo reale
Alcuni modelli hanno una seconda capacità, distinta dalla prima: possono fare ricerche su fonti esterne mentre formulano la risposta. Si chiama RAG — Retrieval-Augmented Generation — ed è un meccanismo generale per recuperare informazioni che non sono nella memoria del modello.
Tornando alla metafora: non è più il consulente che risponde da memoria. È lo stesso consulente che, prima di rispondere, consulta alcune fonti, legge quello che trova, e integra con quello che già sapeva.
Vale la pena chiarire subito una semplificazione che circola spesso: RAG non significa necessariamente "cercare su internet". È un meccanismo applicabile a qualsiasi fonte esterna — il web, ma anche database aziendali, documenti interni, knowledge base proprietarie, cataloghi prodotto. Quando Perplexity fa una ricerca web usa il RAG. Ma un'azienda che connette il proprio assistente AI ai dati del CRM interno sta usando il RAG esattamente allo stesso modo. Internet è il caso più visibile, non l'unico.
Quali modelli lo usano e quando: Perplexity lo fa sistematicamente — è il suo modo principale di funzionare. ChatGPT lo fa in modalità browse, che non è sempre attiva. Gemini lo fa per le AI Overview, attingendo all'indice di Google. Provider diversi usano indici e fonti diverse — i dettagli non sono sempre documentati pubblicamente, e vale la pena non dare per scontato che ottimizzare per Google sia sufficiente per coprire tutti i canali AI che usano il RAG.
C'è però un punto sottile, e vale la pena capirlo bene, perché cambia tutto.
Immagina di avere un articolo primo in Google per una certa query. Posizione uno. Traffico. Tutto funziona. Poi cerchi quella stessa query su ChatGPT o nell'AI Overview di Google, e il tuo contenuto non compare — mentre vengono citati articoli che su Google stanno più in basso di te.
Non è un malfunzionamento. Il sistema RAG non si chiede chi è meglio posizionato — si chiede quale testo risponde meglio a quella domanda specifica, in quel contesto. Può recuperare la tua pagina, ma se la risposta diretta alla domanda è vaga, generica, o sepolta a metà di un testo lungo, un contenuto più diretto e preciso la supera. L'autorevolezza del documento conta meno della qualità del passaggio che risponde.
Il modello non risponde alla tua domanda. Prima se ne inventa una decina.
C'è un ulteriore livello di complessità che, una volta capito, cambia radicalmente la prospettiva sulla strategia di contenuto.
Quando un utente scrive una domanda in ChatGPT, Perplexity o Google AI Mode, il sistema non cerca quella frase. La scompone prima in una serie di sub-query parallele — da poche unità fino a una ventina, a seconda della complessità della domanda originale. Ognuna di queste sub-query va a recuperare contenuti su un aspetto diverso. Poi tutto viene sintetizzato in un'unica risposta.
Google ha dato un nome ufficiale a questa tecnica al Google I/O 2025, chiamandola query fan-out. ChatGPT, Perplexity e Copilot applicano meccanismi simili.
Un esempio concreto: la query "migliori software di project management per team remoti" non viene cercata come tale. Il sistema lancia in parallelo sub-query come "software project management 2026", "funzionalità collaborazione da remoto", "confronto prezzi project management", "strumenti PM piccoli team". Poi sintetizza tutto. Chi viene citato è chi risponde meglio alle sub-query — non necessariamente chi presidiava la keyword principale.
La conseguenza: puoi essere primo su Google per il termine che stai monitorando e risultare del tutto invisibile nelle sub-query che il modello usa davvero per costruire la risposta. E c'è un ulteriore elemento di onestà da aggiungere: circa il 73% delle sub-query cambia tra una ricerca e l'altra, anche per la stessa domanda di partenza. Ottimizzare meccanicamente per ogni possibile fan-out è una rincorsa senza senso.
La risposta strategica non è inseguire le singole sub-query — è costruire copertura tematica abbastanza ampia e profonda da coprire naturalmente la maggior parte degli angoli che un modello potrebbe cercare su quell'argomento. Che è, di nuovo, la stessa direzione in cui la SEO seria si muove da anni.
Due canali, due tempi
La conoscenza parametrica e il RAG hanno tempi e logiche radicalmente diversi, e richiedono lavoro diverso.
La conoscenza parametrica si costruisce nel lungo periodo. Mesi, anni di presenza autorevole sul web, menzioni su fonti riconoscibili, un'identità di brand coerente che il mondo ha avuto tempo di documentare. Quello che il mondo ha scritto di te, accumulato nel tempo, diventa quello che i modelli credono di te. Non si ottimizza in quattro settimane.
Il RAG — con il suo meccanismo di fan-out — lavora su scale più brevi. Contenuti freschi, ben strutturati, con risposte dirette possono entrare nelle risposte dei modelli nel giro di giorni. Ma richiede una struttura editoriale pensata per la copertura tematica, non per la singola keyword.
Presidiare la GEO significa lavorare su entrambi i livelli, sapendo cosa cambia nel breve e cosa si costruisce nel lungo. Chi si concentra solo sul RAG, perché è il più misurabile in tempi rapidi, lascia scoperta la parte che costruisce la reputazione duratura. Chi si concentra solo sulla conoscenza parametrica non ha strumenti per influenzare cosa i modelli trovano quando fanno ricerche in tempo reale.
Le implicazioni operative di questa distinzione — cosa fare concretamente, su quale leva agire prima — sono nell'articolo sulla nostra visione della GEO [→ Generative Engine Optimization: la nostra visione, senza hype]
Capire come funzionano i modelli non risolve i problemi di visibilità. Ma cambia il modo in cui ci si avvicina al lavoro. Chi tratta questi canali come una versione semplificata della SEO ottimizza per un meccanismo che non corrisponde a come le cose funzionano davvero. Chi capisce la distinzione — conoscenza parametrica, knowledge cutoff, RAG, fan-out — lavora su cose che contano.