Il RAG, acronimo di Retrieval-Augmented Generation, è una tecnica architetturale che consente a un modello linguistico di recuperare informazioni da fonti esterne in tempo reale prima di generare una risposta, anziché affidarsi esclusivamente alla conoscenza acquisita durante il pre-training. Il processo si articola in due fasi distinte: nella fase di retrieval il sistema interroga una o più fonti esterne per identificare i contenuti più rilevanti rispetto alla query ricevuta; nella fase di generation il modello utilizza quei contenuti come contesto aggiuntivo per formulare la risposta. Il risultato è una risposta che integra la conoscenza parametrica del modello con informazioni aggiornate provenienti dall'esterno.
Il RAG non equivale esclusivamente alla ricerca web in tempo reale, anche se questa è la sua applicazione più visibile. Il meccanismo è generale: la fonte esterna può essere un motore di ricerca, ma anche un database aziendale, un archivio documentale, un catalogo prodotti o una knowledge base interna. Sistemi come Perplexity utilizzano il RAG sistematicamente per ogni risposta, attingendo al web. ChatGPT lo attiva in modalità browse. Google lo impiega per le AI Overview, attingendo al proprio indice di ricerca. Gemini e Copilot hanno integrazioni simili. Poiché provider diversi si appoggiano a indici e fonti diversi, la visibilità nei sistemi RAG non dipende esclusivamente dall'ottimizzazione per Google.
Dal punto di vista della GEO e della visibilità dei brand, il RAG introduce una logica di selezione diversa rispetto al ranking tradizionale: il sistema non valuta il documento nella sua interezza, ma il singolo passaggio di testo che risponde alla domanda specifica. Un contenuto ben posizionato su Google può non essere citato da un modello RAG se la risposta diretta alla domanda è sepolta nel testo o formulata in modo vago. La struttura del contenuto — chiarezza, risposta diretta nella parte alta, markup semantico — diventa quindi un fattore determinante.