Il knowledge cutoff, o data di taglio, è la data oltre la quale un modello linguistico non dispone di informazioni acquisite durante il pre-training. Durante la fase di addestramento, un LLM elabora una quantità enorme di testi provenienti da diverse fonti — pagine web, articoli, libri, documenti — fino a una data precisa. Tutto ciò che è avvenuto o pubblicato successivamente non fa parte della conoscenza parametrica del modello e, in assenza di meccanismi di ricerca in tempo reale come il RAG, non può comparire nelle sue risposte. La data di cutoff è quasi sempre indicata nella documentazione ufficiale o nelle FAQ delle principali piattaforme AI e vale la pena verificarla per i modelli che si utilizzano abitualmente. I principali LLM vengono riaddestrati periodicamente — ogni diversi mesi, a volte ogni anno — e il gap tra la data di cutoff e il momento dell'utilizzo può essere significativo.
Il knowledge cutoff è strettamente legato al fenomeno delle allucinazioni. La conoscenza parametrica acquisita in fase di training è talmente radicata nel comportamento del modello da condizionarne le risposte anche quando avrebbe accesso a fonti esterne aggiornate tramite RAG: in molti casi il modello tende a rispondere dalla propria memoria, senza verificare se le informazioni siano ancora valide. Quando questo avviene su informazioni che si sono evolute dopo il cutoff, il risultato è una risposta formulata con sicurezza ma basata su fatti non più accurati. Per questa ragione, lavorare sulla propria visibilità nei canali AI non riguarda solo il presente, ma anche la costruzione di una presenza autorevole e verificabile nel tempo, che i modelli futuri possano acquisire durante i propri cicli di aggiornamento.