Un attacante può estrarre in modo efficiente gigabyte di dati di addestramento da modelli linguistici open-source come Pythia o GPT-Neo, modelli semi-aperti come llama o Falcon e modelli chiusi come ChatGPT ( (anche se il rapporto tecnico GPT-4 richiede esplicitamente che sia stato allineato per rendere il modello non emettere dati di addestramento).

I ricercatori di Google DeepMind, Università di Washington, Cornell, Carnegie Mellon University, Università della California Berkeley negli Stati uniti e Politecnico di Zurigo in Svizzera hanno usato un prompt molto semplice: hanno chiesto al chatbot di ripetere all’infinito parole casuali. Per esempio, se gli si chiede di ripetere la parola “company”, il chatbot inizia a ripeterla, ma poi mostra un indirizzo e-mail e un numero di cellulare di una persona reale.

Questo funziona con molte altre parole. I ricercatori hanno testato 10.000 esempi e il 16,9% di essi conteneva informazioni di identificazione personale come numero di telefono, indirizzi Bitcoin, contenuti espliciti di siti web di incontri, frammenti di documenti di ricerca protetti da copyright, compleanni, codice di Python, e molto altro ancora.

Le conclusioni dei ricercatori: “Possiamo sempre più concettualizzare i modelli linguistici come sistemi software tradizionali. Si tratta di un nuovo e interessante cambiamento nel mondo dell’analisi della sicurezza dei modelli di apprendimento automatico. Ci sarà un sacco di lavoro necessario per capire davvero se qualsiasi sistema di apprendimento automatico è effettivamente sicuro.”