Dedicato agli admin: una trappola per scraper LLM
Genera pagine web infinite alimentando gli scraper di merda nonsense.
Avveleniamo i pozzi, ma selettivamente!
https://hackaday.com/2025/01/23/trap-naughty-web-crawlers-in-digestive-juices-with-nepenthes/
@paoloredaelli @lgsp @informatica
Una strategia potrebbe essere pubblicare il rallentatore senza link, non raggiungibile, l’unico riferimento è nel robots.txt con l’istruzione di NON indicizzare.
Chi accede ha letto robots.txt ignorandone il contenuto e allora sono un pò risorse sue, indipendentemente dal fatto che sia un LLM o un motore di ricerca…
Chi il file manco lo cerca la passa liscia, ma chi lo usa come ‘spunto’, ci casca: bicchiere mezzo pieno?