Mi sono sempre chiesto perchè uno spider continui a ricercare pagine non più esistenti anche a distanza di mesi.
Non ho una cultura ingegneristica, quindi ragiono tramite intuizioni. A mio avviso sarebbe più efficiente, dopo qualche giorno in cui le pagine ricercate danno un 404, eliminarle e non richiederle più. Invece non è assolutamente così. Gbot, ma soprattutto Msnbot continuano a cercarle anche a distanza di mesi dall'eliminazione.
Sono un po' ignorante in materia, ma mi viene il dubbio che sia più oneroso cancellare pagina dal db di un motore di ricerca piuttosto che non farlo e continuare a richiedere le stesse pagine che non esistono più.
Al riguardo, forse c'è un punto debole, ma non l'ho ancora trovato, credo sarebbe conveniente analizzare i log del 404 e effettuare continui redirect 301 dalle pagine eliminate a quelle nuove che devono essere ancora fotografate. La scansione di una nuova pagina negli ultimi tempi è piuttosto lenta, almeno per i miei siti, un redirect del genere, diminuirebbe i tempi. Ovvio che bisogna considerare anche il tema della pagina cancellata, che deve essere correlato a quello della nuova pagina, ma questo, in genere, capita di continuo nella maggioranza dei siti web.
Potrei anche avere scritto sciocchezze, ma pensateci...
