blogo, informazione indipendente
Logo Blogosfere

Spider-bot: i guardoni della rete

Davide Denicolo avatar Lunedì 24 Settembre 2007, 17:40 in di Davide Denicolo
Gli spider-bot di Google

Un motore di ricerca fonda parte della propria esistenza su automi denominati spider o robot i quali hanno il compito di scansionare il web alla ricerca di pagine Internet da indicizzare all'interno del proprio database; ciò risulta problematico quando si pensa di poter nascondere una pagina web o una generica risorsa da occhi indiscreti quando invece non lo è.

Un video che meglio ci spiega la "doppia faccia" di uno spider è presente su youtube:

Usando infatti opportunamente i search operators di Google l'autore del video ci mostra come sia possibile identificare db mysql con accesso root, album di foto, accessi VNC e tante altre risorse indicizzate da Google ed all'insaputa dei rispettivi proprietari.

Provate allora ad inserire nel nostro google la stringa: "robots.txt" "disallow:" filetype:txt
e vedrete per esempio, quali link la Casa Bianca Americana non vorrebbe che venissero indicizzati.
E' infatti la presenza di un file robots.txt  che dovrebbe allontanare un crawler dal nostro sito, ma nella realtà è davvero così?
Forse la migliore soluzione sarebbe proteggere l'accesso alle directory mediante password.

Ci sono tanti altri video simili a questo che vi invito a prendere visione su Youtube.

0

Lascia il tuo commento

Accedi con Facebook Esci da Facebook

Attendere la pubblicazione del commento
Post in evidenza su Blogosfere