09 enero, 2013

El fichero Index.dat en IE: almacenamiento de historiales, cookies y caché

Internet Explorer como otras utilidades de Microsoft, genera un archivo llamado "Index.dat" en el que almacena las paginas visitadas por el usuario (%userprofile%), las cookies y la caché de ficheros.

Aunque un usuario borre el historial del navegador IE, la cache y las cookies de este fichero mantiene un registro que no se puede borrar en un modo normal, solo en modo seguro.
Este fichero también guarda un registro de las palabras usadas cuando la opción autocompletar esta activa.

Para leer el registro que que contiene Index.dat existen múltiples herramientas, pero de las que encontré al buscarlas me quedo con estas dos:

Index Dat Spy permite buscar estés archivos, leerlos y eliminarlos.




Index.dat Analyzer permite buscar, leerlos y eliminarlos de forma específica.



Este archivo es usado por malwares para obtener información sobre nuestros hábitos de navegación.

Fuente: http://vtroger.blogspot.com.es

NOTA: Se dijo que en Internet Explorer 7 tenían solucionado dicho problema de seguridad. En las screenshot que dejo arriba se testearon con IE 9 y se siguen mostrando los resultados.

02 enero, 2013

Robots.txt y Nofollow: Evitar ser indexados o cacheados por los motores de búsqueda



Robots.txt es un archivo de texto que se coloca en la carpeta raíz de la página web y con el que podemos filtrar que motores de búsqueda (mediante sus bots) registran nuestro website y poder restringir el acceso a ciertas URL’s que no queremos que sean rastreadas o indexadas en los resultados de búsquedas de "buscadores spiders", como por ejemplo: paginas de login, carpetas con archivos, etc.

Para más información de la edición y manipulación de este fichero: http://www.robotstxt.org

Google (entre otros buscadores) hace una caché de algunas páginas para tener un acceso mas rápido a ellas. Algunos webmasters prefieren no ser "cacheados", para evitar que Google cachee las páginas, simplemente podremos colocar el siguiente META entre las etiquetas HEAD:

META NAME="ROBOTS" CONTENT="NOARCHIVE"
Con esto evitamos que los robots de los buscadores cacheen y archiven nuestras websties.

A mayores, aunque no tiene que ver con el fichero anterior, pero si podemos aplicarlo con la misma finalidad.
Se trata de hacer lo mismo pero para las URLs externas a las que hagamos referencia en una entrada o contenido de nuestro website. Con esto evitaremos que motores de búsqueda indexen estes enlaces externos en sus resultados de búsquedas.

Si queremos que los motores de búsqueda NO indexen las URLs de TODO un contenido web en sus resultados de búsquedas, añadiremos una META entre las etiquetas HEAD:

META NAME="ROBOTS" CONTENT="NOFOLLOW"
Si queremos que SOLAMENTE unas únicas URLs NO se indexen en los resultados de búsquedas, añadiremos dentro del código HTML del enlace al final después del hacer la referencia (a href) el atributo="valor": REL="NOFOLLOW".
Un ejemplo sería:

<a href="http://paginaweb.com/" rel="nofollow">NombrePaginaWeb</a>
Pues con estos dos tips, podremos estar seguros de controlar lo que se filtran por los resultados de los motores de búsquedas...? en principio diría que si y es que realmente funciona, pero de no mostrarse en los resultados, no significa que estos no sea registrados igual de "manera oculta"? por los motores de búsqueda. Y realmente ellos si saben el contenido de la información o lo que queremos "no filtrar" a resultados externos.
 

Saludos!
Entradas Relacionadas