EL ARCHIVO ROBOTS.TXT

H2


La función del archivo robots.txt es impedir que los buscadores accedan e indexen ciertas partes de una web. Resulta muy útil para evitar que los motores de búsqueda muestren en sus resultados las páginas que no queremos que aparezcan.
Por ejemplo
Si no queremos que muestren los archivos de administrador de una página, el archivo robots.txt se configuraría:

User agent:*
Disallow:/admin
Debemos tener en cuenta que si no especificamos la ruta, bloquearemos el acceso de los motores de búsqueda a toda la web, como por ejemplo:
User agent:*
Disallow:/

Del mismo modo, podemos comprobar que el archivo robots.txt no está bloqueando ninguna parte importante de nuestra web:  a través de la url www.ejemplo.com/robots.txt, o bien con la herramienta Google Webmaster Tools en Rastreo > Probador de robots.txt.

Los archivos robots.txt no pueden forzar el comportamiento de los rastreadores en el sitio web, sino que sirven de indicadores para los que acceden a él.


El archivo robots.txt también puede utilizarse para indicar dónde se encuentra nuestro sitemap. Por ejemplo


User-agent:*
Sitemap:http://www.ejemplo.com/sitemap.xml

Meta etiqueta Robot

Se usa para indicar a los robots de los motores de búsqueda si pueden o no indexar la página y si deben seguir los enlaces que contiene. A la hora de analizar una página comprobaremos si hay alguna meta etiqueta que por error esté bloqueando el acceso a estos robots. Ejemplo

Deja un comentario

Tu dirección de correo electrónico no será publicada.

Ir arriba