En la administración de una web no sólo se trata de ir actualizando artículos, modificar hojas de estilo o promocionarla. Administrar una web también es buscar posibles fallos, mejoras, etc …
Una herramienta que suelo usar a menudo y que me además nos aporta muchísima información es Google Webmaster Tool.
¿Qué son los Crawler Access de Google?
Los Crawler Access de Google son los errores de rastreo que los robots de Google detectan cuando intentan acceder a una dirección URL pero no obtienen resultado, es decir, las páginas a las que accede y les devuelve un error 404.
Además de informar del error de rastreo también nos muestra el tipo de error, es decir, distingue entre los distintos problemas con las URLs:
- No se encuentra
- No se han seguido estas URL
- URL restringidas por robots.txt
- URL caducadas
- Errores de HTTP
- URL inaccesibles
- Errores 404 leves
¿Cómo solucionar las URLs con errores de rastreo?
Es probable que para el posicionamiento de tu página en Google no afecte de manera directa, pero si podemos decir que hay que tener lo más limpia posible nuestra web de errores para que los motores de búsqueda no nos la jueguen con sorpresas en nuestros pagerank o situación respecto a una palabra clave.
Para solucionar este tipo de Urls con errores de rastreo y que nos dan un inesperado error 404 disponemos de 2 opciones que se usan generalmente:
1. Borrar las Urls con errores de rastreo desde Google Webmaster Tool.
Lo primero que tenemos que hacer es acceder a nuestra cuenta en Google Webmaster Tool y dirigirnos a:
Diagnóstico/Errores de rastreo
Tenemos varias pestañas que nos dan información de URLs que no funcionan como deberían. En nuestro caso hemos elegido «No se encuentra» que son los errores 404.
Para solucionar todos los errores, habrá que hacer el mismo procedimiento con cada una de las URL que nos muestran.
- Copiar la URL
- Ir a Información del sitio/Acceso a rastreadores y en eliminar URL pegar la que hemos copiado como podéis ver en la imagen de arriba
2. Eliminar Urls con errores de rastreo con el fichero Robots.txt.
El fichero robots.txt es una archivo de texto donde podemos crear unas normas (que no siempre se cumplen al 100%) para los robots de búsqueda de los distintos buscadores. En el caso de Google este robot, araña spider, bot o indexador, como quieras llamarlo, se llama GoogleBot.
Estos robots están automatizados, y antes de entrar en una página a «curiosear» verifican si tiene un archivo robots.txt, donde verá si se le está «impidiendo» el acceso a determinadas páginas.
Entre las cosas que podemos lograr con este tipo de archivo podemos citar:
- Impedir acceso a robots determinados
- Reducir la sobrecarga del servidor
- Prohibir zonas
- Eliminar contenido duplicado
- Fijar mapas del sitio
Como podréis imaginar, a nosotros nos interesa ahora mismo la parte «Prohibir zonas«, donde le diremos al robot que no queremos que indexe las URLs que nos ha mostrado en el Google Webmaster Tool.
Para eliminar las URLs con errores de rastreo, tendremos que generar el fichero robots.txt si aun no lo tenemos o bien modificarlo. Ojo!!! para poder dar uso a este tipo de archivos, hay que tener acceso al directorio raíz de la web. Esto lo podemos hacer manualmente, pero Google nos proporciona una herramienta bastante intuitiva de Generación de archivos robots.txt.
- Como hemos hecho antes, nos vamos a la página principal de Herramientas para webmasters de Google y accedemos al sitio al cual queramos generarle dicho archivo.
- En información del sitio, vamos a Acceso de rastreadores.
- Pestaña Generar robots.txt
- Seleccionamos acceso a todos los robots. Permitir todos
- En especificar cualquier otra regla, indicamos Acción: Bloquear, User Agennt: GoogleBot, Directorios y archivos: URL que tengamos con errores de rastreo
- Una vez hemos creado todas las reglas (una por URL errónea)
- Descargar el archivo y ponerla en la raíz de nuestra web, siempre con el nombre robots.txt
Una vez tenemos todo listo, podemos comprobar si todo esta correcto en la misma página pero haciendo clic en la pestaña «probar robots.txt».
Utilizando una de estas dos opciones, tenemos una probabilidad muy alta de que GoogleBot no nos siga dando fallos de rastreo en las URLs que hemos arreglado.
Información Relacionada: