COMO NOS ENCUENTRA GOOGLE

En este post técnico hablaremos sobre el archivo robots.txt, para qué sirve y para qué no sirve.

¿Qué es un archivo robots.txt?

El archivo robots.txt es básicamente un fichero (txt) que se aloja en la raíz de tu sitio web y con el que, mediante unas directrices que podemos escribir en él, le indicamos a los buscadores a qué partes pueden acceder los rastreadores de los motores de búsqueda.

No todos los rastreadores hacen caso de este fichero. Pero Google, el buscador por excelencia sí que lo hace. Con su Googlebots (el rastreador de Google) detecta aquellas directrices que se encuentran en este fichero.

¿Para qué se usa el archivo robots.txt?

¿Para qué se suele utilizar este tipo de archivo? Robots.txt principalmente se usa para evitar que tu sitio web se sobrecargue de solicitudes innecesarias. El archivo robots.txt nos sirve sobre todo para gestionar el tráfico de los rastreadores a nuestra web y para indicarle, por ejemplo, a Google, qué páginas queremos que rastree y muestre.

También lo podemos utilizar para que el buscador de Google no rastree fotos o vídeos que no nos interesa que apaezcan en las búsquedas, pero ojo, esto no evitará que alguien pueda acceder a tus archivos mediante la URL. Si quieres proteger estos archivos, mejor que lo hagas con contraseña en tu servidor.

Con las páginas sucede lo mismo, puedes indicar mediante el archivo robots.txt aquellas que prefieres que los buscadores no rastreen, pero con ello no estarás bloqueando su acceso. Lo más recomendable si no quieres que tus páginas sean rastreadas es usar directivas “noindex” o una protección con contraseña. Robots.txt no es un mecanismo para evitar que tu web esté fuera de Google, aunque podamos bloquear el sitio web completo para los buscadores con estas dos líneas:

User-agent: *
Disallow: /

Aunque según Google, esto no evitará completamente que tu sitio web aparezca en los resultados de búsqueda:

Si tu página web está bloqueada por un archivo robots.txt, puede seguir apareciendo en los resultados de búsqueda, pero sin ninguna descripción y más o menos con este aspecto. Se excluirán los archivos de imagen y vídeo, así como los archivos PDF y otros archivos que no sean HTML. Si la búsqueda de tu página muestra este resultado y quieres corregirlo, elimina la entrada del archivo robots.txt que bloquea la página. Si quieres ocultar la página completamente de la búsqueda, utiliza otro método.”

Limitaciones de robots.txt

Antes de crear un fichero robots.txt para un sitio web, se deben tener en cuenta sus limitaciones a fin de valorar si efectivamente nos interesa usar este método y no otros.

  • No todos los buscadores “obedecen” las directrices de este fichero.
  • Aunque un buscador distinto a Google siga las directrices del fichero, la sintaxis que se utiliza la puede interpretar de manera distinta.
  • Los sitios web o páginas bloqueadas mediante el fichero robots.txt se pueden seguir indexando si existen enlaces a ellas desde otros sitios web.

Por último, si quieres saber cómo crear y saber todas las directrices que se pueden indicar en un fichero robots.txt, puedes consultar la documentación de Google donde podrás encontrar la sintaxis completa.

Contacta con nosotros

CONTACTA CON NOSOTROS