En aquest post tècnic parlarem sobre l’arxiu robots.txt, per a què serveix i per a què no serveix.
Què és un arxiu robots.txt?
L’arxiu robots.txt és bàsicament un fitxer (txt) que s’allotja en l’arrel del teu lloc web i amb el qual, mitjançant unes directrius que podem escriure en ell, indiquem als cercadors a quines parts poden accedir els rastrejadors dels motors de cerca.
No tots els rastrejadors fan cas d’aquest fitxer. Però Google, el cercador per excel·lència sí que ho fa. Amb el seu Googlebots (el rastrejador de Google) detecta aquelles directrius que es troben en aquest fitxer.
Per a què s’utilitza l’arxiu robots.txt?
Per a què se sol utilitzar aquest tipus d’arxiu? Robots.txt principalment s’utilitza per a evitar que el teu lloc web se sobrecarregui de sol·licituds innecessàries. L’arxiu robots.txt ens serveix sobretot per a gestionar el trànsit dels rastrejadors a la nostra web i per a indicar-li, per exemple, a Google, quines pàgines volem que rastregi i mostri.
També ho podem utilitzar per a que el cercador de Google no rastregi fotos o vídeos que no ens interessa que apareixin en les cerques, però compte!, això no evitarà que algú pugui accedir als teus arxius mitjançant la URL. Si vols protegir aquests arxius, millor que ho facis amb contrasenya en el teu servidor.
Amb les pàgines succeeix el mateix, pots indicar mitjançant l’arxiu robots.txt aquelles que prefereixes que els cercadors no rastregin, però amb això no estaràs bloquejant el seu accés. El més recomanable si no vols que les teves pàgines siguin rastrejades és usar directives “noindex” o una protecció amb contrasenya. Robots.txt no és un mecanisme per evitar que el teu web estigui fora de Google, encara que puguem bloquejar el lloc web complet per als cercadors amb aquestes dues línies:
User-agent: *
Disallow: /
Encara que segons Google, això no evitarà completament que el teu lloc web aparegui en els resultats de cerca:
“Si la teva pàgina web està bloquejada per un arxiu robots.txt, pot continuar apareixent en els resultats de cerca, però sense cap descripció i més o menys amb aquest aspecte. S’exclouran els arxius d’imatge i vídeo, així com els arxius PDF i altres arxius que no siguin HTML. Si la cerca de la teva pàgina mostra aquest resultat i vols corregir-lo, elimina l’entrada de l’arxiu robots.txt que bloqueja la pàgina. Si vols ocultar la pàgina completament de la cerca, utilitza un altre mètode.”
Limitacions de robots.txt
Abans de crear un fitxer robots.txt per a un lloc web, s’han de tenir en compte les seves limitacions a fi de valorar si efectivament ens interessa usar aquest mètode i no altre.
• No tots els cercadors “obeeixen” les directrius d’aquest fitxer.
• Encara que un cercador diferent a Google segueixi les directrius del fitxer, la sintaxi que s’utilitza la pot interpretar de manera diferent.
• Els llocs web o pàgines bloquejades mitjançant el fitxer robots.txt es poden continuar indexant si existeixen enllaços a elles des d’altres llocs web.
Finalment, si vols saber com crear i saber totes les directrius que es poden indicar en un fitxer robots.txt, pots consultar la documentació de Google on podràs trobar la sintaxi completa.
Contacta amb nosaltres
CONTACTA