Qué es el archivo robots.txt y para qué sirve. Los buscadores son codiciosos por naturaleza. Quieren indexar toda la información posible, así que cuando llegan a tu sitio lo rastrean todo. El problema surge cuando quieres evitar que ciertas páginas se incluyan en sus índices y esto puede influir en el posicionamiento seo de tu web y en el “presupuesto de rastreo” que google asigna a tu web ¿qué haces entonces?
Como usar el archivo robots.txt
Los robots o arañas de google son unos programas que utilizan los buscadores para rastrear la web. Cuando llegan a tu sitio, lo primero que hacen es buscar el archivo robots.txt, y dependiendo de lo que diga en él, continúan en tu sitio o se van a otro.
Puedes entender el archivo robots.txt como una lista de robots no admitidos, la cual te permite restringir el acceso a tu sitio selectivamente. Si hay páginas que prefieres mantener fuera del alcance de los buscadores, puedes configurarlo aquí, y si hay un buscador al que quieres denegar el acceso, también.
Más concretamente, puedes utilizar el archivo robots.txt para lo siguiente:
- Evitar que ciertas páginas y directorios de tu sitio sean accesibles a los buscadores
- Bloquear el acceso a archivos de código o utilidades
- Impedir la indexación de contenido duplicado en tu sitio, como copias de prueba o versiones para imprimir
- Indicar la localización de los mapas del sitio en XML
No obstante, hay un par de cosas que debes tener en cuenta sobre robots.txt:
- Algunos robots pueden ignorar las instrucciones contenidas en este archivo, especialmente robots maliciosos o malware
- El archivo es público, lo que significa que cualquiera puede verlo con sólo teclear www.example.com/robots.txt
Por tanto, si piensas utilizar robots.txt para esconder información privada, necesitas buscar otra alternativa.
[su_highlight background=”#c0fedc”]Quieres que empecemos con el SEO de tu web 🙂 [/su_highlight]
[cp_modal display=”inline” id=”cp_id_32aa8″][/cp_modal]
Cómo generar el archivo robots.txt
Lo primero que necesitas saber sobre el archivo robots.txt es que no es obligatorio. Sólo necesitas crearlo cuando quieres impedir que ciertas páginas o directorios de tu sitio aparezcan en los resultados de búsqueda.
Generar el archivo es muy sencillo, basta con crear un documento de texto con el nombre “robots.txt” y subirlo a la raiz de tu dominio (http://www.example.com/robots.txt), que es el lugar donde los los buscadores esperan encontrarlo.
Lo más fácil es crearlo a mano, mediante el bloc de notas o cualquier aplicación similar, aunque si eres de los que prefiere herramientas, la de SeoBook cumple con su cometido.
Un archivo robots.txt básico puede ser:
User-agent: *
Disallow: /privado/
Lo que hacen estas instrucciones es denegar el acceso al directorio “privado” a todos los buscadores. Para ello, primero se indica que la orden va dirigida a todos los robots (User-agent: *) y por último se especifica el directorio desautorizado (Disallow: /privado/).
Comandos principales del archivo robots.txt
Los comandos que utiliza el archivo robots.txt vienen del llamado Robots Exclusion Protocol, un convenio universal cuya sintaxis debes seguir:
- Sólo puedes utilizar los comandos permitidos (aunque algunos buscadores entienden comandos adicionales)
- Debes respetar las mayúsculas/minúsculas, la puntuación y los espacios
- Cada grupo User-agent/Disallow debe estar separado por una línea en blanco
- Puedes incluir comentarios mediante la almohadilla o símbolo de hash (#)
Los comandos más importantes son:
- User-agent – Indica qué tipo de robot debe cumplir con las directivas que se indiquen a continuación.
- Disallow – Deniega el acceso a un directorio o página concreta.
- Allow – Funciona al contrario que la directiva Disallow, permitiendo el acceso a directorios y páginas. Se puede utilizar para sobrescribir la directiva Disallow parcial o totalmente.
- Sitemap – Indicar la ruta donde se encuentra un mapa del sitio en XML.
- Crawl-delay – Indica al robot el número de segundos que debe esperar entre cada página. Puede ser útil en casos en los que se necesita reducir la carga del servidor.
Adicionalmente, puedes utilizar comodines para aumentar o reducir la concordancia:
- Asterisco (*) – Vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por “privado” serían “/privado*/”
- Dólar ($) – Indica el final de una URL. Por ejemplo, para indicar cualquier archivo que acabe con la extensión .php se utilizaría “/*.php$”.
[su_highlight background=”#c0fedc”]Quieres que empecemos con el SEO de tu web 🙂 [/su_highlight]
[cp_modal display=”inline” id=”cp_id_32aa8″][/cp_modal]
Restricciones más comunes del archivo robots.txt
Con los comandos y comodines se puede crear todo tipo de restricciones. Sin embargo, no es buena idea ser creativo con el archivo de robots, ya que puedes acabar bloqueando algo que no deseas.
En este sentido, es mejor ceñirse a las restricciones más comunes, como son:
- Incluir todos los robots – User-agent: *
- Especificar el robot de Google – User-agent: Googlebot
- Especificar el robot de Bing – User-agent: Bingbot
- Denegar todo el sitio – Disallow: /
- Denegar un directorio – Disallow: /directorio/
- Denegar directorios que comienzan por “algo” – Disallow: /algo*/
- Denegar una página – Disallow: /pagina-web.htm
- Denegar directorios y páginas que comienzan por “algo” – Disallow: /algo
- Denegar la extensión .gif – Disallow: /*.gif$
- Permitir un subdirectorio – Allow: /directorio/subdirectorio/
- Señalar el mapa del sitio – Sitemap: http://www.example.com/sitemap.xml
Puedes leer todo lo que google dice en su–> Introducción a los archivos robots.txt
Ejemplo de robots.txt para WordPress
Para ayudarte a comprender mejor el funcionamiento del archivo robots.txt me gustaría enseñarte un ejemplo real. Se trata del mismo archivo que utilizo en este blog, de ahí que sea un ejemplo orientado a WordPress.
Puedes ver un eejmopl del robots.txt en cuanqiuerte pagian de intert te pòngo el ejem,plo de pccomponetes que s jna web grande y esta muy bien echo
https://www.pccomponentes.com/robots.txt
No obstante, debes saber que este archivo quizá NO sea ideal para tí pese a usar WordPress. Según el caso, puede que necesites añadir restricciones, quitarlas, o usar la etiqueta meta robots. No hay un archivo robots.txt universal, tenlo en cuenta.
Ahora me gustaría explicarte cada línea:
- Línea 1 – Declaro que las instrucciones que vienen a continuación son para los robots de cualquier buscador.
- Línea 2 -Bloqueo el directorio de plugins de WordPress, ya que algunos desarrolladores incluyen un archivo index.php con enlaces hacia sus sitios web
- Línea 3 – Bloqueo el directorio que utilizo para redirecciones (no tienes por qué tenerlo).
- Línea 4 – Indico la ruta donde se encuentra el mapa XML de mi sitio.
Actualización: Después de que Google actualizara sus directrices para Webmasters especificando que denegar el acceso a los archivos CSS y JavaScript con robots.txt puede dañar los rankings, he eliminado el bloqueo a los directorios de WordPress (“Disallow: /wp-“).
Como consejo final, te recomiendo que cuando crees tu archivo compruebes que hace lo que esperas de él. Ten en cuenta que un simple error puede bloquear el acceso a los buscadores provocando la pérdida de tus rankings. La comprobación es fácil de hacer con las Herramientas para Webmasters de Google, concretamente en Rastreo > Probador de robots.txt.
[su_highlight background=”#99ffa9″]Necesitas que revisemos el SEO de tu web AHORA dejamos el correo y te mandaremos un informe completo [/su_highlight]
[su_highlight background=”#c0fedc”]Quieres que empecemos con el SEO de tu web 🙂 [/su_highlight]
[cp_modal display=”inline” id=”cp_id_32aa8″][/cp_modal]
Puedes leer más artículos sobre cómo optimizar el SEO de tu web-->
¿Cómo posicionar mi web? 9 Cosas imprescindibles para el SEO de tu web