Qué es el archivo robots.txt y para qué sirve. Los buscadores son codiciosos por naturaleza. Quieren indexar toda la información posible, así que cuando llegan a tu sitio lo rastrean todo. El problema surge cuando quieres evitar que ciertas páginas se incluyan en sus índices y esto puede influir en el posicionamiento seo de tu web y en el «presupuesto de rastreo» que google asigna a tu web ¿qué haces entonces?

Tabla de Contenidos del post

Como usar el archivo robots.txt

Los robots o arañas de google son unos programas que utilizan los buscadores para rastrear la web. Cuando llegan a tu sitio, lo primero que hacen es buscar el archivo robots.txt, y dependiendo de lo que diga en él, continúan en tu sitio o se van a otro.

Puedes entender el archivo robots.txt como una lista de robots no admitidos, la cual te permite restringir el acceso a tu sitio selectivamente. Si hay páginas que prefieres mantener fuera del alcance de los buscadores, puedes configurarlo aquí, y si hay un buscador al que quieres denegar el acceso, también.

Más concretamente, puedes utilizar el archivo robots.txt para lo siguiente:

Evitar que ciertas páginas y directorios de tu sitio sean accesibles a los buscadores
Bloquear el acceso a archivos de código o utilidades
Impedir la indexación de contenido duplicado en tu sitio, como copias de prueba o versiones para imprimir
Indicar la localización de los mapas del sitio en XML

No obstante, hay un par de cosas que debes tener en cuenta sobre robots.txt:

Algunos robots pueden ignorar las instrucciones contenidas en este archivo, especialmente robots maliciosos o malware
El archivo es público, lo que significa que cualquiera puede verlo con sólo teclear www.example.com/robots.txt

Por tanto, si piensas utilizar robots.txt para esconder información privada, necesitas buscar otra alternativa.

Quieres que empecemos con el SEO de tu web 🙂

Cómo generar el archivo robots.txt

Lo primero que necesitas saber sobre el archivo robots.txt es que no es obligatorio. Sólo necesitas crearlo cuando quieres impedir que ciertas páginas o directorios de tu sitio aparezcan en los resultados de búsqueda.

Generar el archivo es muy sencillo, basta con crear un documento de texto con el nombre “robots.txt” y subirlo a la raiz de tu dominio (http://www.example.com/robots.txt), que es el lugar donde los los buscadores esperan encontrarlo.

Lo más fácil es crearlo a mano, mediante el bloc de notas o cualquier aplicación similar, aunque si eres de los que prefiere herramientas, la de SeoBook cumple con su cometido.

Un archivo robots.txt básico puede ser:

User-agent: *
Disallow: /privado/

Lo que hacen estas instrucciones es denegar el acceso al directorio “privado” a todos los buscadores. Para ello, primero se indica que la orden va dirigida a todos los robots (User-agent: *) y por último se especifica el directorio desautorizado (Disallow: /privado/).

Comandos principales del archivo robots.txt

Los comandos que utiliza el archivo robots.txt vienen del llamado Robots Exclusion Protocol, un convenio universal cuya sintaxis debes seguir:

Sólo puedes utilizar los comandos permitidos (aunque algunos buscadores entienden comandos adicionales)
Debes respetar las mayúsculas/minúsculas, la puntuación y los espacios
Cada grupo User-agent/Disallow debe estar separado por una línea en blanco
Puedes incluir comentarios mediante la almohadilla o símbolo de hash (#)

Los comandos más importantes son:

User-agent – Indica qué tipo de robot debe cumplir con las directivas que se indiquen a continuación.
Disallow – Deniega el acceso a un directorio o página concreta.
Allow – Funciona al contrario que la directiva Disallow, permitiendo el acceso a directorios y páginas. Se puede utilizar para sobrescribir la directiva Disallow parcial o totalmente.
Sitemap – Indicar la ruta donde se encuentra un mapa del sitio en XML.
Crawl-delay – Indica al robot el número de segundos que debe esperar entre cada página. Puede ser útil en casos en los que se necesita reducir la carga del servidor.

Adicionalmente, puedes utilizar comodines para aumentar o reducir la concordancia:

Asterisco (*) – Vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por “privado” serían “/privado*/”
Dólar ($) – Indica el final de una URL. Por ejemplo, para indicar cualquier archivo que acabe con la extensión .php se utilizaría “/*.php$”.

Quieres que empecemos con el SEO de tu web 🙂

Restricciones más comunes del archivo robots.txt

Con los comandos y comodines se puede crear todo tipo de restricciones. Sin embargo, no es buena idea ser creativo con el archivo de robots, ya que puedes acabar bloqueando algo que no deseas.

En este sentido, es mejor ceñirse a las restricciones más comunes, como son:

Incluir todos los robots – User-agent: *
Especificar el robot de Google – User-agent: Googlebot
Especificar el robot de Bing – User-agent: Bingbot
Denegar todo el sitio – Disallow: /
Denegar un directorio – Disallow: /directorio/
Denegar directorios que comienzan por “algo” – Disallow: /algo*/
Denegar una página – Disallow: /pagina-web.htm
Denegar directorios y páginas que comienzan por “algo” – Disallow: /algo
Denegar la extensión .gif – Disallow: /*.gif$
Permitir un subdirectorio – Allow: /directorio/subdirectorio/
Señalar el mapa del sitio – Sitemap: http://www.example.com/sitemap.xml

Puedes leer todo lo que google dice en su–> Introducción a los archivos robots.txt

Ejemplo de robots.txt para WordPress

Para ayudarte a comprender mejor el funcionamiento del archivo robots.txt me gustaría enseñarte un ejemplo real. Se trata del mismo archivo que utilizo en este blog, de ahí que sea un ejemplo orientado a WordPress.

Puedes ver un eejmopl del robots.txt en cuanqiuerte pagian de intert te pòngo el ejem,plo de pccomponetes que s jna web grande y esta muy bien echo

https://www.pccomponentes.com/robots.txt

Que es el archivo robots.txt

No obstante, debes saber que este archivo quizá NO sea ideal para tí pese a usar WordPress. Según el caso, puede que necesites añadir restricciones, quitarlas, o usar la etiqueta meta robots. No hay un archivo robots.txt universal, tenlo en cuenta.

Ahora me gustaría explicarte cada línea:

Línea 1 – Declaro que las instrucciones que vienen a continuación son para los robots de cualquier buscador.
Línea 2 -Bloqueo el directorio de plugins de WordPress, ya que algunos desarrolladores incluyen un archivo index.php con enlaces hacia sus sitios web
Línea 3 – Bloqueo el directorio que utilizo para redirecciones (no tienes por qué tenerlo).
Línea 4 – Indico la ruta donde se encuentra el mapa XML de mi sitio.

Actualización: Después de que Google actualizara sus directrices para Webmasters especificando que denegar el acceso a los archivos CSS y JavaScript con robots.txt puede dañar los rankings, he eliminado el bloqueo a los directorios de WordPress (“Disallow: /wp-“).

Como consejo final, te recomiendo que cuando crees tu archivo compruebes que hace lo que esperas de él. Ten en cuenta que un simple error puede bloquear el acceso a los buscadores provocando la pérdida de tus rankings. La comprobación es fácil de hacer con las Herramientas para Webmasters de Google, concretamente en Rastreo > Probador de robots.txt.

Necesitas que revisemos el SEO de tu web AHORA dejamos el correo y te mandaremos un informe completo

Quieres que empecemos con el SEO de tu web 🙂

Puedes leer más artículos sobre cómo optimizar el SEO de tu web-->

Posicionamiento SEO. Claves para ser el Nº1

¿Cómo posicionar mi web? 9 Cosas imprescindibles para el SEO de tu web

Qué es el archivo robots.txt y para qué sirve

Como usar el archivo robots.txt

Quieres que empecemos con el SEO de tu web 🙂

Cómo generar el archivo robots.txt

Comandos principales del archivo robots.txt

Quieres que empecemos con el SEO de tu web 🙂

Restricciones más comunes del archivo robots.txt

Puedes leer todo lo que google dice en su–> Introducción a los archivos robots.txt

Ejemplo de robots.txt para WordPress

Necesitas que revisemos el SEO de tu web AHORA dejamos el correo y te mandaremos un informe completo

Quieres que empecemos con el SEO de tu web 🙂

Puedes leer más artículos sobre cómo optimizar el SEO de tu web-->

Lo último en el blog

Menu

Join the discussion One Comment

Menu

SEO

SEO

Contacto

Qué es el archivo robots.txt y para qué sirve

Como usar el archivo robots.txt

Quieres que empecemos con el SEO de tu web 🙂

Cómo generar el archivo robots.txt

Comandos principales del archivo robots.txt

Quieres que empecemos con el SEO de tu web 🙂

Restricciones más comunes del archivo robots.txt

Puedes leer todo lo que google dice en su–> Introducción a los archivos robots.txt

Ejemplo de robots.txt para WordPress

Necesitas que revisemos el SEO de tu web AHORA dejamos el correo y te mandaremos un informe completo

Quieres que empecemos con el SEO de tu web 🙂

Puedes leer más artículos sobre cómo optimizar el SEO de tu web-->

Post relacionados:

Lo último en el blog

Menu

Join the discussion One Comment

Menu

SEO

SEO

Contacto