El archivo robots.txt ayuda a los robots de los motores de búsqueda a entender qué carpetas y archivos pueden indexar y cuales no. Cuando un robot (bot en adelante) de indexado pasa por tu sitio web y quiere indexar tu sitio lo primero que hace es buscar el archivo robots.txt para saber a qué atenerse. Si no encuentras el archivo en tu instalación de WordPress lo más probable es que no exista y tengas que crearlo.
¿Cómo crear un archivo robots.txt para WordPress?
La creación del archivo es muy sencilla, sólo tenemos que abrir el bloc de notas o cualquier otro editor (sublime, note pad…) y escribir el contenido que te indicaré luego. Guardar y nombrarlo como robots.txt. Bastará con subirlo al directorio raiz de nuestro servidor (donde tenemos la página index) y ya estará funcionando.
Un archivo robots.txt básico para WordPress podría ser:
User-Agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /archives/ Disallow: /wp-content/plugins/ Disallow: /readme.html Disallow: /refer/ Disallow: /wp-* Disallow: /comments/feed/ User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: Adsbot-Google Allow: / User-agent: Googlebot-Mobile Allow: / Sitemap: http://www.dominio.com/post-sitemap.xml Sitemap: http://www.dominio.com/page-sitemap.xml Sitemap: http://www.dominio.com/hosting-sitemap.xml
Si bien que no es recomendado llamar archivos XML del sitemap desde el archivo robots.txt, para eso tienes muy buenos plugins como Yoast SEO que te permiten llamar de forma independiente a los archivos del sitemap sin tener que mezclar ambas cosas.
Échale un vistazo a este archivo robots.txt que te propongo, pero debes tener presente que adaptarlo a tus necesidades específicas es la mejor forma de sacarle rendimiento. No por tener más cantidad de código ha de ser mejor, al final los bots entenderán lo que pueden y no pueden indexar ¡y punto!
# robots.txt para un blog WordPress. # Bloquear o permitir acceso a contenido adjunto. (Si la instalación está en /public_html). User-Agent: * Allow: /wp-content/uploads/ Disallow: /cgi-bin Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/ Disallow: /wp-includes/ Disallow: /wp-admin/ # Desindexar carpetas que empiecen por wp- Disallow: /wp- # Permitir sitemap pero no las búsquedas. Sitemap: http://tu-web/sitemap.xml Disallow: /?s= Disallow: /search # Permitir Feed general para Google Blogsearch. # Impedir que /permalink/feed/ sea indexado pues el feed de comentarios suele posicionarse antes de los post. # Impedir URLs terminadas en /trackback/ que sirven como Trackback URI (contenido duplicado). Allow: /feed/$ Disallow: /feed Disallow: /comments/feed Disallow: /*/feed/$ Disallow: /*/feed/rss/$ Disallow: /*/trackback/$ Disallow: /*/*/feed/$ Disallow: /*/*/feed/rss/$ Disallow: /*/*/trackback/$ Disallow: /*/*/*/feed/$ Disallow: /*/*/*/feed/rss/$ Disallow: /*/*/*/trackback/$ # Evita bloqueos de CSS y JS. Allow: /*.js$ Allow: /*.css$ # Lista de bots que deberías permitir. User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: Adsbot-Google Allow: / User-agent: Googlebot-Mobile Allow: / # Lista de bots que generan consultas abusivas aunque siguen las pautas del archivo robots.txt User-agent: MSIECrawler Disallow: / User-agent: WebCopier Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: libwww Disallow: / # Slurp (Yahoo!), Noxtrum y el bot de MSN que suelen generar excesivas consultas. User-agent: noxtrumbot Crawl-delay: 50 User-agent: msnbot Crawl-delay: 30 User-agent: Slurp Crawl-delay: 10
Cuidado con el Crawl-delay si estableces tiempos altos puede que a Google no le guste y lo refleje en el Probador de robots.txt de Google Search Console.
¡Y ésto es todo amig@s!