crear archivo robots.txt wordpress

Crear archivo robots.txt en WordPress

El archivo robots.txt ayuda a los robots de los motores de búsqueda a entender qué carpetas y archivos pueden indexar y cuales no. Cuando un robot (bot en adelante) de indexado pasa por tu sitio web y quiere indexar tu sitio lo primero que hace es buscar el archivo robots.txt para saber a qué atenerse. Si no encuentras el archivo en tu instalación de WordPress lo más probable es que no exista y tengas que crearlo.

¿Cómo crear un archivo robots.txt para WordPress?

La creación del archivo es muy sencilla, sólo tenemos que abrir el bloc de notas o cualquier otro editor (sublime, note pad…) y escribir el contenido que te indicaré luego. Guardar y nombrarlo como robots.txt. Bastará con subirlo al directorio raiz de nuestro servidor (donde tenemos la página index) y ya estará funcionando.

Un archivo robots.txt básico para WordPress podría ser:

User-Agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /archives/
Disallow: /wp-content/plugins/
Disallow: /readme.html
Disallow: /refer/
Disallow: /wp-*
Disallow: /comments/feed/
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Mobile
Allow: /

Sitemap: http://www.dominio.com/post-sitemap.xml
Sitemap: http://www.dominio.com/page-sitemap.xml
Sitemap: http://www.dominio.com/hosting-sitemap.xml

Si bien que no es recomendado llamar archivos XML del sitemap desde el archivo robots.txt, para eso tienes muy buenos plugins como Yoast SEO que te permiten llamar de forma independiente a los archivos del sitemap sin tener que mezclar ambas cosas.

Échale un vistazo a este archivo robots.txt que te propongo, pero debes tener presente que adaptarlo a tus necesidades específicas es la mejor forma de sacarle rendimiento. No por tener más cantidad de código ha de ser mejor, al final los bots entenderán lo que pueden y no pueden indexar ¡y punto!

# robots.txt para un blog WordPress.   

# Bloquear o permitir acceso a contenido adjunto. (Si la instalación está en /public_html).

User-Agent: *   
Allow: /wp-content/uploads/
Disallow: /cgi-bin
Disallow: /wp-content/plugins/   
Disallow: /wp-content/themes/   
Disallow: /wp-includes/   
Disallow: /wp-admin/

# Desindexar carpetas que empiecen por wp-

Disallow: /wp-

# Permitir sitemap pero no las búsquedas.

Sitemap: http://tu-web/sitemap.xml   
Disallow: /?s=   
Disallow: /search

# Permitir Feed general para Google Blogsearch.   
# Impedir que /permalink/feed/ sea indexado pues el feed de comentarios suele posicionarse antes de los post.
# Impedir URLs terminadas en /trackback/ que sirven como Trackback URI (contenido duplicado).   

Allow: /feed/$
Disallow: /feed   
Disallow: /comments/feed   
Disallow: /*/feed/$   
Disallow: /*/feed/rss/$   
Disallow: /*/trackback/$   
Disallow: /*/*/feed/$   
Disallow: /*/*/feed/rss/$   
Disallow: /*/*/trackback/$   
Disallow: /*/*/*/feed/$   
Disallow: /*/*/*/feed/rss/$   
Disallow: /*/*/*/trackback/$

# Evita bloqueos de CSS y JS.

Allow: /*.js$
Allow: /*.css$

# Lista de bots que deberías permitir.

User-agent: Googlebot-Image
Allow: /wp-content/uploads/

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Mobile
Allow: /

# Lista de bots que generan consultas abusivas aunque siguen las pautas del archivo robots.txt

User-agent: MSIECrawler
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: HTTrack
Disallow: /

User-agent: Microsoft.URL.Control
Disallow: /

User-agent: libwww
Disallow: /

# Slurp (Yahoo!), Noxtrum y el bot de MSN que suelen generar excesivas consultas.

User-agent: noxtrumbot
Crawl-delay: 50

User-agent: msnbot
Crawl-delay: 30

User-agent: Slurp
Crawl-delay: 10

Cuidado con el Crawl-delay si estableces tiempos altos puede que a Google no le guste y lo refleje en el Probador de robots.txt de Google Search Console.

¡Y ésto es todo amig@s!

About the author: Franky Martin (ADMIN)

Leave a Reply

Your email address will not be published.

18 − diez =