Cómo crear y configurar su archivo Robots.txt

El Estándar de exclusión de robots se desarrolló en 1994 para que los propietarios de sitios web puedan asesorar a los motores de búsqueda sobre cómo rastrear su sitio web. Funciona de manera similar a la metaetiqueta de robots de la que hablé extensamente recientemente . La principal diferencia es que el archivo robots.txt impedirá que los motores de búsqueda vean una página o un directorio, mientras que la metaetiqueta de robots solo controla si está indexada.

Colocar un archivo robots.txt en la raíz de su dominio le permite evitar que los motores de búsqueda indexen archivos y directorios confidenciales. Por ejemplo, puede evitar que un motor de búsqueda rastree su carpeta de imágenes o indexe un archivo PDF que se encuentra en una carpeta secreta.

Las búsquedas principales seguirán las reglas que establezcas. Sin embargo, tenga en cuenta que las reglas que defina en su archivo robots.txt no se pueden aplicar. Es posible que los rastreadores de software malicioso y los motores de búsqueda deficientes no cumplan con sus reglas e indexen lo que quieran. Afortunadamente, los principales motores de búsqueda siguen el estándar, incluidos Google, Bing, Yandex, Ask y Baidu.

En este artículo, me gustaría mostrarle cómo crear un archivo robots.txt y mostrarle qué archivos y directorios puede querer ocultar de los motores de búsqueda para un sitio web de WordPress.

Las Reglas Básicas del Estándar de Exclusión de Robots

Se puede crear un archivo robots.txt en segundos. Todo lo que tiene que hacer es abrir un editor de texto y guardar un archivo en blanco como robots.txt. Una vez que haya agregado algunas reglas al archivo, guárdelo y cárguelo en la raíz de su dominio, es decir, www.yourwebsite.com/robots.txt. Asegúrese de cargar robots.txt en la raíz de su dominio; incluso si WordPress está instalado en un subdirectorio.

Recomiendo permisos de archivo de 644 para el archivo. La mayoría de las configuraciones de alojamiento configurarán ese archivo con esos permisos después de cargar el archivo. También debe consultar el complemento de WordPress WP Robots Txt ; que le permite modificar el archivo robots.txt directamente a través del área de administración de WordPress. Le evitará tener que volver a cargar su archivo robots.txt a través de FTP cada vez que lo modifique.

Los motores de búsqueda buscarán un archivo robots.txt en la raíz de su dominio cada vez que rastreen su sitio web. Tenga en cuenta que será necesario configurar un archivo robots.txt independiente para cada subdominio y para otros protocolos como https://www.yourwebsite.com.

No lleva mucho tiempo obtener una comprensión completa del estándar de exclusión de robots, ya que solo hay unas pocas reglas para aprender. Estas reglas se conocen generalmente como directivas.

Las dos directivas principales de la norma son:

  • Agente de usuario : define el motor de búsqueda al que se aplica una regla
  • No permitir : aconseja a un motor de búsqueda que no rastree ni indexe un archivo, una página o un directorio.

Se puede utilizar un asterisco (*) como comodín con User-agent para hacer referencia a todos los motores de búsqueda. Por ejemplo, podría agregar lo siguiente al archivo robots.txt de su sitio web para evitar que los motores de búsqueda rastreen todo su sitio web.

01
02
User-agent: *
Disallow: /

La directiva anterior es útil si está desarrollando un nuevo sitio web y no desea que los motores de búsqueda indexen su sitio web incompleto.

Algunos sitios web utilizan la directiva de rechazo sin una barra diagonal para indicar que se puede rastrear un sitio web. Esto permite que los motores de búsqueda tengan acceso completo a su sitio web .

El siguiente código establece que todos los motores de búsqueda pueden rastrear su sitio web. No hay ninguna razón para ingresar este código solo en un archivo robots.txt, ya que los motores de búsqueda rastrearán su sitio web incluso si no define agregar este código a su archivo robots.txt. Sin embargo, se puede utilizar al final de un archivo robots.txt para hacer referencia a todos los demás agentes de usuario.

01
02
User-agent: *
Disallow:

Puede ver en el siguiente ejemplo que he especificado la carpeta de imágenes usando /images/ y no www.yourwebsite.com/images/ . Esto se debe a que robots.txt usa rutas relativas, no rutas URL absolutas. La barra diagonal (/) se refiere a la raíz de un dominio y, por lo tanto, aplica reglas a todo su sitio web. Las rutas distinguen entre mayúsculas y minúsculas, así que asegúrese de usar el caso correcto al definir archivos, páginas y directorios.

01
02
User-agent: *
Disallow: /images/

Para definir directivas para motores de búsqueda específicos, debe conocer el nombre de la araña del motor de búsqueda (también conocido como agente de usuario). Googlebot-Image, por ejemplo, definirá reglas para la araña de Google Images.

01
02
User-agent: Googlebot-Image
Disallow: /images/

Tenga en cuenta que si está definiendo agentes de usuario específicos, es importante enumerarlos al comienzo de su archivo robots.txt. Luego puede usar User-agent: * al final para hacer coincidir cualquier agente de usuario que no se definió explícitamente.

No siempre son los motores de búsqueda los que rastrean su sitio web; es por eso que el término agente de usuario, robot o bot se usa con frecuencia en lugar del término rastreador. La cantidad de bots de Internet que potencialmente pueden rastrear su sitio web es enorme. El sitio web Bots vs Browsers actualmente enumera alrededor de 1,4 millones de agentes de usuario en su base de datos y este número continúa creciendo todos los días. La lista contiene navegadores, dispositivos de juego, sistemas operativos, bots y más.

Bots vs Browsers es una referencia útil para verificar los detalles de un agente de usuario del que nunca antes había oído hablar. También puede hacer referencia a User-Agents.org y User Agent String . Afortunadamente, no necesita recordar una larga lista de agentes de usuario y rastreadores de motores de búsqueda. Solo necesita saber los nombres de los bots y rastreadores a los que desea aplicar reglas específicas; y use el comodín * para aplicar reglas a todos los motores de búsqueda para todo lo demás.

A continuación se muestran algunas arañas comunes de los motores de búsqueda que tal vez desee utilizar:

  • Bingbot -Bing
  • Robot de Google – Google
  • Googlebot-Image – Imágenes de Google
  • Googlebot-Noticias – Google Noticias
  • Teoma – Preguntar

Tenga en cuenta que Google Analytics no muestra de forma nativa el tráfico de rastreo de los motores de búsqueda, ya que los robots de los motores de búsqueda no activan Javascript. Sin embargo, Google Analytics se puede configurar para mostrar información sobre los robots de los motores de búsqueda que rastrean su sitio web. Los analizadores de archivos de registro proporcionados por la mayoría de las empresas de alojamiento, como Webalizer y AWStats , muestran información sobre los rastreadores. Recomiendo revisar estas estadísticas de su sitio web para tener una mejor idea de cómo los motores de búsqueda interactúan con el contenido de su sitio web.

Reglas no estándar de Robots.txt

Todos los rastreadores admiten User-agent y Disallow, aunque hay algunas directivas más disponibles. Estos se conocen como no estándar, ya que no son compatibles con todos los rastreadores. Sin embargo, en la práctica, la mayoría de los principales motores de búsqueda también admiten estas directivas.

  • Permitir : advierte a un motor de búsqueda que puede indexar un archivo o directorio
  • Mapa del sitio : define la ubicación del mapa del sitio de su sitio web
  • Crawl-delay : define la cantidad de segundos entre las solicitudes a su servidor
  • Host : informa al motor de búsqueda de su dominio preferido si está utilizando espejos

No es necesario utilizar la directiva allow para aconsejar a un motor de búsqueda que rastree su sitio web, ya que lo hará de forma predeterminada. Sin embargo, la regla es útil en ciertas situaciones. Por ejemplo, puede definir una directiva que impida que todos los motores de búsqueda rastreen su sitio web, pero permita que un motor de búsqueda específico, como Bing, rastree. También puede usar la directiva para permitir el rastreo de un archivo o directorio en particular; incluso si el resto de su sitio web está bloqueado.

01
02
03
04
User-agent: Googlebot-Image
Disallow: /images/
Allow: /images/background-images/
Allow: /images/logo.png

Tenga en cuenta que este código:

01
02
User-agent: *
Allow: /

Produce el mismo resultado que este código:

01
02
User-agent: *
Disallow:

Como mencioné anteriormente, nunca usaría la directiva allow para recomendar a un motor de búsqueda que rastree un sitio web, ya que lo hace de forma predeterminada.

Curiosamente, la directiva allow se mencionó por primera vez en un borrador de robots.txt en 1996 , pero la mayoría de los motores de búsqueda no la adoptaron hasta varios años después.

Ask.com utiliza » Disallow: » para permitir el rastreo de ciertos directorios . Mientras que Google y Bing aprovechan la directiva de permiso para garantizar que ciertas áreas de sus sitios web aún se puedan rastrear. Si ve sus archivos robots.txt, puede ver que la directiva allow siempre se usa para subdirectorios y archivos y páginas en directorios que están ocultos. Como tal, la directiva allow debe usarse junto con la regla disallow.

01
02
03
User-agent: Bingbot
Disallow: /files
Allow: /files/eBook-subscribe.pdf/

Se pueden definir varias directivas para el mismo agente de usuario. Por lo tanto, puede expandir su archivo robots.txt para especificar una gran cantidad de directivas. Solo depende de qué tan específico quieras ser sobre lo que los motores de búsqueda pueden y no pueden hacer (ten en cuenta que hay un límite en la cantidad de líneas que puedes agregar, pero hablaré de esto más adelante).

Definir su mapa de sitio ayudará a los motores de búsqueda a localizar sus mapas de sitio más rápido. Esto, a su vez, les ayuda a localizar el contenido de su sitio web e indexarlo. Puede usar la directiva Sitemap para definir varios mapas de sitio en su archivo robots.txt.

Tenga en cuenta que no es necesario definir un agente de usuario cuando especifica dónde se encuentran sus mapas de sitio. También tenga en cuenta que su mapa del sitio debe admitir las reglas que especifique en su archivo robots.txt. Es decir, no tiene sentido enumerar páginas en su mapa del sitio para rastrear si su archivo robots.txt no permite el rastreo de esas páginas.

Un mapa del sitio se puede colocar en cualquier lugar de su mapa del sitio. Por lo general, los propietarios de sitios web enumeran su mapa del sitio al principio o cerca del final del archivo robots.txt.

01
02
03
04
05
06
07
Sitemap: http://www.yourwebsite.com/sitemap_index.xml
Sitemap: http://www.yourwebsite.com/category-sitemap.xml
Sitemap: http://www.yourwebsite.com/page-sitemap.xml
Sitemap: http://www.yourwebsite.com/post-sitemap.xml
Sitemap: http://www.yourwebsite.com/forum-sitemap.xml
Sitemap: http://www.yourwebsite.com/topic-sitemap.xml
Sitemap: http://www.yourwebsite.com/post_tag-sitemap.xml

Algunos motores de búsqueda admiten la directiva de demora de rastreo. Esto le permite dictar la cantidad de segundos entre solicitudes en su servidor, para un agente de usuario específico.

01
02
User-agent: teoma
Crawl-delay: 15

Tenga en cuenta que Google no admite la directiva de demora de rastreo. Para cambiar la frecuencia de rastreo de las arañas de Google, debe iniciar sesión en Herramientas para webmasters de Google y hacer clic en Configuración del sitio .

La configuración del sitio de Herramientas para webmasters de Google se puede seleccionar a través del icono de engranaje.

A continuación, podrá cambiar el retraso de rastreo de 500 segundos a 0,5 segundos. No hay forma de ingresar un valor directamente; debe elegir la frecuencia de rastreo deslizando un selector. Además, no hay forma de establecer diferentes tasas de rastreo para cada araña de Google. Por ejemplo, no puede definir una frecuencia de rastreo para Google Imágenes y otra para Google Noticias. La tasa que establezca se utiliza para todos los rastreadores de Google.

Desafortunadamente, se aplica una tasa de rastreo a todos los rastreadores de los motores de búsqueda.

Algunos motores de búsqueda, incluidos Google y el motor de búsqueda ruso Yandex, le permiten usar la directiva de host. Esto permite que un sitio web con múltiples espejos defina el dominio preferido. Esto es particularmente útil para sitios web grandes que han configurado espejos para manejar requisitos de gran ancho de banda debido a descargas y medios.

Nunca he usado la directiva de host en un sitio web, pero aparentemente debe colocarla en la parte inferior de su archivo robots.txt después de la directiva de retraso de rastreo. Recuerde hacer esto si usa la directiva en el archivo robots.txt de su sitio web.

01
Host: www.mypreferredwebsite.com

Como puede ver, las reglas del estándar de exclusión de robots son sencillas. Tenga en cuenta que si las reglas que establece en su archivo robots.txt entran en conflicto con las reglas que define usando una metaetiqueta de robots; el motor de búsqueda aplicará la regla más restrictiva. Esto es algo de lo que hablé recientemente en mi publicación » Cómo evitar que los motores de búsqueda indexen publicaciones y páginas específicas en WordPress «.

Técnicas avanzadas de Robots.txt

Los motores de búsqueda más grandes, como Google y Bing, admiten el uso de comodines en robots.txt. Son muy útiles para señalar archivos del mismo tipo.

Se puede usar un asterisco (*) para hacer coincidir las ocurrencias de una secuencia. Por ejemplo, el siguiente código publicará una variedad de imágenes que tienen un logotipo al principio.

01
02
User-agent: *
Disallow: /images/logo*.jpg

El código anterior no permitiría imágenes dentro de la carpeta de imágenes, como logo.jpg, logo1.jpg, logo2.jpg. logonuevo.jpg y logo-antiguo.jpg.

Tenga en cuenta que el asterisco no hará nada si se coloca al final de una regla. Por ejemplo, Disallow: about.html* es lo mismo que Disallow: about.html . Sin embargo, podría usar el código a continuación para bloquear contenido en cualquier directorio que comience con la palabra prueba. Esto ocultaría los directorios llamados test, testsite, test-123, etc.

01
02
User-agent: *
Disallow: /test*/

Los comodines son útiles para evitar que los motores de búsqueda rastreen archivos de un tipo particular o páginas que tengan un prefijo específico.

Por ejemplo, para evitar que los motores de búsqueda rastreen todos sus documentos PDF dentro de su carpeta de descargas, podría usar este código:

01
02
User-agent: *
Disallow: /downloads/*.pdf

Y puede evitar que los motores de búsqueda rastreen sus directorios wp-admin, wp-includes y wp-content usando este código:

01
02
User-agent: *
Disallow: /wp-*/

Los comodines se pueden usar en varias ubicaciones en una directiva. En el siguiente ejemplo, puede ver que he usado un comodín para indicar cualquier imagen que comience con vacaciones. He reemplazado los nombres de los directorios de año y mes con comodines para que se incluya cualquier imagen; independientemente del mes y año en que se subió.

01
02
User-agent: *
Disallow: /wp-content/uploads/*/*/holiday*.jpg

También puede usar comodines para referirse a una parte de la URL que contiene un determinado carácter o serie de caracteres. Por ejemplo, puede bloquear cualquier URL que contenga un signo de interrogación (?) utilizando este código:

01
02
User-agent: *
Disallow: /*?*

El siguiente comando evitaría que los motores de búsqueda rastreen cualquier URL que comience con una comilla:

01
02
User-agent: *
Disallow: /"

Una cosa que no he mencionado hasta ahora es que robots.txt usa la coincidencia de prefijos. Lo que esto significa es que usar Disallow: /dir/ bloquearía los motores de búsqueda de un directorio llamado /dir/ y de directorios como /dir/directory2/, /dir/test.html, etc.

Esto también se aplica a los nombres de archivo. Considere el siguiente comando para robots.txt:

01
02
User-agent: *
Disallow: /page.php

Como sabe, el código anterior impediría que los motores de búsqueda rastrearan page.php. Sin embargo, también evitaría que los motores de búsqueda rastrearan /page.php?id=25 y /page.php?id=2&ref=google. En resumen, robots.txt bloqueará cualquier extensión de la URL que bloquees. Por lo tanto, bloquear www.yourwebsite.com/123 también bloqueará www.yourwebsite.com/123456 y www.yourwebsite.com/123abc.

En muchos casos, este es el efecto deseado; sin embargo, a veces es mejor especificar el final de una ruta para que no se vean afectadas otras URL. Para hacer esto, puede usar el comodín del signo de dólar ($). Se usa con frecuencia cuando el propietario de un sitio web quiere bloquear un tipo particular de archivo.

En mi ejemplo anterior de bloqueo de page.php, podemos asegurarnos de que solo se bloquee page.php agregando el comodín $ al final de la regla.

01
02
User-agent: *
Disallow: /page.php$

Y podemos usarlo para asegurarnos de que solo se bloquee el directorio /dir/, no /dir/directory2/ o /dir/test.html.

01
02
User-agent: *
Disallow: /dir/$

Muchos propietarios de sitios web usan el comodín $ para especificar qué tipos de imágenes puede rastrear Google Images:

01
02
03
04
05
06
07
08
09
User-agent: Googlebot-Image
Disallow:
Allow: /*.gif$
Allow: /*.png$
Allow: /*.jpeg$
Allow: /*.jpg$
Allow: /*.ico$
Allow: /*.jpg$
Allow: /images/

Mis ejemplos anteriores de bloqueo de archivos PDF y JPG no usaban un comodín $. Siempre he tenido la impresión de que no era necesario usarlo, ya que algo como un PDF, un documento de Word o un archivo de imagen no tendrá ningún sufijo en la URL. Es decir, .pdf, .doc o .png sería el final absoluto de la URL.

Sin embargo, para muchos propietarios de sitios web, es una práctica común adjuntar el comodín $. Durante mi investigación para este artículo, no pude encontrar ninguna documentación que indique por qué esto es necesario. Si alguno de ustedes conoce la razón técnica para hacerlo, hágamelo saber y actualizaré este artículo

Tenga en cuenta que los comodines no son compatibles con todos los rastreadores, por lo que es posible que algunos motores de búsqueda no cumplan con las reglas que defina. Los motores de búsqueda que no admiten comodines tratarán * como si fuera un carácter que desea permitir o no permitir.

Google, Bing y Ask admiten activamente los comodines. Y si ve el archivo robots.txt de Google , verá que Google usa comodines.

Comentando su código Robots.txt

Le conviene adquirir el hábito de documentar el código en su archivo robots.txt. Esto lo ayudará a comprender rápidamente las reglas que ha agregado cuando las consulte más adelante.

Puede publicar comentarios en su archivo robots.txt usando el símbolo de almohadilla #:

01
02
03
04
# Block Google Images from crawling the images folder
 
User-agent: Googlebot-Image
Disallow: /images/

Se puede colocar un comentario al comienzo de una línea o después de una directiva:

01
02
User-agent: Googlebot-Image # The Google Images crawler
Disallow: /images/ # Hide the images folder

Le animo a que adquiera el hábito de comentar su archivo robots.txt desde el principio, ya que le ayudará a comprender las reglas que crea cuando revisa el archivo en una fecha posterior.

Qué colocar en un archivo Robots.txt de WordPress

Lo mejor del estándar de exclusión de robots es que puede ver el archivo robots.txt de cualquier sitio web en Internet (siempre que haya cargado uno). Todo lo que tiene que hacer es visitar www.websitename.com/robots.txt .

Si consulta el archivo robots.txt de algunos sitios web de WordPress, verá que los propietarios de los sitios web definen diferentes reglas para los motores de búsqueda.

Elegant Themes actualmente usa el siguiente código en su archivo robots.txt:

01
02
03
04
User-agent: *
Disallow: /preview/
Disallow: /api/
Disallow: /hostgator

Como puede ver, Elegant Themes solo bloquea tres directorios para que no sean rastreados e indexados.

El cofundador de WordPress, Matt Mullenweg, usa el siguiente código en su blog personal :

01
02
03
04
05
06
07
08
09
10
11
User-agent: *
Disallow:
 
User-agent: Mediapartners-Google*
Disallow:
 
User-agent: *
Disallow: /dropbox
Disallow: /contact
Disallow: /blog/wp-login.php
Disallow: /blog/wp-admin

Matt bloquea una carpeta de Dropbox y una carpeta de contactos. También bloquea la página de inicio de sesión de WordPress y el área de administración de WordPress.

WordPress.org tiene lo siguiente en su archivo robots.txt:

01
02
03
04
05
06
07
08
09
User-agent: *
Disallow: /search
Disallow: /support/search.php
Disallow: /extend/plugins/search.php
Disallow: /plugins/search.php
Disallow: /extend/themes/search.php
Disallow: /themes/search.php
Disallow: /support/rss
Disallow: /archive/

Se definen ocho reglas diferentes en el archivo robots.txt de WordPress.org y seis de estas reglas se refieren a páginas de búsqueda. Su página RSS también está oculta, al igual que una página de archivo que ni siquiera existe (lo que sugiere que no se ha actualizado en años).

Lo más interesante del archivo robots.txt de WordPress.org es que no sigue las sugerencias que recomiendan para agregar a un archivo robots.txt . Aconsejan lo siguiente:

01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
dieciséis
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Sitemap: http://www.example.com/sitemap.xml
 
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
 
# Google AdSense
User-agent: Mediapartners-Google
Disallow:
 
# digg mirror
User-agent: duggmirror
Disallow: /
 
# global
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/cache/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: /category/*/*
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /*?
Allow: /wp-content/uploads/

El código anterior se ha reproducido en miles de blogs como las mejores reglas para agregar a su archivo robots.txt. El código se publicó originalmente en WordPress.org hace varios años y se ha mantenido sin cambios. El hecho de que el código sugerido desactive la araña de Digg ilustra su antigüedad (después de todo, hace varios años que nadie se preocupó por » El efecto Digg «).

Sin embargo, los principios del estándar de exclusión de robots no han cambiado desde que se publicó la página por primera vez. Todavía se recomienda que evite que los motores de búsqueda rastreen directorios importantes como wp-admin, wp-includes y sus directorios de complementos, temas y caché. Lo mejor es ocultar su cgi-bin y su fuente RSS también.

Yoast señaló en un artículo hace dos años que es mejor no ocultar el feed de su sitio web, ya que actúa como un mapa del sitio para Google.

“Bloquear /feed/ es una mala idea porque un feed RSS es en realidad un mapa del sitio válido para Google. Bloquearlo evitaría que Google lo use para encontrar contenido nuevo en su sitio”. – Yoast

Como señaló correctamente Jeff Starr , no es necesario utilizar la fuente RSS como un mapa del sitio si ya tiene un mapa del sitio en funcionamiento en su sitio web.

«Claro que tiene sentido si no tiene un mapa del sitio De lo contrario, mantener el contenido de su feed fuera de los resultados de búsqueda mantiene el jugo enfocado en sus páginas web reales». –Jeff Starr

Yoast adopta un enfoque mínimo para el archivo robots.txt. Hace dos años , sugirió lo siguiente a los usuarios de WordPress:

01
02
User-Agent: *
Disallow: /wp-content/plugins/

Su archivo robots.txt actual tiene algunas líneas adicionales, aunque en general sigue siendo el mismo que sugirió anteriormente. El enfoque minimalista de Yoast se deriva de su creencia de que muchas páginas importantes deberían ocultarse de los resultados del motor de búsqueda mediante el uso de una etiqueta <meta name=”robots” content=”noindex, follow”>.

El desarrollador de WordPress Jeff Starr, autor del increíble Digging Into WordPress , adopta un enfoque diferente.

Su archivo robots.txt actual se ve así:

01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /comment-page-
Disallow: /trackback/
Disallow: /xmlrpc.php
Disallow: /blackhole/
Disallow: /mint/
Disallow: /feed/
Allow: /tag/mint/
Allow: /tag/feed/
Allow: /wp-content/images/
Allow: /wp-content/online/
Sitemap: http://perishablepress.com/sitemap.xml

Además de bloquear wp-admin, wp-content y wp-includes; Jeff evita que los motores de búsqueda vean trackbacks y WordPress xmlrpc.php (un archivo que le permite publicar artículos en su blog a través de blog a client ).

Las páginas de comentarios también están bloqueadas. Si no divide sus páginas en comentarios, es posible que también desee considerar bloquear páginas de comentarios adicionales.

La opción para dividir los comentarios en páginas se puede encontrar en la configuración de discusión de WordPress, es decir, www.yourwebsite.com/wp-admin/options-discussion.php.

Jeff también evita que los rastreadores vean su fuente RSS, un directorio de agujero negro que configuró para bots maliciosos y un directorio privado llamado mint. Jeff insiste en permitir que se vean las etiquetas para mint y feed, así como sus imágenes y un directorio llamado en línea que usa para demostraciones y guiones. Por último, Jeff define la ubicación de su mapa del sitio para los motores de búsqueda.

Qué colocar en su archivo Robots.txt

Sé que muchos de ustedes están leyendo este artículo y simplemente quieren que el código se coloque en su archivo robots.txt y continúen. Sin embargo, es importante que comprenda las reglas que especifica para los motores de búsqueda. También es importante reconocer que no existe un estándar acordado sobre qué colocar en el archivo robots.txt.

Hemos visto esto anteriormente con los diferentes enfoques del desarrollador de WordPress Jeff Starr y Joost de Valk (AKA Yoast); dos personas que son legítimamente reconocidas como expertos en WordPress. También hemos visto que los consejos dados en WordPress.org no se han actualizado en varios años y su propio archivo robots.txt no sigue su propia sugerencia; en cambio, se centra en bloquear la funcionalidad de búsqueda.

He cambiado el contenido de los archivos robots.txt de mi blog muchas veces a lo largo de los años. Mi archivo robots.txt actual se inspiró en las sugerencias de robots.txt de Jeff Starr , las sugerencias de AskApache y los consejos de varios otros desarrolladores en los que respeto y en los que confío.

Por el momento, mi archivo robots.txt se ve así:

01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
dieciséis
17
18
19
# Disallowed and allowed directories and files
 
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /comment-page-
Disallow: /trackback/
Disallow: /xmlrpc.php
Disallow: /feed/
Allow: /wp-content/uploads/
 
# Define website sitemaps
 
Sitemap: http://www.kevinmuldoon.com/sitemap_index.xml
Sitemap: http://www.kevinmuldoon.com/post-sitemap.xml
Sitemap: http://www.kevinmuldoon.com/page-sitemap.xml
Sitemap: http://www.kevinmuldoon.com/category-sitemap.xml
Sitemap: http://www.kevinmuldoon.com/author-sitemap.xml

Mi archivo robots.txt evita que los motores de búsqueda rastreen los directorios importantes que mencioné anteriormente. También insisto en permitir el rastreo de mi carpeta de cargas para que las imágenes puedan indexarse.

Siempre he considerado que el código de mi archivo robots.txt es flexible. Si surge nueva información que muestra que debo cambiar el código que estoy usando, felizmente modificaré el archivo. Asimismo, si agrego nuevos directorios a mi sitio web o encuentro que una página o directorio está indexado incorrectamente, modificaré el archivo. La clave es evolucionar el archivo robots.txt cuando sea necesario.

Le animo a elegir uno de los ejemplos anteriores de robots.txt para su propio sitio web y luego cambiarlo en consecuencia para su propio sitio web. Recuerde, es importante que comprenda todas las directivas que agrega a su archivo robots.txt. El Estándar de exclusión de robots se puede usar para evitar que los motores de búsqueda rastreen archivos y directorios que no desea que se indexen; sin embargo, si ingresa el código incorrecto, puede terminar bloqueando el rastreo de páginas importantes.

El tamaño máximo de un archivo Robots.txt

De acuerdo con un artículo en AskApache, nunca debe usar más de 200 líneas de rechazo en su archivo robots.txt. Desafortunadamente, no proporcionan ninguna evidencia en el artículo que indique por qué este es el caso.

En 2006, algunos miembros de Webmaster World informaron haber visto un mensaje de Google que decía que el archivo robots.txt no debería tener más de 5000 caracteres. Esto probablemente resultaría en alrededor de 200 líneas si asumimos un promedio de 25 caracteres por línea; que es probablemente de donde AskApache obtuvo esta cifra de 200 líneas no permitidas

John Mueller de Google aclaró el tema unos años más tarde. En Google+, dijo:

“Si tiene un archivo robots.txt gigante, recuerde que Googlebot solo leerá los primeros 500kB. Si su archivo robots.txt es más largo, puede provocar que una línea se trunque de forma no deseada. La solución simple es limitar sus archivos robots.txt a un tamaño razonable”.

Asegúrese de verificar el tamaño de su archivo robots.txt si tiene un par de cientos de líneas de texto. Si el archivo tiene más de 500 kb, tendrá que reducir el tamaño del archivo o puede terminar aplicando una regla incompleta.

Probar su archivo Robots.txt

Hay varias formas en las que puede probar su archivo robots.txt. Una opción es utilizar la función de URL bloqueadas , que se puede encontrar en la sección Rastrear en las Herramientas para webmasters de Google .

Inicie sesión en Herramientas para webmasters de Google.

La herramienta mostrará el contenido del archivo robots.txt de su sitio web. El código que se muestra proviene de la última copia de robots.txt que Google recuperó de su sitio web. Por lo tanto, si actualizó su archivo robots.txt desde entonces, es posible que no se muestre la versión actual. Afortunadamente, puede ingresar cualquier código que desee en el cuadro. Esto le permite probar nuevas reglas de robots.txt, aunque recuerde que esto es solo para fines de prueba, es decir, aún necesita actualizar el archivo robots.txt de su sitio web.

Puede probar su código robots.txt contra cualquier URL que desee. El rastreador de Googlebot se utiliza para probar su archivo robots.txt de forma predeterminada. Sin embargo, también puede elegir entre otros cuatro agentes de usuario. Esto incluye Google-Mobile, Google-Image, Mediapartners-Google (Adsense) y Adsbot-Google (Adwords).

Las URL bloqueadas tomadas son útiles para probar diferentes reglas de robots.txt.

Los resultados resaltarán cualquier error en su archivo robots.txt; como vincular a un mapa del sitio que no existe. Es una gran manera de ver los errores que necesitan corrección.

Verifique los resultados de su archivo robots.txt para ver si es necesario cambiar algo.

Otra herramienta útil es Frobee Robots.txt Checker . Resaltará cualquier error que se encuentre y mostrará si hay alguna restricción de acceso.

Robots.txt Checker de Frobee es rápido y fácil de usar.

Otro analizador de robots.txt que me gusta se puede encontrar en Motoricerca . Resaltará cualquier comando que haya ingresado que no sea compatible o que no esté configurado correctamente.

Un verificador de robots.txt fácil de usar que verifica cada línea de su archivo robots.txt.

Es importante verificar el código en su archivo robots.txt usando un analizador de robots.txt antes de agregar el código al archivo robots.txt de su sitio web. Esto asegurará que no haya ingresado ninguna línea incorrectamente.

Pensamientos finales

El Estándar de Exclusión de Robots es una poderosa herramienta para aconsejar a los motores de búsqueda qué rastrear y qué no rastrear. No lleva mucho tiempo comprender los conceptos básicos de la creación de un archivo robots.txt; sin embargo, si necesita bloquear una serie de URL con comodines, puede resultar un poco confuso. Así que asegúrese de usar un analizador de robots.txt para asegurarse de que las reglas se hayan configurado de la manera que desea.

También recuerde cargar robots.txt a la raíz de su directorio y asegúrese de ajustar el código en su propio archivo robots.txt en consecuencia si WordPress se ha instalado en un subdirectorio. Por ejemplo, si instaló WordPress en www.yourwebsite.com/blog/ , no permitiría la ruta /blog/wp-admin/ en lugar de /wp-admin/ .

Es posible que se sorprenda al saber que los motores de búsqueda aún pueden enumerar una URL bloqueada si otros sitios web se vinculan a esa página. Matt Cutts explica cómo puede ocurrir esto en el siguiente video:

Espero que haya encontrado útil este tutorial sobre cómo crear un archivo robots.txt para su sitio web. Recomiendo crear un archivo robots.txt para su propio sitio web y probar los resultados a través de un analizador para ayudarlo a tener una idea de cómo funcionan las cosas. La práctica hace al maestro

Si desea obtener más información sobre cómo crear y editar un archivo robots.txt, le recomiendo consultar los siguientes recursos para obtener más información:

  • Estándar de exclusión de robots (Wikipedia)
  • Mejores reglas de Robots.txt para WordPress (Jeff Starr)
  • Ejemplo de WordPress robots.txt (Yoast)
  • Robots.txt actualizado para WordPress (AskApache)
  • Optimización de Robots.txt (WordPress.org)
  • Especificaciones de Robots.txt (Google)
  • Mejorando el Protocolo de Exclusión de Robots (Google)
  • Cómo crear un archivo Robots.txt (Bing)
  • Las páginas de Web Robots (sitio web útil, sin embargo, no se ha actualizado desde 2007)
  • Aprenda sobre Robots.txt con ejemplos interactivos (MOZ)
  • Acerca de los robots y arañas de indexación de búsqueda (herramientas de búsqueda)

Por último, pero no menos importante, asegúrese de suscribirse al blog de Elegant Themes para recibir actualizaciones de nuestros últimos artículos

Imagen en miniatura del artículo por grop / shutterstock.com