Las arañas de los motores de búsqueda rastrearán todo su sitio web para almacenar en caché las páginas de su sitio web para su índice. En general, la mayoría de los propietarios de sitios web están felices de que los motores de búsqueda rastreen e indexen cualquier página que deseen; sin embargo, hay situaciones en las que no desea que se indexen las páginas.
Por ejemplo, si está desarrollando un nuevo sitio web, generalmente es mejor si bloquea los motores de búsqueda para que no indexen su sitio web para que su sitio web incompleto no aparezca en los motores de búsqueda. Esto se puede hacer fácilmente a través de la página de configuración de lectura en http://www.yourwebsite.com/wp-admin/options-reading.php.
Todo lo que tiene que hacer es desplazarse hacia abajo en la sección de visibilidad del motor de búsqueda y habilitar la opción titulada «Disuadir a los motores de búsqueda de indexar este sitio».
Desafortunadamente, WordPress no le permite detener la indexación de páginas página por página. La única opción que tiene es permitir que los motores de búsqueda indexen todo o no indexen nada.
De vez en cuando es necesario impedir que los motores de búsqueda indexen páginas específicas. Por ejemplo, en mi blog personal impido que los motores de búsqueda indexen la página de confirmación del correo electrónico de mi boletín informativo. También evito que indexen la página donde se puede descargar mi libro electrónico gratuito. La mayoría de los blogs no dan el paso de impedir que los motores de búsqueda indexen sus páginas de descarga. Esto significa que las personas pueden descargar libros electrónicos y otros archivos digitales desde páginas privadas simplemente haciendo una búsqueda rápida en línea.
Hay varias maneras diferentes en las que puede evitar que los motores de búsqueda indexen publicaciones y páginas en su sitio web. En este artículo, me gustaría mostrar algunas soluciones que están disponibles para usted.
* Todos los métodos detallados en este artículo se han probado en una instalación de prueba de WordPress y se ha verificado que funcionan correctamente
Google aconseja a los propietarios de los sitios web que bloqueen las URL mediante la metaetiqueta robots . La metaetiqueta robots sigue este formato:
01
|
< meta name = "value" content = "value" > |
La metaetiqueta de robots debe colocarse dentro de la sección <head> del encabezado de su tema de WordPress, es decir, entre <head> y </head>. Hay algunos valores diferentes disponibles para los atributos de nombre y contenido. Los valores que Google aconseja usar para bloquear el acceso a una página son robots y noindex :
01
|
< meta name = "robots" content = "noindex" > |
Robots se refiere a todos los motores de búsqueda, mientras que noindex no permite que el motor de búsqueda muestre la página en su índice.
Si desea bloquear contenido de un motor de búsqueda específico, debe reemplazar el valor de robots con el nombre de la araña del motor de búsqueda. Algunas arañas comunes de motores de búsqueda son:
- robot de google – Google
- googlebot-noticias – Google Noticias
- googlebot-imagen – Imágenes de Google
- bingbot – Bing
- Teoma – Preguntar
Dos arañas bien conocidas que faltan en la lista anterior son MSNBot y Slurp . MSNBot era el nombre de la araña que solía indexar páginas para Live Search, Windows Live Search y MSN Search. Estos motores de búsqueda fueron renombrados como Bing en 2009 y en octubre de 2010 la araña MSNBot fue reemplazada por Bingbot . Microsoft todavía usa MSNBot para rastrear páginas web, sin embargo, pronto se eliminará por completo. Slurp era el nombre de la araña que rastreaba las páginas de Yahoo!. Se suspendió en 2009 como Yahoo! comenzó a usar Bing para potenciar sus resultados de búsqueda.
Todo lo que tiene que hacer para bloquear un rastreador específico es reemplazar robots con el nombre de la araña.
01
|
< meta name = "googlebot-news" content = "noindex" > |
Se pueden bloquear varios motores de búsqueda especificando más arañas y separándolas con comas.
01
|
< meta name = "googlebot-news,bingbot" content = "noindex" > |
Hasta ahora, solo ha visto que se usa la metaetiqueta noindex, sin embargo, hay muchos valores que se pueden usar con el atributo de contenido. Estos valores se denominan normalmente directivas.
Como referencia, aquí hay una lista de las directivas más comunes que están disponibles para usted:
- todo : sin restricciones en la indexación o la vinculación
- índice : muestra la página en los resultados de búsqueda y muestra un enlace almacenado en caché en los resultados de búsqueda
- noindex : no muestra la página en los resultados de búsqueda y no muestra un enlace en caché en los resultados de búsqueda
- seguir – Seguir enlaces en la página
- nofollow – No seguir enlaces en la página
- none – Lo mismo que usar “noindex, nofollow”
- noarchive : no muestra un enlace almacenado en caché en los resultados de búsqueda
- nocache : no muestra un enlace almacenado en caché en los resultados de búsqueda
- nosnippet : no mostrar un fragmento de la página en los resultados de búsqueda
- noodp : no use los metadatos del Open Directory Project para títulos o fragmentos de esta página
- noydir : no utilice los metadatos de Yahoo! Directorio de títulos o fragmentos de esta página
- notranslate – No ofrecer traducción para la página en los resultados de búsqueda
- noimageindex – No indexar imágenes de esta página
- no disponible_después: [RFC-850 fecha/hora] : no mostrar la página en los resultados de búsqueda después de una fecha y hora especificadas en el formato RFC 850
Algunas de estas directivas solo se aplican a determinados motores de búsqueda. Por ejemplo, unavailable_after , nosnippet y notranslate solo son compatibles con Google. Noydir solo es compatible con Yahoo! y nocache solo es compatible con Bing . Otros motores de búsqueda menos conocidos admiten otras directivas que no son compatibles con los principales motores de búsqueda.
Algunas de estas directivas también son redundantes. <meta name=”robots” content=”all”>, por ejemplo, dará el mismo resultado que <meta name=”robots” content=”index, follow”>. Y no tiene sentido usar ninguna de esas metaetiquetas, ya que los motores de búsqueda indexarán el contenido y seguirán los enlaces de forma predeterminada de todos modos.
Si está intentando bloquear los motores de búsqueda para que no indexen una página, entonces la directiva nofollow no se puede usar por sí sola. La directiva nofollow aconseja a los motores de búsqueda que no sigan los enlaces de una página. Puede usar esto para evitar que los motores de búsqueda rastreen una página. El resultado es el mismo que aplicar el atributo de enlace nofollow a cada enlace de la página.
Considere un blog que solo se vincule a un área de descarga desde una página de agradecimiento. Puede agregar una metaetiqueta nofollow al encabezado de la página de agradecimiento para que las arañas de los motores de búsqueda nunca visiten la página de descarga. Esto evitará que las arañas de los motores de búsqueda rastreen la página y la indexen posteriormente. Todo lo que tendría que hacer sería asegurarse de que la página de agradecimiento sea la única área desde la que se vinculó la página de descarga.
Incuestionablemente, alguien más vinculará a esa página de descarga, te guste o no. Esto significa que la directiva nofollow es ineficaz por sí sola. Revisé el tráfico entrante a mi propio blog y encontré enlaces directos a mi página de descarga desde los foros de black hat. Es casi imposible evitar que otros se vinculen a una página que es conocida por otras personas además de usted.
Es por eso que también necesita usar la directiva noindex . La directiva garantiza que una página no se muestre en los resultados de búsqueda. También asegura que no se muestre un enlace en caché para la página; por lo tanto, no necesita usar la directiva noarchive si está usando noindex .
Entonces, para evitar que todos los motores de búsqueda indexen una página y evitar que sigan los enlaces, debemos agregar esto al encabezado de nuestra página:
01
|
< meta name = "robots" content = "noindex,nofollow" > |
La declaración anterior también podría escribirse como <meta name=”robots” content=”none”>, sin embargo, no todos los motores de búsqueda admiten la directiva none . Por lo tanto, es mejor usar » noindex, nofollow » en su lugar.
Si desea eliminar una página del índice, pero aún desea que los motores de búsqueda rastreen las páginas vinculadas en la página, puede usar:
01
|
< meta name = "robots" content = "noindex" > |
Hay miles de artículos en línea que afirman incorrectamente que la línea anterior debe escribirse como <meta name=”robots” content=”noindex,follow”>. Los propios Google afirman que es necesario usar el índice o seguir las directivas en una metaetiqueta. En 2007, aclararon este tema diciendo:
De forma predeterminada, Googlebot indexará una página y seguirá los enlaces a ella. Por lo tanto, no es necesario etiquetar páginas con valores de contenido de ÍNDICE o SEGUIR.
Cuando utilice la metaetiqueta robots en su sitio web, tenga en cuenta que:
- Las metaetiquetas no distinguen entre mayúsculas y minúsculas. Por lo tanto, <meta name=”ROBOTS” content=”NOINDEX”> se interpreta exactamente de la misma manera que <meta name=”robots” content=”noindex”> y <meta name=”RoBoTS” content=”nOinDeX”> .
- Si las instrucciones de robots.txt y metaetiqueta entran en conflicto, Google sigue la regla más restrictiva (estoy 99% seguro de que otros motores de búsqueda siguen esta misma regla, sin embargo, no pude encontrar ninguna aclaración sobre este problema en otros motores de búsqueda).
Ahora sabe cómo evitar que los motores de búsqueda indexen una página en sus resultados de búsqueda. Sin embargo, no se trata solo de agregar el código de la etiqueta meta a la plantilla header.php de su tema. Hacer eso impediría que los motores de búsqueda indexaran todas las páginas impulsadas por WordPress (las páginas publicadas fuera de WordPress no se verían afectadas).
Para garantizar que solo se bloqueen publicaciones y páginas específicas, debemos usar una declaración if que solo aplique la directiva noindex a páginas específicas. Echemos un vistazo más de cerca a cómo podemos hacer eso
Agregue la metaetiqueta Robots al encabezado de su tema: Método 1
Le mostraré tres métodos para agregar una metaetiqueta a su sitio web modificando su plantilla header.php. El resultado final es el mismo para los tres, sin embargo, es posible que prefiera usar un método sobre otro
Para bloquear una publicación o página específica, debe conocer su ID de publicación. La forma más fácil de encontrar el ID de una página es editarla. Cuando edite cualquier tipo de página en WordPress, verá una URL como https://www.yourwebsite.com/wp-admin/post.php?post= 15 &action=edit en la barra de direcciones de su navegador. El número indicado en la URL es el ID de la publicación. Se refiere a la fila en la tabla de la base de datos wp_posts.
Una vez que sepa el ID de la publicación o página que desea bloquear, puede bloquear los motores de búsqueda para que no la indexen agregando el código a continuación a la sección principal de la plantilla header.php de su tema. Es decir, entre <head> y </head>. Puede colocar el código en cualquier lugar dentro de la sección principal; sin embargo, recomiendo colocarlo debajo o encima de sus otras metaetiquetas, ya que facilita la referencia posterior.
01
|
<?php if ( $post ->ID == X) { echo '<meta name="robots" content="noindex,nofollow">' ; } ?> |
En el código anterior, X indica el ID de la publicación que desea bloquear. Por tanto, si tu página tuviera un ID de 15, el código sería:
01
|
<?php if ( $post ->ID == 15) { echo '<meta name="robots" content="noindex,nofollow">' ; } ?> |
Como todos los tipos de publicaciones se almacenan en la tabla de la base de datos wp_posts, el código anterior funcionará con cualquier tipo de página; ya sea una publicación, una página, un archivo adjunto o tipos personalizados, como galerías y portafolios.
Puede bloquear páginas adicionales en su sitio web utilizando el operador OR .
01
|
<?php if ( $post ->ID == X || $post ->ID == Y) { echo '<meta name="robots" content="noindex,nofollow">' ; } ?> |
Simplemente necesita especificar la ID de las páginas que desea bloquear. Por ejemplo, supongamos que desea bloquear los motores de búsqueda para que no indexen publicaciones y páginas con ID 15, 137 y 4008. Puede hacerlo fácilmente usando:
01
|
<?php if ( $post ->ID == 15 || $post ->ID == 137 || $post ->ID == 4008) { echo '<meta name="robots" content="noindex,nofollow">' ; } ?> |
Para confirmar que ha configurado todo correctamente, es importante verificar que ha bloqueado las páginas correctas de los motores de búsqueda. La forma más sencilla de hacer esto es ver la fuente de la página que desea bloquear. Si ha agregado el código correctamente, verá <meta name=”robots” content=”noindex,nofollow”> en la sección principal de la página. Si no, el código no se ha agregado correctamente.
También debe verificar el código fuente de una página que no está tratando de bloquear de los motores de búsqueda. Esto verificará que no ha bloqueado todas las páginas de su sitio web por error.
Agregue la metaetiqueta Robots al encabezado de su tema: Método 2
También puede bloquear páginas de los motores de búsqueda utilizando etiquetas condicionales de WordPress . Para utilizar esta técnica correctamente, debe utilizar la etiqueta condicional adecuada. Por ejemplo, usaría is_single para una publicación de blog e is_page para una página de WordPress.
Una vez más, debemos agregar el código a la sección principal de la plantilla header.php de nuestro tema. En el ejemplo a continuación, X denota la ID de una publicación de blog que debe bloquearse de los motores de búsqueda.
01
02
03
|
<?php if (is_single(X)): ?> <meta name= "robots" content= "noindex,nofollow" > <?php endif ; ?> |
Las etiquetas condicionales son bastante flexibles con la forma en que especifica una publicación o página. Puede usar el ID de la publicación, el título de la publicación o el slug de la publicación .
Considere la primera publicación de blog que se agrega a WordPress. Tiene una ID de publicación de 1, título de publicación de «Hola mundo» y un slug de publicación de «hola-mundo». Por lo tanto, podemos definir la publicación en nuestro código usando:
01
|
<?php if (is_single(1)): ?> |
O:
01
|
<?php if (is_single( '1' )): ?> |
O:
01
|
<?php if (is_single( 'Hello World' )): ?> |
O:
01
|
<?php if (is_single( 'hello-world' )): ?> |
Se puede usar un operador OR si desea bloquear más de una página. Por ejemplo:
01
|
<?php if ( is_single( 'big-announcement' ) || is_single( 'new-update-coming-soon' ) ) ) : ?> |
Las etiquetas condicionales también admiten matrices. Son una mejor manera de manejar múltiples publicaciones o páginas. En el ejemplo a continuación, la declaración if sería verdadera si se muestra cualquiera de las páginas. Puede ver que las páginas se indican mediante el slug de la página, el título de la página y el ID de la página .
01
|
<?php if (is_page( array ( 'about-page' , 'Testimonials' , '658' ) )): ?> |
Recuerde que con las etiquetas condicionales, debe usar la etiqueta correcta para cada página. Por lo tanto, no puede usar una matriz para publicaciones y páginas. Si desea bloquear los motores de búsqueda de una publicación y una página en su sitio web, puede usar algo como esto:
01
|
<?php if ( is_single( 'big-announcement' ) || is_page( 'About' ) ) ) : ?> |
Si tiene una gran cantidad de publicaciones y páginas, puede usar un operador OR entre una matriz is_single y una matriz is_page .
01
|
<?php if (is_single( array ( '45' , '68' , '159' , '543' ) ) || is_page( array ( 'about-page' , 'Contact Us' , '1287' ) ) ): ?> |
Para simplificar las cosas arriba, solo reproduje la instrucción if para explicar cada técnica. No olvides incluir la metaetiqueta en sí y la declaración final de cierre cuando agregues el código al encabezado de tu sitio web
01
02
03
|
<?php if (is_single( array ( '45' , '68' , '159' , '543' ) ) || is_page( array ( 'about-page' , 'Contact Us' , '1287' ) ) ): ?> <meta name= "robots" content= "noindex,nofollow" > <?php endif ; ?> |
Es posible que prefiera usar etiquetas condicionales para poder especificar títulos de publicaciones y páginas y slugs. Esto le facilitará revisar su código y ver qué artículos están siendo bloqueados. Sin embargo, en mi opinión, es arriesgado hacer esto. Se puede cambiar el título de una publicación. Al igual que una babosa de correos. Sin embargo, una ID de publicación nunca cambia.
Si hizo referencia al título de la publicación o la página y el slug en su código, entonces el código dejaría de funcionar si alguien modificara el título o el slug. Cada vez que modifique la publicación o el título de la página y el slug, deberá actualizar el código de la metaetiqueta en la plantilla header.php. Es por eso que recomiendo usar ID de publicación. A largo plazo, es una solución más práctica si oculta muchas publicaciones y páginas.
Agregue la metaetiqueta Robots al encabezado de su tema: Método 3
Otra técnica que puede usar es utilizar la función de campo personalizado de WordPress . Hardeep Asrani explicó esta técnica a principios de este año en un tutorial titulado » Cómo deshabilitar la indexación del motor de búsqueda en una publicación específica de WordPress «.
Lo primero que debe hacer es agregar el siguiente código a la sección principal de la plantilla header.php de su tema.
01
02
03
04
05
06
07
|
<?php $noindex = get_post_meta( $post ->ID, 'noindex-post' , true); if ( $noindex ) { echo '<meta name="robots" content="noindex,nofollow" />' ; } ?> |
No necesita modificar el código anterior e insertar su ID de publicación o título de publicación. En lugar de especificar la publicación o la página para bloquear en el código en sí, lo hace utilizando un campo personalizado. Todo lo que necesita hacer es especificar un campo personalizado titulado noindex-post y asignarle un valor. No importa lo que ingreses. Todo lo que necesita hacer es asegurarse de que se ingrese algo en el campo para que el campo personalizado noindex-post regrese como verdadero en el código que especificó en su encabezado.
Simplemente repita el paso anterior para cualquier tipo de publicación que desee bloquear de los motores de búsqueda.
Creo que esta es una de las técnicas más fáciles de usar que un desarrollador puede configurar para un cliente, ya que es muy sencillo bloquear publicaciones y páginas adicionales. Sin embargo, no le brinda una forma rápida de ver qué publicaciones y páginas están bloqueadas de los motores de búsqueda y cuáles no. Por lo tanto, si usa esta técnica y está bloqueando muchas páginas, puede ser prudente tomar nota de cada página que haya bloqueado.
Bloquear motores de búsqueda usando un complemento de WordPress
Si necesita bloquear los motores de búsqueda de más de unas pocas publicaciones y páginas, es posible que el uso de un complemento de WordPress sea una solución más práctica. El complemento que he usado para hacer esto en el pasado es PC Hide Pages .
Para eliminar una página de un motor de búsqueda usando el complemento, todo lo que tiene que hacer es seleccionar la página de una lista de sus páginas. Cuando hace esto, el complemento aplica la metaetiqueta adecuada a la página en cuestión. Para mí, es una de las mejores soluciones para eliminar páginas de los motores de búsqueda, ya que puedes ver de un vistazo qué páginas has ocultado y hacerlo directamente a través del área de administración de WordPress (que no es algo que puedas hacer de forma nativa con los robots método .txt).
El único inconveniente del complemento es que solo admite páginas de WordPress. No es compatible con publicaciones de blog u otros tipos de publicaciones personalizadas . Es poco probable que esto sea un problema para muchos de ustedes, ya que el contenido que debe ocultarse de los motores de búsqueda generalmente se publica como una página de WordPress, por ejemplo, una página de agradecimiento, una página de descarga, etc.
Si su sitio web utiliza un complemento popular de WordPress para motores de búsqueda, como WordPress SEO o All in One SEO Pack , entonces ya tiene la funcionalidad para eliminar contenido de los motores de búsqueda.
Yoast fue uno de los primeros desarrolladores en crear un complemento que ayudó a los propietarios de sitios web a bloquear los motores de búsqueda. Más tarde integró su complemento Robots Meta en WordPress SEO.
El área de configuración de Títulos y metadatos en WordPress SEO tiene una sección titulada Configuración de metadatos en todo el sitio . Esta sección le permite aplicar la directiva noindex a subpáginas de archivos y evitar títulos y fragmentos de Open Directory Project y Yahoo! Directorio en uso.
WordPress SEO le brinda una gran cantidad de control sobre cómo los motores de búsqueda tratan una página en su sitio web. La primera opción controla si una página está indexada en un motor de búsqueda. Se pueden aplicar seis directivas de metaetiquetas de robots adicionales, incluidas follow , nofollow , none y noarchive . También puede excluir una página del mapa del sitio de su sitio web y establecer su prioridad en el mapa del sitio. También se puede configurar una redirección de URL 301 si necesita redirigir el tráfico de esa página a otra ubicación.
La página de configuración general de All in One SEO Pack tiene una sección llamada Configuración de Noindex . Puede aplicar la metaetiqueta nofollow a muchas áreas diferentes de su sitio web en esta sección. Por ejemplo, categorías, archivos de autor y archivos de etiquetas. También puede detener títulos y fragmentos de Open Directory Project y Yahoo! Directorio en uso. Como puede ver, ofrece algunas opciones más globales que WordPress SEO.
Al igual que WordPress SEO, All in One SEO Pack agrega un área de configuración a la página del editor de publicaciones. Además de aplicar noindex y nofollow , puede excluir la página de su mapa del sitio y deshabilitar Google Analytics. A nivel de publicación, All in One SEO Pack ofrece menos control que WordPress SEO.
Tanto WordPress SEO como All in One SEO Pack funcionan de la misma manera que el método de campo personalizado que expliqué anteriormente, es decir, seleccionando «noindex, nofollow» a través del editor de publicaciones. Si ya está utilizando uno de estos complementos, es posible que desee usarlos para seleccionar qué publicaciones y páginas deben ocultarse de los motores de búsqueda.
Evita que los motores de búsqueda rastreen una publicación o página usando Robots.txt
El Estándar de exclusión de robots determina qué arañas de motores de búsqueda deben indexar y qué no deben indexar. Para hacer esto, debe crear un nuevo archivo de texto y guardar el archivo como robots.txt.
El concepto detrás del protocolo Robots.txt es el mismo que el de la metaetiqueta de robots que he discutido extensamente en este artículo. Sólo hay unas pocas reglas básicas.
- Agente de usuario : la araña del motor de búsqueda a la que se debe aplicar la regla
- No permitir : la URL o el directorio que desea bloquear
Los mismos nombres de araña del motor de búsqueda a los que me referí anteriormente en este artículo se pueden denotar como agente de usuario. Por ejemplo, User-agent: googlebot se usaría para aplicar una regla a Google y User-agent: bingbot aplicaría una regla a Bing. La mayoría de los propietarios de sitios web utilizan un comodín (*) para bloquear todos los motores de búsqueda.
Con la regla Disallow, la URL o el directorio que bloquea se define mediante una ruta relativa de su dominio. Por lo tanto, / bloquearía los motores de búsqueda para que no indexaran todo su sitio web y /wp-admin/ bloquearía los motores de búsqueda de su área de administración de WordPress.
Aquí hay algunos ejemplos para ayudarlo a comprender lo fácil que es usar un archivo robots.txt para bloquear motores de búsqueda.
El siguiente código impedirá que los motores de búsqueda indexen todo su sitio web. Solo agregue esto a su archivo robots.txt si no desea que se indexe ninguna página en su sitio web.
01
02
|
User-agent: * Disallow: / |
Para evitar que los motores de búsqueda indexen su publicación de anuncio reciente, puede usar algo como esto:
01
02
|
User-agent: * Disallow: /2014/06/big-announcement/ |
Para ocultar la página de confirmación de su boletín, podría usar algo como esto:
01
02
|
User-agent: * Disallow: /email-subscription-confirmed/ |
Las reglas definidas en el archivo robots.txt distinguen entre mayúsculas y minúsculas. Sea consciente de esto cuando defina reglas; particularmente al bloquear archivos que usan letras mayúsculas. Por ejemplo, bloquear /downloads/my_great_ebook.pdf en su archivo robots.txt no funcionaría correctamente si el nombre de archivo correcto del libro es My_Great_eBook.pdf.
Otra regla que está disponible para usted es Permitir . Esta regla le permite especificar los agentes de usuario que están permitidos. El siguiente ejemplo muestra cómo funciona esto en la práctica. El código bloqueará todos los motores de búsqueda, pero permitirá que Google Imágenes indexe el contenido dentro de su carpeta de imágenes.
01
02
03
04
05
|
User-agent: * Disallow: / User-agent: Googlebot-Image Allow: /images/ |
Robots.txt también admite la coincidencia de patrones, lo cual es útil para bloquear archivos que tienen nombres o extensiones similares. Sin embargo, no es algo que deba aprender si solo necesita bloquear algunas páginas.
Una vez que haya creado y guardado su archivo robots.txt, debe cargarlo en la raíz de su dominio, es decir, www.yourwebsite.com/robots.txt.
Robots.txt es un estándar relativamente sencillo de entender. Si está buscando más ayuda para crear un archivo robots.txt, puede consultar las páginas de ayuda de Bing y Google . Sin embargo, creo que la mejor manera de aprender a crear una página de robots.txt es mirar la página de robots.txt de otros sitios web. Esto se puede hacer fácilmente ya que cualquier persona puede ver los archivos robots.txt. Todo lo que tiene que hacer es visitar www.nameofwebsite.com/robots.txt para cualquier sitio web que desee consultar. Tenga en cuenta que algunos sitios web no usan Robots.txt, por lo que puede recibir un error 404.
Estos son algunos ejemplos de archivos Robots.txt para ilustrar cómo puede usarlo para controlar lo que hacen los motores de búsqueda:
- Archivo Robots.txt de Amazon
- Archivo Robots.txt de Facebook
- Archivo Robots.txt de Google
- Archivo Robots.txt de YouTube
Robots.txt es una de las formas más prácticas de evitar que los motores de búsqueda indexen publicaciones y páginas en su sitio web, ya que puede consultarlo en cualquier momento visitando www.yourwebsite.com/robots.txt y verificando qué reglas ha aplicado a su sitio web.
Cómo quitar contenido de la vista pública
Evitar que los motores de búsqueda indexen una página no siempre es la mejor solución. Si desea ocultar una página del mundo, puede ser más práctico restringir el acceso a ella. Hablé sobre esto con gran detalle el mes pasado en mi revisión de los mejores complementos de membresía de WordPress .
Un complemento de membresía como Paid Memberships Pro , por ejemplo, le permitirá restringir el acceso al contenido a aquellos que son elegibles. Esto es particularmente útil para proteger las descargas y el contenido premium.
Para obtener una lista completa de complementos de membresía, consulte mi artículo reciente » Uso de complementos de membresía de WordPress para crear su propia membresía de sitio web «.
Cómo eliminar una página de los resultados del motor de búsqueda
En ocasiones, los rastreadores de los motores de búsqueda no ven la directiva noindex indicada en una página. Por lo tanto, sus páginas pueden estar indexadas incorrectamente, aunque usted les aconsejó que no lo hicieran. También puede tener páginas que se han indexado correctamente, pero ahora desea que se eliminen de los motores de búsqueda.
“Tenga en cuenta que debido a que tenemos que rastrear su página para ver la metaetiqueta noindex, existe una pequeña posibilidad de que Googlebot no vea ni respete la metaetiqueta noindex. Si su página aún aparece en los resultados, probablemente se deba a que no hemos rastreado su sitio desde que agregó la etiqueta». – Google
La forma más eficaz de eliminar una página del índice de un motor de búsqueda es utilizar una herramienta de eliminación de URL de motor de búsqueda. En las Herramientas para webmasters de Google , verá una opción para eliminar URL en la sección Índice de Google.
Simplemente haga clic en el botón «Crear una nueva solicitud de eliminación» e ingrese su URL. Tenga en cuenta que debe ingresar el slug de la página que viene después de su dominio. Por ejemplo, si desea eliminar una página ubicada en www.yourwebsite.com/news/gran-anuncio, debe ingresar noticias/gran-anuncio.
Puede optar por eliminar una página de los resultados de búsqueda y la memoria caché o eliminar una página de la memoria caché. También hay una opción para eliminar un directorio completo. Esto se puede utilizar para eliminar por completo un sitio web de sus resultados de búsqueda .
Luego, Google mostrará un mensaje que indica que la página o el directorio se ha agregado para su eliminación. Aproveche esta oportunidad para verificar que la URL que envió sea correcta.
Eliminar una URL de Bing es aún más fácil. Dentro de su servicio de Herramientas para webmasters de Bing se encuentra la Herramienta de eliminación de contenido de Bing .
Para eliminar una página del índice de Bing, todo lo que tiene que hacer es ingresar la URL de la página. A continuación, seleccione si desea eliminar la página del índice o eliminar una versión en caché obsoleta de la página.
Una vez que haya enviado la URL, verá un historial de las páginas que envió para su eliminación.
Desafortunadamente, ni Google ni Bing ofrecen una opción para cargar una lista CSV de archivos que desea eliminar del índice. Por lo tanto, debe enviar las solicitudes una por una.
Pensamientos finales
Desafortunadamente, todos los motores de búsqueda no funcionan bien. Depende de un motor de búsqueda si cumplen con su solicitud de no indexar una página. Los motores de búsqueda más populares siguen las reglas establecidas por los propietarios de sitios web; mientras que los motores de búsqueda deficientes y el software desagradable de los piratas informáticos y los spammers tienden a hacer lo que quieren.
Espero que hayas encontrado útil este tutorial sobre cómo evitar que los motores de búsqueda indexen tu contenido. Si conoce alguna otra buena técnica para evitar que los motores de búsqueda indexen contenido en un sitio web con WordPress, deje un comentario a continuación
Imagen en miniatura del artículo por venimo / shutterstock.com