7 formas infalibles de proteger su sitio de WordPress de los raspadores de contenido

El raspado de contenido (también conocido como raspado web, recolección web, extracción de datos web, etc.) es el proceso de copiar datos de un sitio web. Los raspadores de contenido son las personas o el software que copian los datos. Web scraping en sí mismo no es algo malo. De hecho, todos los navegadores web son esencialmente rastreadores de contenido. Hay muchos propósitos legítimos para los raspadores de contenido, como la indexación web para motores de búsqueda, por ejemplo.

La verdadera preocupación es si los raspadores de contenido en su sitio son dañinos o no. Los competidores pueden querer robar su contenido y publicarlo como propio. Si puede distinguir entre los usuarios legítimos y los malos, tiene muchas más posibilidades de protegerse. Este artículo explica los conceptos básicos del web scraping, junto con 7 formas en que puede proteger su sitio de WordPress.

Tipos de raspadores de contenido

Hay muchas maneras diferentes en que los raspadores de contenido descargan datos. Es útil conocer los diversos métodos y qué tecnología utilizan. Los métodos van desde baja tecnología (una persona que copia y pega manualmente) hasta sofisticados bots (software automatizado capaz de simular la actividad humana dentro de un navegador web). Aquí hay un resumen de lo que puede estar enfrentando:

Arañas: el rastreo web es una gran parte de cómo funcionan los raspadores de contenido. Una araña como Googlebot comenzará rastreando una sola página web y pasará de un enlace a otro para descargar páginas web.
Shell Scripts: puede usar Linux Shell para crear extractores de contenido con scripts como GNUs Wget para descargar contenido.
Scrapers HTML: son similares a los scripts de shell. Este tipo de raspador es muy común. Funciona obteniendo la estructura HTML de un sitio web para encontrar datos.
Screenscrapers: Un screen scraper es cualquier programa que captura datos de un sitio web replicando el comportamiento de un usuario humano que está usando una computadora para navegar por Internet.
Copia humana: aquí es donde una persona copia manualmente el contenido de su sitio web. Si alguna vez ha publicado en línea, es posible que haya notado que el plagio es rampante. Después de que desaparecen los halagos iniciales, surge la realidad de que alguien se está beneficiando de tu trabajo.

Hay muchas formas de hacer lo mismo. Las categorías de raspadores de contenido enumeradas anteriormente no son exhaustivas. Además, hay mucha superposición entre las categorías.

Herramientas utilizadas por los extractores de contenido

Imagen de medejaja / shutterstock.com

Hay una variedad de raspadores de contenido disponibles, así como una variedad de herramientas para ayudar en el proceso de raspado web. También existen algunas organizaciones expertas que ofrecen servicios de extracción de datos. No hay escasez de herramientas que los raspadores de contenido pueden usar para obtener datos. Estas herramientas son utilizadas por aficionados y profesionales para una variedad de propósitos diferentes. Muchas veces puedes descargar un paquete lleno de herramientas como Beautiful Soup , un paquete de Python para analizar documentos HTML y XML. A continuación se presentan algunas herramientas comúnmente utilizadas por los raspadores de contenido.

cURL : Esto es parte de libcurl, una biblioteca de PHP para realizar solicitudes HTTP.
HTTrack : un rastreador web gratuito y de código abierto que descarga sitios web para navegar sin conexión.
GNU Wget : una herramienta para descargar contenido de servidores a través de FTP, HTTPS y HTTP. Consígalo gratis del sitio web de GNU.
Kantu : software gratuito de automatización web visual que automatiza tareas que generalmente realizan los humanos, como completar formularios.

7 formas de proteger su sitio de WordPress de los raspadores de contenido

Imagen de 0beron / shutterstock.com

El administrador de un sitio web puede usar varias medidas para detener o ralentizar un bot. Existen métodos que utilizan los sitios web para frustrar los raspadores de contenido, como detectar y prohibir que los bots vean sus páginas. A continuación se presentan 10 métodos para proteger su sitio de los raspadores de contenido.

1. Limitación y bloqueo de tasas

Puede luchar contra una gran parte de los bots detectando primero el problema. Es típico que un bot automatizado envíe spam a su servidor con una cantidad inusualmente alta de solicitudes. La limitación de velocidad, como sugiere su nombre, limita las solicitudes del servidor que provienen de un cliente individual mediante el establecimiento de una regla.

Puede hacer cosas como medir los milisegundos entre solicitudes. Si es demasiado rápido para que un humano haya hecho clic en ese enlace después de la carga de la página inicial, entonces sabes que es un bot. Posteriormente bloquee esa dirección IP. Puede bloquear direcciones IP en función de una serie de criterios, incluido su país de origen.

2. Registro e inicio de sesión

El registro y el inicio de sesión son una forma popular de mantener el contenido a salvo de miradas indiscretas. Puede obstaculizar el progreso de los bots que no pueden usar imágenes de computadora con estos métodos. Simplemente solicite el registro e inicio de sesión para el contenido que desea solo para sus espectadores. Los conceptos básicos de la seguridad de inicio de sesión se aplican aquí. Tenga en cuenta que las páginas que requieren registro e inicio de sesión no serán indexadas por los motores de búsqueda.

3. Honeypots y datos falsos

En informática, los honeypots son operaciones encubiertas virtuales. Redondea a los posibles atacantes colocando trampas con un señuelo para detectar el tráfico de los raspadores de contenido. Hay un número infinito de maneras de hacer esto.

Por ejemplo, puede agregar un enlace invisible en su página web. A continuación, cree un algoritmo que bloquee la dirección IP del cliente que hizo clic en el enlace. Los honeypots más sofisticados pueden ser difíciles de configurar y mantener. La buena noticia es que hay muchos proyectos trampa de código abierto por ahí. Echa un vistazo a esta gran lista de increíbles honeypots en github.

4. Usa un CAPTCHA

Captcha significa prueba de Turing pública completamente automatizada para diferenciar a las computadoras de los humanos. Los captchas pueden ser molestos, pero también son útiles. Puede usar uno para bloquear áreas en las que sospecha que un bot puede estar interesado, como un botón de correo electrónico en su formulario de contacto. Hay muchos buenos complementos de Captcha disponibles para WordPress, incluido el módulo Captcha de Jetpack . También tenemos una publicación informativa sobre los beneficios de usar CAPTCHA en WordPress que probablemente debería consultar.

5. Cambia con frecuencia el HTML

Esto puede interferir con los rastreadores de contenido que se basan en el marcado HTML predecible para identificar partes de su sitio web. Puede lanzar una llave inglesa en este proceso agregando elementos inesperados. Facebook solía hacer esto generando ID de elementos aleatorios, y tú también puedes hacerlo. Esto puede frustrar a los raspadores de contenido hasta que se rompen. Tenga en cuenta que este método puede causar problemas con cosas como actualizaciones y almacenamiento en caché.

6. Ofuscación

Puede ocultar sus datos para hacerlos menos accesibles modificando los archivos de su sitio. Me he encontrado con un puñado de sitios web que sirven texto como una imagen, lo que hace que sea mucho más difícil para los seres humanos tratar de copiar y pegar manualmente el texto. También puede usar sprites CSS para ocultar los nombres de las imágenes.

7. ¡No lo publique!

El mundo real es su mejor apuesta cuando se trata de encriptación. Si tiene información que absolutamente necesita que sea privada, no la ponga en Internet. No poner la información en Internet es realmente la única forma de mantener su contenido seguro. Si bien los métodos que mencionamos aquí son formas efectivas de evitar que los raspadores de contenido roben sus datos, no hay garantías. Estos métodos lo hacen más difícil, pero no imposible.

Terminando

Algunas medidas de seguridad afectan la experiencia del usuario. Tenga en cuenta que es posible que tenga que hacer un compromiso entre la seguridad y la accesibilidad. Lo mejor es ir tras la fruta madura primero. En muchos casos, puede encontrar un complemento para ayudar. Los complementos de seguridad como WordFence y Sucuri pueden automatizar la limitación y el bloqueo de tasas, entre otras cosas. Los métodos más efectivos que he encontrado involucran:

Usando honeypots
Ofuscando el código
Limitación de velocidad y otras formas de detección

No existen soluciones a prueba de balas para proteger su sitio de los raspadores de contenido. La evolución de raspadores de contenido más sofisticados surgió como respuesta a los webmasters inteligentes. Es una batalla de ida y vuelta que ha estado ocurriendo desde principios de la década de 1990. Los raspadores pueden falsificar casi todos los aspectos de un usuario humano, lo que puede dificultar saber quiénes son los malos. Si bien esto es desalentador, la mayoría de los raspadores de contenido con los que lidiará serán lo suficientemente básicos como para detenerlos fácilmente.

¿Tiene alguna experiencia con raspadores de contenido malicioso? ¿Qué hiciste para detenerlos? Siéntase libre de compartir en la sección de comentarios a continuación.

Imagen en miniatura del artículo por Lucky clover / shutterstock.com