Cómo se puede usar Amazon Polly para crear versiones habladas de sus publicaciones

En pocas palabras, la tecnología de texto a voz es una forma poderosa de permitir que las personas experimenten la web que de otro modo no podrían. A medida que la tecnología ha evolucionado, funciona admirablemente, aunque no ha llegado al punto en que suene tan natural como si alguien estuviera leyendo en voz alta.

Ahí es donde entra en juego el proyecto Polly de Amazon   , cuyo objetivo es acercarse lo más posible al habla real. En este artículo, hablaremos sobre el estado actual del software de texto a voz y le presentaremos el proyecto Amazon Polly. Luego, hablaremos sobre nuestras impresiones sobre cómo Amazon Polly y WordPress funcionan juntos. ¡Vamos a hablar!

Qué es el software de texto a voz (y cuándo tiene sentido usarlo)

El concepto de software de texto a voz es simple: toma un párrafo, una página, un artículo o incluso un libro completo y una computadora se lo lee en voz alta. Cuando las personas piensan en texto a voz, a menudo lo asocian con voces robóticas y cadencias forzadas. Sin embargo, este ya no suele ser el caso, especialmente con el software moderno.

Para algunas personas, la conversión de texto a voz puede sonar como un truco, pero es una tecnología con aplicaciones muy prácticas, como:

  • Permitir que las personas con discapacidad «lean». El uso más obvio del software de texto a voz es permitir que las personas con discapacidad visual consuman contenido escrito.
  • Proporciona una experiencia de lectura sin intervención. Aunque tu vista sea perfecta, a veces es más cómodo o conveniente escuchar algo en lugar de leerlo.
  • Para situaciones en las que las versiones de audio del contenido no están disponibles. Actualmente, los libros más populares también se publican en formato de audio. Sin embargo, no ocurre lo mismo con la mayoría de los demás contenidos escritos, incluidos artículos, poemas y más. El software de texto a voz le permite escuchar cualquier contenido escrito que desee durante todo el tiempo (siempre que la funcionalidad esté integrada).

Desde una perspectiva técnica, convertir texto a voz correctamente es mucho más difícil de lo que imagina. Grabar y reproducir el habla humana es solo el comienzo, lo que nos lleva a la siguiente sección.

El estado actual del software de texto a voz

Si recuerda cómo sonaba el software de texto a voz hace unos años, es posible que no vea la tecnología con cariño. Sin embargo, este tipo de software ha recorrido un largo camino durante los últimos años. Aquí hay un ejemplo rápido de la funcionalidad de texto a voz de Amazon Kindle en acción, leyendo Orgullo y prejuicio:

Notarás que el video muestra varias voces, algunas de las cuales suenan mejor de lo que imaginas. Es cierto que todos son un poco forzados, pero la interpretación del inglés en particular es bastante agradable de escuchar. La diferencia entre cómo sonaría un humano al leer el texto es notable. Sin embargo, no está fuera de discusión que alguien trabaje en un libro completo usando texto a voz y aún así lo disfrute. Además, el narrador de su computadora nunca se cansará ni arrastrará las palabras, lo que le da una ventaja sobre los humanos.

Naturalmente, hay muchos otros programas  que ofrecen capacidades decentes de conversión de texto a voz, como Natural Reader . Este programa le permite abrir y editar sus documentos, así como pegar contenido y leerlo en voz alta en más de 50 voces diferentes. Aquí hay un video de introducción rápida que usa algunas de las voces que ofrece el software:

La diferencia de calidad entre Natural Reader y Amazon es obvia. El habla suena mucho más mecánica y las pausas entre palabras son más notorias. Sin embargo, aumentar la velocidad del lector hace un trabajo decente al enmascarar estos problemas.

En resumen, todavía hay mucha variación en la calidad cuando se trata de software de texto a voz. En unos años, la tecnología probablemente dará un gran salto gracias a las aplicaciones de aprendizaje automático. En esa etapa, es posible que ya no sea tan fácil discernir cuando estás escuchando una máquina que te lee en voz alta o un ser humano real.

Una introducción a Amazon Polly

Amazon Polly es un servicio en la nube que le permite convertir texto en voz en más de 20 idiomas, utilizando más de 40 voces únicas. El servicio existe desde 2016, pero fue en 2018 cuando Amazon lanzó un complemento para ayudar a los usuarios de WordPress a integrarlo en sus sitios web.

El complemento en sí fue producto de un esfuerzo conjunto entre Amazon y WP Engine . Funciona tanto en sitios web con tecnología  de Amazon Web Services (AWS)  como en aquellos que se ejecutan en servidores web independientes. En cualquier caso, puede usar Polly para generar audio para su contenido escrito y permitir que los usuarios lo reproduzcan. Además, le permite almacenar las versiones de audio de sus publicaciones en su propio servidor o usar el Servicio de almacenamiento simple (S3) de Amazon a un costo.

En esta página , puede encontrar varios ejemplos de voz de Amazon Polly en diferentes idiomas:

Los ejemplos son bastante cortos, pero las voces en inglés en particular son bastante decentes. Está a la par con la experiencia de convertir texto en su Kindle a voz, lo cual es de esperar considerando que probablemente usa la misma tecnología.

En cuanto a los costos, necesitará una cuenta de AWS para usar Polly. Sin embargo, el servicio admite hasta cinco millones de caracteres al mes de forma gratuita, durante un máximo de 12 meses. Solo para darte una idea, hay de siete a ocho caracteres en promedio para cada palabra en inglés. Eso equivale a más de 600 000 palabras por mes de forma gratuita con Amazon Polly, que es aproximadamente seis veces la extensión de una novela de largo aliento.

Características clave:

  • Genera voz para tu texto en más de 20 idiomas.
  • Elige entre más de 40 voces para tu texto.
  • Active la conversión de texto a voz de forma predeterminada para todo su contenido de WordPress.
  • Genere un reproductor para las versiones de audio de sus publicaciones y controle su ubicación.
  • Almacene sus archivos de audio en su servidor o usando Amazon S3.
  • Convierta hasta cinco millones de caracteres a audio gratis por mes.

Precio: Niveles gratuitos y premium disponibles | Más información

Nuestra experiencia con el complemento de Amazon Polly

Instalar Amazon Polly en WordPress es notablemente simple. Después de activar el complemento, simplemente conéctelo a su cuenta de AWS usando una clave secreta y de acceso :

Una vez que vincula el complemento a su cuenta de AWS , puede configurar qué voz debe usar de forma predeterminada. Otras configuraciones incluyen la velocidad de reproducción, que controla la velocidad del sonido de texto a voz, y la posición del reproductor que utiliza Amazon Polly para reproducirlo:

Incluso hay una opción de reproducción automática para sus archivos de audio de Amazon Polly, que le recomendamos que mantenga desactivada por el bien de su experiencia de usuario. También puede configurar dónde Amazon Polly almacenará los archivos de audio de sus publicaciones, incluida la opción de guardarlos en su cuenta de S3. Si usa Amazon CloudFront , también puede usarlo para distribuir su audio para disminuir el impacto en sus servidores:

Una característica que nos sorprendió fue la capacidad de generar un feed de podcast utilizando Amazon Polly, que puede vincular a una cuenta de iTunes. Personalmente, no creemos que la calidad de texto a voz sea suficiente para un podcast de alta calidad. Sin embargo, incluir esta opción es un paso en la dirección correcta:

Si habilita Amazon Polly, agregará un reproductor de audio a cada una de sus publicaciones. Sin embargo, puede desactivar la función de texto a voz para las publicaciones caso por caso. Simplemente edítelos y busque el  metabox Habilitar Amazon Polly  dentro de:

Este widget también le permite obtener una vista previa de cuánto costaría generar voz para cada publicación en particular, lo cual es un buen toque. Ahora, cuando los visitantes accedan a sus publicaciones, podrán hacer clic en el reproductor de audio de Amazon Polly, sentarse y escucharlas tranquilamente. En general, la experiencia de integrar el servicio con WordPress es notablemente simple gracias a este complemento.

Conclusión

Las voces realistas son el santo grial del software de texto a voz. El problema es que emular cómo suena una persona real es complicado cuando tienes combinaciones de palabras casi infinitas. Aun así, el software de texto a voz continúa mejorando y Amazon Polly le ofrece una excelente manera de agregar esta función a sus sitios web y aplicaciones.

En cuanto a cómo suena, Amazon Polly ofrece una buena experiencia de texto a voz. Su integración de WordPress dedicada es fácil de configurar y le costará muy poco gracias a los precios competitivos de AWS.

¿Tiene alguna pregunta sobre cómo agregar la funcionalidad de texto a voz a su sitio web? ¡Pregunte en la sección de comentarios a continuación!

Imagen en miniatura del artículo por vectorEps / shutterstock.com.