Crear voz natural usando Text to Speech

Si ha utilizado uno de los servicios de texto a voz más nuevos, ha sido testigo de las enormes mejoras que ha experimentado esta industria en la última década. Las voces que tenemos hoy son mucho más reales que las que la mayoría de la gente asocia con "texto a voz". Cuando trabaja con TTS, puede producir archivos de mejor calidad si sigue estos sencillos pasos. 

Trabajar frase por frase

La mayoría de los editores de TTS de alta calidad pueden generar varias oraciones a la vez, pero si está decidido a obtener el mejor sonido, intente crear una oración a la vez. A menudo, verá una gran mejora tanto en la entonación como en la pausa cuando trabaje en cada oración individualmente. Además, puede agregar silencios entre oraciones más fácilmente trabajando con la postproducción de sus clips (más sobre esto a continuación).

Agrega silencios

Los silencios entre palabras y oraciones crean un habla rítmica y con un sonido natural. Como seres vivos que respiran, los actores de voz toman pausas naturales para inhalar. En su editor de TTS, puede indicarle a la inteligencia artificial (IA) que replique estas pausas agregando comas, puntos, guiones y elipses. Piense en estos signos de puntuación como notas de percusión, no como herramientas gramaticales, y estará bien encaminado para generar grabaciones de voz de IA naturales.

Permítanme darles un breve ejemplo. En este primer clip, ingresé el siguiente texto en TexVoz. Usé la puntuación de una manera gramatical:

Ahora, escuche la misma oración con signos de puntuación de percusión agregados para crear un ritmo atractivo. Observe cómo la oración, aunque gramaticalmente incorrecta, tiene una cadencia que suena natural:

Usa una ortografía inventiva

Los servicios TTS modernos se entrenan en redes neuronales. Como resultado, funcionan de manera predictiva y esto significa que a veces pronuncian mal las palabras. A menudo, esto sucede con palabras que se escriben igual pero se pronuncian de manera diferente. Piense en los homónimos "leer" como en "¡Puedo leer!" y "leer", como en "Todavía no he leído este libro". Otras palabras que se pronuncian mal con frecuencia incluyen abreviaturas como "CEO" o "USC". Una voz de IA con entrenamiento neuronal los leerá como palabras cortas y divertidas en lugar de pronunciar las letras. 

Para obtener los resultados correctos, deletree fonéticamente. A veces, tendrá que ser explícito con el editor de texto a voz sobre cómo desea que se pronuncie una palabra, tal como lo haría con un actor de voz. Es posible que "Leer" deba ingresarse como "reed" y "CEO" como "see eeh oh". 

Juega con la entonación

Los signos de puntuación no solo añaden pausas, sino que también cambian la entonación. Si desea enfatizar una palabra específica, intente ponerla entre comillas. Si desea una entonación diferente a la que está escuchando, pruebe con mayúsculas SELECTivas o TODAS en mayúsculas. También puede insertar comas y puntos antes o después de la palabra que desea enfatizar, siempre que la pausa resultante sea aceptable. 

Usando la misma oración de ejemplo que le mostré anteriormente, agregué algunas marcas de entonación para lograr una interpretación más viva. "Escalable" es lo suficientemente inusual como para que el editor necesite un poco de ayuda, así que ingresé "escalable" para solicitar los fonemas correctos.

Editar posproducción

No necesita ser un experto para pulir sus archivos WAV con un editor de sonido. Muchas aplicaciones de edición de audio básicas y económicas le permiten agregar pausas de posproducción. Agregue un poco de silencio al comienzo de sus clips para imitar la inhalación de un actor de voz. Agregue también una pequeña cantidad de silencio entre sus clips y tendrá una producción de audio de calidad con un sonido humano en sus manos.

Síguenos

Obtenga la información más reciente de nuestra plataforma en nuestras redes sociales