Cómo hacer una voz de IA en 2023 (Tutorial)
Publicado: 2023-09-08Desde que ChatGPT apareció en escena a finales de 2022, han aparecido por todas partes nuevos programas de IA generativa (inteligencia artificial). Uno de los tipos más exclusivos de inteligencia artificial es la voz AI, que le permite utilizar indicaciones de texto para crear clips de voz para marketing, capacitación de empleados y más. En esta publicación, le mostraremos cómo crear una voz de IA usando un programa popular, PlayHT. Vamos a sumergirnos.
- 1 ¿Qué es la IA?
- 2 ¿Qué es la generación de voz por IA?
- 2.1 ¿Cómo funcionan los generadores de voz con IA?
- 3 Cómo hacer una voz de IA
- 3.1 Paso 1: Crear una cuenta
- 3.2 Paso 2: Explorar la interfaz
- 3.3 Paso 3: Generar tu primera voz de IA
- 3.4 Paso 4: Clonación de voz
- 3.5 Paso 5: Exportar un proyecto
- 4 mejores prácticas para generadores de voz con IA
- Cinco reflexiones finales sobre la creación de una voz de IA
¿Qué es la IA?
La inteligencia artificial es una tecnología expansiva que permite a las computadoras realizar tareas extensas que los humanos normalmente harían. Sin embargo, esas tareas toman una fracción del tiempo con los sistemas de IA. Existen varios tipos de IA, la más común es la IA estrecha. Este tipo de IA se utiliza para crear imágenes, voz, música y texto a partir de un simple mensaje de texto.
¿Qué es la generación de voz por IA?
Las voces de IA son voces generadas por computadora que imitan los sonidos, características y tonos de las voces humanas. Comienzan como texto o grabando su propia voz para crear una voz humana única. Gracias al poder de la tecnología de conversión de texto a voz de la IA, los creadores pueden desarrollar voces para podcasts, locuciones en off o servir como herramientas de asistencia para personas con discapacidad visual.
¿Cómo funcionan los generadores de voz con IA?
Los generadores de voz con IA requieren un preprocesador de texto, transcripción fonética y síntesis de voz para funcionar. El primer paso, el preprocesamiento del texto, toma el texto sin formato y lo deja todo limpio y organizado. Divide las palabras en partes más pequeñas llamadas tokens, corrige artefactos extraños como contracciones o caracteres especiales y convierte números en palabras reales.
Luego, en el segundo paso, esos tokens se analizan y se les asignan etiquetas como verbos, sustantivos o adjetivos. Esto ayuda al sistema a comprender cómo se debe usar cada palabra y qué significa en el contexto.
Ahora bien, aquí es donde ocurre la magia. El texto pasa por un análisis fonético, lo que significa que se convierte en un tipo especial de escritura que captura cómo deben sonar las palabras cuando se pronuncian. Esto incluye énfasis, tono y ritmo para que el discurso suene natural.
Finalmente, en el último paso, todo ese arduo trabajo vale la pena. Las transcripciones fonéticas se convierten en habla real mediante ondas sonoras. Gracias a los modernos algoritmos de IA, el habla generada hoy en día suena mucho más natural y humana que los motores de conversión de texto a voz del pasado.
Cómo hacer una voz de IA
Los generadores de voz han recorrido un largo camino desde que IBM lanzó Shoebox en 1962. Los sistemas modernos, como PlayHT, tienen una variedad de voces sintéticas con diferentes tonos, lo que permite crear las voces más realistas. Otras herramientas, como MurfAI, te permitirán ajustar el tono, el tono y la velocidad. En este tutorial, usaremos PlayHT para crear una voz de IA.
Paso 1: crear una cuenta
El primer paso del proceso es crear una cuenta PlayHT gratuita. Comience navegando a la página de inicio, luego haga clic en el botón probar gratis en la parte superior derecha de la pantalla.
Puede registrarse utilizando una cuenta de Google o ingresar su nombre y correo electrónico. Utilice el método elegido y luego haga clic en registrarse para continuar.
En el siguiente paso, elija si planea utilizar PlayHT como individuo o en un entorno empresarial.
PlayHT le hará preguntas sobre cómo utilizará el software en las siguientes pantallas.
Una vez que haya realizado sus selecciones y creado su cuenta, puede comenzar a explorar la interfaz.
Paso 2: explorar la interfaz
Familiaricémonos con la interfaz antes de generar nuestra primera voz:
- Crear nuevo archivo: aquí es donde crearás tu primer proyecto.
- Archivos recientes: una lista de sus proyectos más recientes.
- Archivos: donde se encuentran todos sus archivos.
- Clonación de voz: puede cargar el audio de una voz y luego clonarlo para usarlo en el software.
- Acceso API: para integrar PlayHT en otras aplicaciones
- Facturación: Administre su cuenta.
- Selector de idioma: el inglés es la única opción en este momento, pero se están trabajando en otros idiomas.
- Recuento de palabras: le permite ver cuántas palabras restantes están disponibles.
- Generar todos los párrafos: se utiliza para generar una voz de IA.
- Importar video: agregue voces en off a un video subido.
- Mensaje de texto: entrada de texto para generación de voz AI.
- Controles de audio: ajusta la línea de tiempo de tu voz y reorganiza los clips.
- Exportar proyecto: guarde su proyecto por párrafo o como un archivo wav.
Paso 3: generando tu primera voz de IA
Generar una voz de IA con PlayHT es sencillo. Puedes crear tu propio script o utilizar un chatbot de IA para ayudarte. En este tutorial, usaremos ChatGPT para generar el texto de nuestra voz. Comience haciendo clic en el botón crear nuevo archivo para crear un nuevo proyecto para nuestra voz.
A continuación, elegiremos una voz sintética para el proyecto. Para hacer esto, haga clic en el ícono de voz directamente encima del mensaje de texto.
Aparecerá una nueva ventana emergente que le permitirá probar una de las más de 130 voces de IA. Para elegir uno, simplemente haga clic en él (1), seleccione la velocidad de reproducción (2), elija aplicar la voz a todos los párrafos de su proyecto (3) y luego confirme los cambios (4).
Elegiremos a Hudson porque suena más realista y tiene una buena voz narrativa para nuestro guión.
Utilice ChatGPT para generar un guión de vídeo
Ahora que tenemos nuestra voz seleccionada, necesitaremos generar algo de texto. Le pediremos a ChatGPT que cree un breve guión de vídeo que proporcione datos interesantes sobre los perros. Usamos el siguiente mensaje: Proporcione un breve guión de video para mostrar 5 datos desconocidos sobre los perros .
Una vez que se genera el script, necesitaremos ingresar algo de texto para nuestro proyecto. Comenzaremos pegando la introducción de nuestro guión en PlayHT: ¡Hola, amantes de los perros! ¡Hoy descubriremos cinco datos fascinantes y menos conocidos sobre el mejor amigo del hombre, los perros! Así que toma un capricho, siéntate y ¡sumergámonos!
Para generar la voz, haga clic en el ícono de reproducción a la izquierda del mensaje de texto.
PlayHT generará el texto usando la voz de Hudson. Dependiendo de la cantidad de texto que utilices, el proceso de generación podría tardar hasta unos minutos. Una vez completado, podrá obtener una vista previa de la voz haciendo clic en el botón de reproducción (1) a la derecha de la pantalla. Si no está satisfecho con el resultado, puede hacer clic en el botón regenerar (2) para volver a intentarlo.
Así suena el primer párrafo:
Si bien esto suena bastante bien, le vendría bien un poco de ajuste. Las pausas en la voz no suenan del todo bien, así que haremos un par de ajustes.
Salida regeneradora
PlayHT le permite realizar cambios en la entrada de texto y luego regenerarlo. Esto es útil cuando el resultado no está a la altura de sus estándares. Un buen consejo es agregar guiones entre oraciones para crear una pausa natural. Con los generadores de voz de IA, existe una tendencia a apresurar el texto, creando oraciones continuas y antinaturales. Entonces, para corregir esto, cambiaremos nuestro mensaje original a: ¡Hola amantes de los perros! – Hoy descubriremos cinco datos fascinantes y menos conocidos sobre el mejor amigo del hombre: ¡los perros! – Entonces, toma un capricho, siéntate y ¡sumergámonos!
Aquí están los resultados:
Paso 4: clonación de voz
Otra característica interesante de PlayHT es la capacidad de crear tus propias voces de IA. Funciona cargando un clip de 30 segundos y luego transformándolo en una voz de IA utilizable para sus proyectos. Para comenzar, haga clic en la pestaña de clonación de voz en la interfaz de PlayHT.
A continuación, haga clic en el botón crear un nuevo clon .
Como utilizamos la licencia gratuita, nuestra única opción es elegir la opción instantánea , que crea una voz de IA a partir de un clip de sonido de 30 segundos.
A continuación, asigne un nombre a su voz (1), elija un género (2), cargue un archivo de audio (3), confirme que tiene los derechos para usar el clip (4) y haga clic en crear (5).
Una vez creado el clon, aparecerá debajo del botón Crear un nuevo clon (1). Desde allí, puedes usarlo (2), compartirlo (3) o eliminarlo (4).
Para ver cómo suena, agregue un mensaje de texto para obtener una vista previa. Para ser honesto, quedamos bastante impresionados con los resultados:
Paso 5: Exportar un proyecto
El último paso en el proceso de creación es exportar sus archivos de sonido. Puede hacerlo de dos maneras: exportando un párrafo a la vez o todos los párrafos en un archivo. Para la mayoría de los creadores, tiene sentido exportar los archivos por separado. De esa manera, puedes agregar escenas de corte y otros efectos entre cada una. Para exportar sus archivos, haga clic en el botón exportar en la parte superior izquierda de la pantalla.
Aparecerá un menú desplegable con dos opciones: cada párrafo por separado y como un único archivo de audio .
Todos los archivos se exportan como archivos de audio wav, que se pueden importar utilizando cualquier software de audio.
Mejores prácticas para generadores de voz con IA
Es importante comprender algunas prácticas recomendadas al crear clips para aprovechar al máximo los generadores de voz de IA. Primero, separe las oraciones agregando un guión (-). Esto le permite al algoritmo saber que debe haber una pausa y, por lo general, eliminará las oraciones continuas. De manera similar, las comas y el punto y coma pueden agregar una pausa natural entre palabras. Por otro lado, evite los guiones entre las palabras de una oración. Por ejemplo, usaría sin salida al mar en lugar de sin salida al mar .
También debe agregar espacios entre acrónimos para ayudar a la IA a comprender que debe haber letras habladas individuales en lugar de palabras. Por ejemplo, en lugar de utilizar IA , utilice IA . También puede agregar un punto entre letras en siglas. Para evitar la repetición de palabras, reformule su texto para incluir puntuación, como comas, punto y coma o guiones. Otra forma de remediar la repetición es dividir las oraciones en otras más pequeñas. Esto evita que la IA se confunda, lo que suele provocar resultados indeseables.
Reflexiones finales sobre la creación de una voz de IA
Los generadores de voz con IA están cambiando la forma en que los creadores crean audio. A través de software de inteligencia artificial como PlayHT, puedes crear voces para podcasts, vídeos de YouTube, vídeos de marketing, materiales de formación y más. A medida que avanza la tecnología de inteligencia artificial, el futuro de la generación de voz tiene un enorme potencial, abriendo puertas a experiencias más inmersivas.
Para aquellos interesados en explorar otras aplicaciones de IA, nuestro blog tiene muchas publicaciones que lo ayudarán a convertirse en una superestrella de la IA en poco tiempo.
- Cómo hacer arte con IA en 2023 (tutorial detallado)
- 31 formas en las que puedes utilizar la IA hoy (Guía 2023)
- Cómo utilizar el relleno generativo de IA de Photoshop en 2023 (tutorial detallado)
- Cómo utilizar Midjourney para crear arte con IA en 2023 (tutorial detallado)
Imagen destacada a través de Pro_Vector / Shutterstock.com