Como fazer uma voz AI em 2023 (Tutorial)

Publicados: 2023-09-08

Desde que o ChatGPT entrou em cena no final de 2022, novos programas generativos de IA (inteligência artificial) têm surgido em todos os lugares. Um dos tipos mais exclusivos de inteligência artificial é a voz AI, que permite usar prompts de texto para criar clipes de voz para marketing, treinamento de funcionários e muito mais. Neste post, mostraremos como fazer uma voz de IA usando um programa popular, PlayHT. Vamos mergulhar.

Índice
  • 1 O que é IA?
  • 2 O que é geração de voz com IA?
    • 2.1 Como funcionam os geradores de voz de IA?
  • 3 Como fazer uma voz de IA
    • 3.1 Etapa 1: Criando uma conta
    • 3.2 Etapa 2: Explorando a Interface
    • 3.3 Etapa 3: Gerando sua primeira voz de IA
    • 3.4 Etapa 4: Clonagem de Voz
    • 3.5 Etapa 5: Exportando um Projeto
  • 4 melhores práticas para geradores de voz de IA
  • 5 considerações finais sobre a criação de uma voz de IA

O que é IA?

o que é IA

imagem criada com Midjourney

A inteligência artificial é uma tecnologia expansiva que permite aos computadores realizar tarefas extensas que os humanos normalmente fariam. No entanto, essas tarefas demoram uma fração do tempo com sistemas de IA. Existem vários tipos de IA, sendo a mais comum a IA estreita. Este tipo de IA é usado para criar imagens, voz, música e texto a partir de um simples prompt de texto.

O que é geração de voz com IA?

Gerador de voz de IA

imagem criada com Midjourney | IA do Photoshop

Vozes de IA são vozes geradas por computador que imitam sons, características e tons de vozes humanas. Eles começam como texto ou gravando sua própria voz para criar uma voz humana única. Através do poder da tecnologia de conversão de texto em fala da IA, os criadores podem desenvolver vozes para podcasts, narrações ou servir como ferramentas de assistência para deficientes visuais.

Como funcionam os geradores de voz AI?

como funcionam os geradores de voz

imagem criada com Leonardo | IA do Photoshop

Os geradores de voz de IA requerem um pré-processador de texto, transcrição fonética e síntese de voz para funcionar. A primeira etapa, o pré-processamento do texto, pega o texto bruto e deixa tudo limpo e organizado. Ele divide as palavras em partes menores chamadas tokens, corrige artefatos estranhos, como contrações ou caracteres especiais, e transforma números em palavras reais.

Então, na segunda etapa, esses tokens são analisados ​​e recebem tags como verbos, substantivos ou adjetivos. Isso ajuda o sistema a entender como cada palavra deve ser usada e o que significa no contexto.

Agora, é aqui que a mágica acontece. O texto passa por análise fonética, o que significa que é convertido em um tipo especial de escrita que capta como as palavras devem soar quando faladas. Isso inclui ênfase, tom e ritmo para fazer a fala parecer natural.

Finalmente, na última etapa, todo esse trabalho duro compensa. As transcrições fonéticas são transformadas em fala real por meio de ondas sonoras. Graças aos modernos algoritmos de IA, a fala gerada hoje em dia parece muito mais natural e humana do que os mecanismos de conversão de texto em fala do passado.

Como fazer uma voz de IA

Voz Play.HT AI

Os geradores de voz percorreram um longo caminho desde que a IBM lançou o Shoebox em 1962. Sistemas modernos, como o PlayHT, possuem uma variedade de vozes sintéticas com tons variados, tornando possível criar as vozes mais realistas. Outras ferramentas, como MurfAI, permitirão ajustar o tom, o tom e a velocidade. Neste tutorial, usaremos PlayHT para criar uma voz AI.

Etapa 1: Criando uma conta

A primeira etapa do processo é criar uma conta PlayHT gratuita. Comece navegando até a página inicial e clique no botão experimentar gratuitamente no canto superior direito da tela.

criar uma conta

Você pode se inscrever usando uma conta do Google ou inserir seu nome e e-mail. Use o método escolhido e clique em inscrever-se para continuar.

inscreva-se no Play.HT

Na próxima etapa, escolha se você planeja usar o PlayHT individualmente ou em um ambiente empresarial.

etapas de configuração

PlayHT fará perguntas sobre como você usará o software nas próximas telas.

configurar voz PlayHT AI

Depois que suas seleções forem feitas e sua conta criada, você poderá começar a explorar a interface.

Etapa 2: explorando a interface

Vamos nos familiarizar com a interface antes de gerarmos nossa primeira voz:

  1. Criar novo arquivo: é aqui que você criará seu primeiro projeto.
  2. Arquivos recentes: uma lista dos seus projetos mais recentes.
  3. Arquivos: onde todos os seus arquivos estão localizados.
  4. Clonagem de voz: você pode fazer upload do áudio de uma voz e cloná-la para uso no software.
  5. Acesso API: Para integração do PlayHT em outros aplicativos
  6. Faturamento: gerencie sua conta.
  7. Seletor de idioma: o inglês é a única opção no momento, mas outros idiomas estão em desenvolvimento.
  8. Contagem de palavras: permite ver quantas palavras restantes estão disponíveis.
  9. Gerar todos os parágrafos: Usado para gerar uma voz de IA.
  10. Importar vídeo: adicione narrações a um vídeo enviado.
  11. Prompt de texto: entrada de texto para geração de voz AI.
  12. Controles de áudio: ajuste a linha do tempo da sua voz e reorganize os clipes.
  13. Exportar projeto: Salve seu projeto por parágrafo ou como um arquivo wav.

Interface PlayHT

Etapa 3: Gerando sua primeira voz de IA

Gerar uma voz de IA com PlayHT é simples. Você pode criar seu próprio script ou usar um chatbot de IA para ajudá-lo. Neste tutorial, usaremos ChatGPT para gerar o texto para nossa voz. Comece clicando no botão criar novo arquivo para criar um novo projeto para nossa voz.

criar novo arquivo

A seguir, escolheremos uma voz sintética para o projeto. Para fazer isso, clique no ícone de voz diretamente acima do prompt de texto.

selecione voz AI

Uma nova janela pop-up aparecerá, permitindo que você experimente uma das mais de 130 vozes de IA. Para escolher um, basta clicar nele (1), selecionar a velocidade de reprodução (2), optar por aplicar a voz a todos os parágrafos do seu projeto (3) e depois confirmar as alterações (4).

mudar a voz da IA

Escolheremos Hudson porque ele soa mais realista e tem uma boa voz narrativa para nosso roteiro.

Use ChatGPT para gerar um script de vídeo

Agora que selecionamos nossa voz, precisaremos gerar algum texto. Pediremos ao ChatGPT que crie um pequeno roteiro de vídeo com fatos interessantes sobre cães. Usamos o seguinte prompt: Forneça um breve roteiro de vídeo para mostrar 5 fatos desconhecidos sobre cães .

Roteiro de vídeo ChatGPT

Assim que o script for gerado, precisaremos inserir algum texto para nosso projeto. Começaremos colando a introdução do nosso script no PlayHT: Olá, amantes de cães! Hoje, descobriremos cinco fatos fascinantes e menos conhecidos sobre o melhor amigo do homem, os cães! Então, pegue uma guloseima, sente-se e vamos mergulhar!

primeiro parágrafo de voz AI

Para gerar a voz, clique no ícone de reprodução à esquerda do prompt de texto.

gerar voz de IA

PlayHT irá gerar o texto usando a voz de Hudson. Dependendo da quantidade de texto usada, o processo de geração pode levar alguns minutos. Depois de concluído, você poderá visualizar a voz clicando no botão play (1) à direita da tela. Se não estiver satisfeito com o resultado, você pode clicar no botão regenerar (2) para tentar novamente.

regenerar saída

Veja como soa o primeiro parágrafo:

Embora isso pareça muito bom, precisa de alguns ajustes. As quebras na voz não parecem muito boas, então faremos alguns ajustes.

Regenerando saída

PlayHT permite que você faça alterações na entrada de texto e depois gere-o novamente. Isso é útil quando a saída não está de acordo com seus padrões. Uma boa dica é adicionar travessões entre as frases para criar uma pausa natural. Com geradores de voz de IA, há uma tendência de apressar o texto, criando frases contínuas não naturais. Então, para corrigir isso, mudaremos nosso prompt original para: Olá, amantes de cães! – Hoje vamos descobrir cinco fatos fascinantes e menos conhecidos sobre o melhor amigo do homem – os cães! – Então, pegue uma guloseima, sente-se e vamos mergulhar!

Aqui estão os resultados:

Etapa 4: clonagem de voz

Outro recurso interessante do PlayHT é a capacidade de criar suas próprias vozes de IA. Funciona enviando um clipe de 30 segundos e transformando-o em uma voz de IA utilizável para seus projetos. Para começar, clique na guia clonagem de voz na interface do PlayHT.

Clonagem de voz com IA

Em seguida, clique no botão criar um novo clone .

criar novo clone

Como estamos usando a licença gratuita, nossa única opção é escolher a opção instantânea , que cria uma voz AI a partir de um clipe de som de 30 segundos.

clonagem instantânea

Em seguida, dê um nome à sua voz (1), escolha um gênero (2), carregue um arquivo de áudio (3), confirme que você tem os direitos de uso do clipe (4) e clique em criar (5).

Configurações de clone de voz AI

Assim que o clone for criado, ele aparecerá abaixo do botão criar um novo clone (1). A partir daí, você pode usá-lo (2), compartilhá-lo (3) ou excluí-lo (4).

usando clone de voz AI

Para ver como soa, adicione um prompt de texto para visualizá-lo. Para ser honesto, ficamos bastante impressionados com os resultados:

Passo 5: Exportando um Projeto

A última etapa do processo de criação é exportar seus arquivos de som. Você pode fazer isso de duas maneiras: exportando um parágrafo por vez ou todos os parágrafos em um arquivo. Para a maioria dos criadores, faz sentido exportar os arquivos separadamente. Dessa forma, você pode adicionar cutscenes e outros efeitos entre cada uma. Para exportar seus arquivos, clique no botão exportar no canto superior esquerdo da tela.

exportar voz de IA

Um menu suspenso aparecerá com duas opções: cada parágrafo separadamente e como um único arquivo de áudio .

exportar arquivos

Todos os arquivos são exportados como arquivos de áudio wav, que podem ser importados usando qualquer software de áudio.

Melhores práticas para geradores de voz de IA

É importante compreender algumas práticas recomendadas ao criar clipes para aproveitar ao máximo os geradores de voz de IA. Primeiro, separe as frases adicionando um travessão (-). Isso permite que o algoritmo saiba que deve haver uma pausa e normalmente eliminará sentenças contínuas. Da mesma forma, vírgulas e ponto e vírgula podem adicionar uma pausa natural entre as palavras. Por outro lado, evite hífens entre palavras em uma frase. Por exemplo, você usaria landlocked em vez de land-locked .

Você também deve adicionar espaços entre os acrônimos para ajudar a IA a entender que deve haver letras faladas individuais em vez de palavras. Por exemplo, em vez de usar AI , use AI . Você também pode adicionar um ponto final entre as letras nas siglas. Para evitar a repetição de palavras, reformule o texto para incluir pontuação, como vírgulas, ponto e vírgula ou hífens. Outra forma de remediar a repetição é dividir as frases em frases menores. Isso evita que a IA fique confusa, o que geralmente termina com resultados indesejáveis.

Considerações finais sobre a criação de uma voz de IA

Os geradores de voz de IA estão mudando a forma como os criadores produzem áudio. Por meio de software de inteligência artificial como o PlayHT, você pode criar vozes para podcasts, vídeos do YouTube, vídeos de marketing, materiais de treinamento e muito mais. À medida que a tecnologia de IA avança, o futuro da geração de voz apresenta um enorme potencial, abrindo portas para experiências mais envolventes.

Para aqueles interessados ​​em explorar outras aplicações de IA, nosso blog tem muitas postagens para ajudá-lo a se tornar uma estrela da IA ​​rapidamente.

  • Como fazer arte de IA em 2023 (tutorial detalhado)
  • 31 maneiras de usar IA hoje (guia 2023)
  • Como usar o preenchimento generativo do Photoshop AI em 2023 (tutorial detalhado)
  • Como usar o meio da jornada para criar arte de IA em 2023 (tutorial detalhado)

Imagem em destaque via Pro_Vector / Shutterstock.com