So erstellen Sie eine KI-Stimme im Jahr 2023 (Tutorial)

Veröffentlicht: 2023-09-08

Seit ChatGPT Ende 2022 auf den Markt kam, tauchen überall neue generative KI-Programme (künstliche Intelligenz) auf. Eine der einzigartigeren Arten künstlicher Intelligenz ist die KI-Sprache, die es Ihnen ermöglicht, Textansagen zu verwenden, um Sprachclips für Marketing, Mitarbeiterschulung und mehr zu erstellen. In diesem Beitrag zeigen wir Ihnen, wie Sie mit dem beliebten Programm PlayHT eine KI-Stimme erstellen. Lass uns eintauchen.

Inhaltsverzeichnis
  • 1 Was ist KI?
  • 2 Was ist KI-Sprachgenerierung?
    • 2.1 Wie funktionieren KI-Sprachgeneratoren?
  • 3 So erstellen Sie eine KI-Stimme
    • 3.1 Schritt 1: Erstellen eines Kontos
    • 3.2 Schritt 2: Erkundung der Benutzeroberfläche
    • 3.3 Schritt 3: Generieren Sie Ihre erste KI-Stimme
    • 3.4 Schritt 4: Voice Cloning
    • 3.5 Schritt 5: Exportieren eines Projekts
  • 4 Best Practices für KI-Sprachgeneratoren
  • 5 abschließende Gedanken zum Erstellen einer KI-Stimme

Was ist KI?

Was ist KI?

Bild erstellt mit Midjourney

Künstliche Intelligenz ist eine weitreichende Technologie, die es Computern ermöglicht, umfangreiche Aufgaben auszuführen, die normalerweise Menschen erledigen würden. Allerdings nehmen diese Aufgaben mit KI-Systemen nur einen Bruchteil der Zeit in Anspruch. Es gibt verschiedene Arten von KI, die häufigste ist die schmale KI. Diese Art von KI wird verwendet, um aus einer einfachen Textaufforderung Bilder, Sprache, Musik und Text zu erstellen.

Was ist KI-Sprachgenerierung?

KI-Sprachgenerator

Bild erstellt mit Midjourney | Photoshop-KI

KI-Stimmen sind computergenerierte Stimmen, die die Geräusche, Merkmale und Töne menschlicher Stimmen nachahmen. Sie beginnen entweder als Text oder durch die Aufnahme Ihrer eigenen Stimme, um eine einzigartige, menschlich klingende Stimme zu erzeugen. Dank der Leistungsfähigkeit der Text-to-Speech-Technologie von KI können Entwickler Stimmen für Podcasts und Voiceovers entwickeln oder als Hilfsmittel für Sehbehinderte dienen.

Wie funktionieren KI-Sprachgeneratoren?

wie Sprachgeneratoren funktionieren

Bild erstellt mit Leonardo | Photoshop-KI

Damit KI-Sprachgeneratoren funktionieren, sind ein Textpräprozessor, phonetische Transkription und Sprachsynthese erforderlich. Der erste Schritt, die Textvorverarbeitung, nimmt den Rohtext und sorgt dafür, dass alles ordentlich und organisiert wird. Es zerlegt Wörter in kleinere Teile, sogenannte Token, behebt seltsame Artefakte wie Kontraktionen oder Sonderzeichen und wandelt Zahlen in tatsächliche Wörter um.

Anschließend werden diese Token im zweiten Schritt analysiert und mit Tags wie Verben, Substantiven oder Adjektiven versehen. Dies hilft dem System zu verstehen, wie jedes Wort verwendet werden sollte und was es im Kontext bedeutet.

Hier geschieht nun die Magie. Der Text durchläuft eine phonetische Analyse, das heißt, er wird in eine besondere Art von Schrift umgewandelt, die erfasst, wie Wörter klingen sollen, wenn sie gesprochen werden. Dazu gehören Betonung, Tonfall und Rhythmus, damit die Sprache natürlich klingt.

Im letzten Schritt zahlt sich die harte Arbeit schließlich aus. Die phonetischen Transkriptionen werden mithilfe von Schallwellen in echte Sprache umgewandelt. Dank moderner KI-Algorithmen klingt die heute erzeugte Sprache viel natürlicher und menschlicher als die Text-to-Speech-Engines der Vergangenheit.

So erstellen Sie eine KI-Stimme

Play.HT AI-Stimme

Sprachgeneratoren haben seit der Veröffentlichung von Shoebox durch IBM im Jahr 1962 einen langen Weg zurückgelegt. Moderne Systeme wie PlayHT verfügen über eine Vielzahl synthetischer Stimmen mit unterschiedlichen Tönen, wodurch es möglich ist, möglichst realistische Stimmen zu erzeugen. Mit anderen Tools wie MurfAI können Sie Tonhöhe, Ton und Geschwindigkeit anpassen. In diesem Tutorial verwenden wir PlayHT, um eine KI-Stimme zu erstellen.

Schritt 1: Erstellen eines Kontos

Der erste Schritt in diesem Prozess besteht darin, ein kostenloses PlayHT-Konto zu erstellen. Navigieren Sie zunächst zur Startseite und klicken Sie dann oben rechts auf dem Bildschirm auf die Schaltfläche „Kostenlos testen“ .

Benutzerkonto erstellen

Sie können sich mit einem Google-Konto anmelden oder Ihren Namen und Ihre E-Mail-Adresse eingeben. Verwenden Sie die von Ihnen gewählte Methode und klicken Sie dann auf „Anmelden“ , um fortzufahren.

Melden Sie sich bei Play.HT an

Wählen Sie im nächsten Schritt aus, ob Sie PlayHT als Einzelperson oder im Unternehmensumfeld nutzen möchten.

Einrichtungsschritte

PlayHT wird Ihnen in den nächsten Bildschirmen Fragen dazu stellen, wie Sie die Software verwenden werden.

Richten Sie die PlayHT AI-Stimme ein

Sobald Sie Ihre Auswahl getroffen und Ihr Konto erstellt haben, können Sie mit der Erkundung der Benutzeroberfläche beginnen.

Schritt 2: Erkundung der Benutzeroberfläche

Machen wir uns mit der Benutzeroberfläche vertraut, bevor wir unsere erste Stimme generieren:

  1. Neue Datei erstellen: Hier erstellen Sie Ihr erstes Projekt.
  2. Zuletzt verwendete Dateien: Eine Liste Ihrer neuesten Projekte.
  3. Dateien: Hier befinden sich alle Ihre Dateien.
  4. Stimmenklonen: Sie können Audio einer Stimme hochladen und es dann zur Verwendung in der Software klonen.
  5. API-Zugriff: Zur Integration von PlayHT in andere Anwendungen
  6. Abrechnung: Verwalten Sie Ihr Konto.
  7. Sprachauswahl: Englisch ist derzeit die einzige Option, andere Sprachen sind jedoch in Arbeit.
  8. Wortanzahl: Hier können Sie sehen, wie viele verbleibende Wörter verfügbar sind.
  9. Alle Absätze generieren: Wird zum Generieren einer KI-Stimme verwendet.
  10. Video importieren: Fügen Sie Voiceovers zu einem hochgeladenen Video hinzu.
  11. Texteingabe: Texteingabe zur KI-Sprachgenerierung.
  12. Audiosteuerung: Passen Sie die Zeitleiste Ihrer Stimme an und ordnen Sie Clips neu an.
  13. Projekt exportieren: Speichern Sie Ihr Projekt absatzweise oder als eine WAV-Datei.

PlayHT-Schnittstelle

Schritt 3: Generieren Sie Ihre erste KI-Stimme

Das Generieren einer KI-Stimme mit PlayHT ist einfach. Sie können Ihr eigenes Skript erstellen oder einen KI-Chatbot zur Unterstützung nutzen. In diesem Tutorial verwenden wir ChatGPT, um den Text für unsere Stimme zu generieren. Klicken Sie zunächst auf die Schaltfläche „Neue Datei erstellen“ , um ein neues Projekt für unsere Stimme zu erstellen.

Neue Datei erstellen

Als Nächstes wählen wir eine synthetische Stimme für das Projekt aus. Klicken Sie dazu auf das Sprachsymbol direkt über der Textaufforderung.

Wählen Sie KI-Stimme

Es erscheint ein neues Popup-Fenster, in dem Sie eine von mehr als 130 KI-Stimmen ausprobieren können. Um einen auszuwählen, klicken Sie einfach darauf (1), wählen Sie die Wiedergabegeschwindigkeit (2), wählen Sie, ob die Stimme auf alle Absätze in Ihrem Projekt angewendet werden soll (3), und bestätigen Sie dann die Änderungen (4).

KI-Stimme wechseln

Wir werden uns für Hudson entscheiden, weil er am realistischsten klingt und eine gute Erzählstimme für unser Drehbuch hat.

Verwenden Sie ChatGPT, um ein Videoskript zu generieren

Nachdem wir nun unsere Stimme ausgewählt haben, müssen wir Text generieren. Wir bitten ChatGPT, ein kurzes Videoskript zu erstellen, das interessante Fakten über Hunde vermittelt. Wir haben die folgende Aufforderung verwendet: Stellen Sie ein kurzes Videoskript bereit, um 5 unbekannte Fakten über Hunde zu präsentieren .

ChatGPT-Videoskript

Sobald das Skript generiert ist, müssen wir Text für unser Projekt eingeben. Wir beginnen damit, das Intro unseres Skripts in PlayHT einzufügen: Hallo, Hundeliebhaber! Heute werden wir fünf faszinierende und weniger bekannte Fakten über den besten Freund des Menschen, Hunde, aufdecken! Schnappen Sie sich also einen Leckerbissen, lehnen Sie sich zurück und tauchen Sie ein!

erster Absatz der KI-Stimme

Um die Stimme zu erzeugen, klicken Sie auf das Wiedergabesymbol links neben der Textaufforderung.

Generieren Sie eine KI-Stimme

PlayHT generiert den Text mit Hudsons Stimme. Abhängig von der Menge des verwendeten Textes kann der Generierungsprozess einige Minuten dauern. Sobald Sie fertig sind, können Sie die Stimme in der Vorschau ansehen, indem Sie auf die Wiedergabeschaltfläche (1) rechts auf dem Bildschirm klicken. Wenn Sie mit dem Ergebnis nicht zufrieden sind, können Sie auf die Schaltfläche „Neu generieren“ (2) klicken, um es erneut zu versuchen.

Ausgabe regenerieren

So klingt der erste Absatz:

Das hört sich zwar ziemlich gut an, könnte aber ein wenig Anpassung gebrauchen. Die Pausen in der Stimme klingen nicht ganz richtig, deshalb werden wir ein paar Anpassungen vornehmen.

Regenerierende Ausgabe

Mit PlayHT können Sie Änderungen an der Texteingabe vornehmen und diese anschließend neu generieren. Dies ist hilfreich, wenn die Ausgabe nicht Ihren Standards entspricht. Ein guter Tipp ist es, zwischen den Sätzen Bindestriche einzufügen, um eine natürliche Pause zu schaffen. Bei KI-Sprachgeneratoren besteht die Tendenz, den Text zu überstürzen und unnatürliche Folgesätze zu erzeugen. Um dies zu korrigieren, ändern wir unsere ursprüngliche Aufforderung in: Hallo Hundeliebhaber! – Heute enthüllen wir fünf faszinierende und weniger bekannte Fakten über den besten Freund des Menschen – Hunde! – Schnappen Sie sich also ein Leckerli, lehnen Sie sich zurück und tauchen Sie ein!

Hier sind die Ergebnisse:

Schritt 4: Stimmenklonen

Eine weitere coole Funktion von PlayHT ist die Möglichkeit, eigene KI-Stimmen zu erstellen. Es funktioniert, indem Sie einen 30-Sekunden-Clip hochladen und ihn dann in eine verwendbare KI-Stimme für Ihre Projekte umwandeln. Klicken Sie zunächst auf die Registerkarte „Voice Cloning“ in der PlayHT-Benutzeroberfläche.

KI-Stimmenklonen

Klicken Sie anschließend auf die Schaltfläche „Neuen Klon erstellen“ .

Erstellen Sie einen neuen Klon

Da wir die kostenlose Lizenz verwenden, besteht unsere einzige Möglichkeit darin, die Sofortoption zu wählen, die aus einem 30-sekündigen Soundclip eine KI-Stimme erstellt.

sofortiges Klonen

Geben Sie als Nächstes Ihrer Stimme einen Namen (1), wählen Sie ein Geschlecht (2), laden Sie eine Audiodatei hoch (3), bestätigen Sie, dass Sie über die Nutzungsrechte für den Clip verfügen (4), und klicken Sie auf „Erstellen“ (5).

Einstellungen für das Klonen von KI-Stimmen

Sobald der Klon erstellt wurde, wird er unter der Schaltfläche „Neuen Klon erstellen“ (1) angezeigt. Von dort aus können Sie es verwenden (2), teilen (3) oder löschen (4).

mit KI-Sprachklon

Um zu sehen, wie es klingt, fügen Sie eine Textaufforderung hinzu, um eine Vorschau anzuzeigen. Ehrlich gesagt waren wir von den Ergebnissen ziemlich beeindruckt:

Schritt 5: Exportieren eines Projekts

Der letzte Schritt im Erstellungsprozess ist das Exportieren Ihrer Sounddateien. Sie können dies auf zwei Arten tun: Exportieren Sie jeweils einen Absatz oder alle Absätze in einer Datei. Für die meisten Ersteller ist es sinnvoll, Dateien separat zu exportieren. Auf diese Weise können Sie Zwischensequenzen und andere Effekte zwischen den einzelnen Szenen hinzufügen. Um Ihre Dateien zu exportieren, klicken Sie oben links auf dem Bildschirm auf die Schaltfläche „Exportieren“ .

AI-Stimme exportieren

Es erscheint ein Dropdown-Menü mit zwei Optionen: jeder Absatz einzeln und als einzelne Audiodatei .

Dateien exportieren

Alle Dateien werden als WAV-Audiodateien exportiert, die mit jeder Audiosoftware importiert werden können.

Best Practices für KI-Sprachgeneratoren

Es ist wichtig, beim Erstellen von Clips einige Best Practices zu verstehen, um das Beste aus KI-Sprachgeneratoren herauszuholen. Trennen Sie zunächst Sätze, indem Sie einen Bindestrich (-) hinzufügen. Dadurch weiß der Algorithmus, dass es eine Pause geben sollte, und eliminiert normalerweise Folgesätze. Ebenso können Kommas und Semikolons eine natürliche Pause zwischen Wörtern einfügen. Vermeiden Sie andererseits Bindestriche zwischen Wörtern in einem Satz. Beispielsweise würden Sie „landlocked“ anstelle von „land-locked“ verwenden.

Sie sollten auch Leerzeichen zwischen Akronymen einfügen, um der KI zu helfen, zu verstehen, dass es sich um einzelne gesprochene Buchstaben und nicht um Wörter handeln sollte. Anstatt beispielsweise AI zu verwenden, verwenden Sie AI . Sie können in Akronymen auch einen Punkt zwischen den Buchstaben einfügen. Um Wortwiederholungen zu vermeiden, formulieren Sie Ihren Text um und fügen Sie Satzzeichen wie Kommas, Semikolons oder Bindestriche ein. Eine andere Möglichkeit, Wiederholungen zu vermeiden, besteht darin, Sätze in kleinere Sätze zu unterteilen. Dies verhindert, dass die KI verwirrt wird, was in der Regel zu unerwünschten Ergebnissen führt.

Abschließende Gedanken zum Erstellen einer KI-Stimme

KI-Sprachgeneratoren verändern die Art und Weise, wie YouTuber Audio erstellen. Mit Software für künstliche Intelligenz wie PlayHT können Sie Stimmen für Podcasts, YouTube-Videos, Marketingvideos, Schulungsmaterialien und mehr erstellen. Mit der Weiterentwicklung der KI-Technologie birgt die Zukunft der Spracherzeugung ein enormes Potenzial und öffnet Türen zu immersiveren Erlebnissen.

Für diejenigen, die sich für andere KI-Anwendungen interessieren, bietet unser Blog zahlreiche Beiträge, die Ihnen dabei helfen, im Handumdrehen ein KI-Superstar zu werden.

  • Wie man im Jahr 2023 KI-Kunst macht (ausführliche Anleitung)
  • 31 Möglichkeiten, wie Sie KI heute nutzen können (Leitfaden 2023)
  • So verwenden Sie Photoshop AI Generative Fill im Jahr 2023 (ausführliches Tutorial)
  • So nutzen Sie Midjourney zum Erstellen von KI-Kunst im Jahr 2023 (ausführliches Tutorial)

Ausgewähltes Bild über Pro_Vector / Shutterstock.com