Erste Schritte mit Google Text-to-Speech mit Python (2024)

In diesem Artikel werden die Grundlagen der Übersetzung von Text in Sprache behandelt. Ich werde eine kurze Einführung in Text to Speech geben und dann erläutern, wie Sie mit der Installation des Google Text to Speech-Moduls (gTTS) beginnen können. Wir werden dann verstehen, wie das gTTS-Modul genau funktioniert, und auch ein einfaches Programm schreiben, um die Gesamtkonzepte besser zu verstehen. Wir werden auch weitere Ideen untersuchen, was mit diesem Modul noch getan werden könnte, und dann versuchen, die vielen realen Anwendungsfälle zu verstehen, die mit gTTS erreicht werden können.

Hauptanforderung: Eine aktive Internetverbindung mit mindestens mäßiger Bandbreite. Dies liegt daran, dass wir die Google-API für die Übersetzung von Text in Sprache verwenden.

Hinweis: Dies ist der erste Teil des Lernprogramms zur Sprachmodellierung. In dieser Tutorial-Reihe werden wir uns mit der Verwendung von Google Text für Sprache, der optischen Zeichenerkennung, Deep-Learning-Modellen wie Sequenz-zu-Sequenz-Modellen mit Aufmerksamkeit und anderen coolen Dingen befassen.

Beim Text-to-Speech (TTS) werden Wörter in eine vokale Audioform umgewandelt. Das Programm, Werkzeug oder die Software nimmt einen Eingabetext vom Benutzer entgegen und versteht unter Verwendung von Methoden der Verarbeitung natürlicher Sprache die Linguistik der verwendeten Sprache und führt logische Rückschlüsse auf den Text durch. Dieser verarbeitete Text wird an den nächsten Block übergeben, in dem die digitale Signalverarbeitung für den verarbeiteten Text durchgeführt wird. Mit vielen Algorithmen und Transformationen wird dieser verarbeitete Text schließlich in ein Sprachformat konvertiert. Dieser gesamte Prozess beinhaltet die Synthese von Sprache. Unten finden Sie ein einfaches Blockdiagramm, um dasselbe zu verstehen.

Dies scheint ein ziemlich komplizierter Prozess zu sein, aber dank Python und dem gTTS-Modul kann dieser Prozess auf wenige Codezeilen vereinfacht werden. Aus dem Blockdiagramm können wir ersehen, dass der übergebene Text zunächst mit Hilfe der Verarbeitung natürlicher Sprache vorverarbeitet und dann mithilfe der digitalen Signalverarbeitung in Sprache umgewandelt wird.

Lassen Sie uns ohne weiteres unsere Hände mit etwas Code schmutzig machen.

Wir werden für den Rest des Tutorials mit Python arbeiten. Wenn Sie Python noch nicht installiert haben, tun Sie dies bitte hier .

Die Installation des gTTS-Moduls ist einfach und kann mit dem folgenden Befehl im Eingabeaufforderungsterminal durchgeführt werden:

Nach Abschluss der Installation können wir ein sehr einfaches Programm schreiben, um zu verstehen, wie genau wir dieses Modul verwenden können, um unseren eingegebenen Text in eine sprachkonvertierte Ausgabe umzuwandeln. Öffnen Sie die Python-Datei, geben Sie einen Namen Ihrer Wahl ein und stellen Sie sicher, dass sie mit dem .py-Format endet. Schauen wir uns das Programm an -

gTTS (Google Text-to-Speech) ist eine Python-Bibliothek und ein CLI-Tool zur Schnittstelle mit der Text-to-Speech-API von Google Translate. Wir werden die gTTS-Bibliothek aus dem gtts-Modul importieren, das für die Sprachübersetzung verwendet werden kann.

Die Textvariable ist eine Zeichenfolge, in der die Benutzereingaben gespeichert werden. Der Text kann durch alles in den Anführungszeichen Ihrer Wahl ersetzt werden. Eine andere Alternative kann darin bestehen, die Eingabeanweisung für den Benutzer zu verwenden, um bei jeder Programmausführung die gewünschte Eingabe einzugeben. Dies kann wie folgt erfolgen:

Die Variable tts wird verwendet, um die Text-zu-Sprache-Übersetzung von Google für die Benutzereingabe durchzuführen. Die Ausgabe des konvertierten Textes wird in Form von Sprache in der Variablen tts gespeichert.

Mit der Funktion tts.save können wir die konvertierte Sprache in einem Format speichern, in dem wir Sounds abspielen können. Ich habe es in einer Datei namens hi und in einem Format namens .mp3 gespeichert. Andere Formate wie das WAV-Format können ebenfalls verwendet werden.

Wir haben das Speichern unserer Datei erfolgreich abgeschlossen. Jetzt gibt es drei Möglichkeiten, diese Datei auszuführen. Ich werde alle drei Möglichkeiten durchgehen, um diese Aufgabe zu erledigen -

Direktes Ausführen der gespeicherten Datei aus dem Ordner: Sie finden die gespeicherte Datei an demselben Speicherort, an dem Sie Ihr Python-Programm ausgeführt haben, und können dort darauf zugreifen.
Verwenden des OS-Moduls: Wir können das Betriebssystem-Modul von Python verwenden, um die Datei direkt vom Programm aus auszuführen. Der Befehl dazu lautet wie folgt.

Das gTTS-Modul kann auch in anderen Sprachen wie Französisch, Deutsch, Hindi usw. verwendet werden. Dies ist äußerst nützlich, wenn eine Kommunikationsbarriere besteht und der Benutzer seine Nachrichten nicht an Personen weitergeben kann. Text-to-Speech ist eine große Hilfe für sehbehinderte Menschen oder Menschen mit anderen Behinderungen, da es ihnen helfen kann, indem es bei der Übersetzung von Text in Sprache hilft. Mit dem gTTS-Modul sind auch viele Ideen möglich, und es kann auch für andere Sprachen verwendet werden.

Es gibt Potenzial für viele großartige Projekte mit dem gleichen. Ich werde die Zuschauer ermutigen, mehr mit diesem Modul zu experimentieren. Die Zuschauer können sich hier auf ein cooles Projekt beziehen , das ich zuvor gemacht habe. In dieser Reihe werden wir sehen, wie wir eine Übersetzung mithilfe von Deep Learning implementieren können und wie das gTTS-Modul dabei eine Rolle spielt.

Ich hoffe euch allen hat diese Lektüre gefallen und wünsche euch allen einen wunderschönen Tag!