Forum: Mikrocontroller und Digitale Elektronik Text to Speech


von rotc (Gast)


Lesenswert?

Hallo,

auch nach langer Suche in WEB habe ich eigentlich keinen Hinweis auf
bezahlbare und vor allen Dingen mit halbwegs natürlicher Sprache 
versehenen Text to Speech ICs gefunden die man an einen MC anschliessen 
kann.

Für eine Anwendung , bei der ich bisher vorgefertigte 
Sprachtextbausteine
verwendet habe, suche ich eine universellere Lösung.

Hier im Forum sind die Beiträge zu TTS auch schon paar Jährchen her.

Kann jemand hier vielleicht doch Hinweise auf neuere TTS ICs Generation 
geben
die ich eventuell übersehen habe ?

Danke.

von Pjotr F. (Gast)


Lesenswert?

So ein IC musst Du Dir schon selbst bauen. Am einfachsten mit 
irgendeinem µC der Wahl, auf dem Du eine der vielen frei verfügbaren 
TTS-Engines laufen lässt.

Kaldi ist in C++ geschrieben, OpenTTS in Python, Mary TTS in Java ...

von Schlaumaier (Gast)


Lesenswert?

https://www.sander-electronic.de/be00092.html

Vielleicht eine Möglichkeit ???

von rotc (Gast)


Lesenswert?

Danke für die diversen Hunweise.

Die bisher verfügbaren TTS-IC haben leider eine grausige 
Sprachequalität.

Mit TTS-Engines habe ich mich noch nicht befasst. Soweit ich das aber 
mal auf die Schnelle eruieren konnte braucht man da schon was gößeres an 
µCs.

Schade dass es da anscheinend noch nichts brauchbares fertiges gibt.

von Sigma (Gast)


Lesenswert?

Ich kenne keinen IC, aber Mimic3 läuft auf einem Raspberry Pi quasi in 
Echtzeit. 10 Sekunden Text kannst du in 10 Sekunden synthetisieren. Also 
die Rechenleistung reicht für einen ununterbrochenen Output.

https://github.com/mycroftAI/mimic3

von Stefan F. (Gast)


Lesenswert?

> Schade dass es da anscheinend noch nichts brauchbares fertiges gibt.

Klar gibt es das, aber nicht für 2,43€ bei Aliexpress.

Eine gut klingende universelle Sprachausgabe (Text-Vorleser) ist hoch 
kompliziert. Nicht umsonst gibt es dafür immer noch spezialisierte 
Firmen, wie Nuance.

https://www.nuance.com/de-de/omni-channel-customer-engagement/voice-and-ivr/text-to-speech.html

von DerEgon (Gast)


Lesenswert?

Als fertige ICs wird es so etwas auch nicht mehr geben -- einfach, weil 
niemand so etwas ernsthaft braucht. Wer Sprachausgabe haben will, lässt 
die auf dem eh' verwendeten µC in Software laufen.

Und dann nimmt man halt einen µC mit ausreichend Ressourcen, das kommt 
immer noch günstiger als ein exotisches Zusatz-IC.

von Schlaumaier (Gast)


Lesenswert?

DerEgon schrieb:
> Wer Sprachausgabe haben will, lässt
> die auf dem eh' verwendeten µC in Software laufen.

Theoretisch ist Sprachausgabe für 5 Euro 0 Problem.

Man nehme.

Ein DFplayer-Mini, eine SD-Karte + Lautsprecher. Nun benutzt man ein 
TEXT-to-Mp3-Service im Netz (gibts auch für lau). Gibt alle möglichen 
Texte dort ein, und lässt ihn via Player/SD-Karte abspielen auf Befehl.

Ansonsten muss man eine Phonetische Datenbank haben und die ist sehr 
Aufwendig und mit Sicherheit sehr teuer.

Spracherkennung für die Beere kostet ca. 80$ + VK und versteht real 200 
Worte ca.

von J. S. (jojos)


Lesenswert?

Mit einem ESP32-A1S geht das auch gut. M. Kleine hat da ein einfaches 
Projekt wo die Text per MQTT getriggert werden, geht aber auch beliebig 
anders. Die Sprachbausteine werden auch von einer SDC als MP3 
abgespielt.
https://github.com/klein0r/esp32-smarthome-center
Ein YT-Video hat er dazu auch gemacht.

von Lotta  . (mercedes)


Lesenswert?

Die meisten Geräte, gerade in der Medizin - Meßtechnik haben
auch keine richtig freie Sprachausgabe ab Board, sondern gespeicherte
Wörter, die dann entsprechend über ne DA Wandler "ausgespielt" werden.

Es gab ja mal Chips mit Phonemen, die waren dann aber english
und gräßlich.


mfg

: Bearbeitet durch User
von loeti2 (Gast)


Lesenswert?

Schlaumaier schrieb:
> Theoretisch ist Sprachausgabe für 5 Euro 0 Problem.

Ja klar wenn man nur vorgefertigte Sätze abspielen will :)

> Spracherkennung für die Beere kostet ca. 80$ + VK und versteht real 200
> Worte ca.

Hat mit Sprach_ausgabe_ jetzt nicht wirklich was zu tun.

von loeti2 (Gast)


Lesenswert?

Stefan ⛄ F. schrieb:
> Eine gut klingende universelle Sprachausgabe (Text-Vorleser) ist hoch
> kompliziert. Nicht umsonst gibt es dafür immer noch spezialisierte
> Firmen, wie Nuance.
>
> 
https://www.nuance.com/de-de/omni-channel-customer-engagement/voice-and-ivr/text-to-speech.html

Hab mal reingehört die englische Sprachausgabe ist ja grauenhaft.
Deutsch geht einigermaßen.

von Stefan F. (Gast)


Lesenswert?

loeti2 schrieb:
> Hab mal reingehört die englische Sprachausgabe ist ja grauenhaft.
> Deutsch geht einigermaßen.

Nuance ist auf europäische Sprachen spezialisiert. Für selbst definierte 
Wörter und Phrasen kann man die Aussprache konfigurativ optimieren.

Als ich noch bei Vodafone arbeitete, hatten wir für englisch und 
türkisch einen anderen Hersteller gewählt, der sich aber mit 
europäischen Sprachen schwer tat. Es gab keinen Hersteller, der alle 
damals gewünschten Sprachen gut beherrschte.

von Schlaumaier (Gast)


Lesenswert?

Stefan ⛄ F. schrieb:
> Es gab keinen Hersteller, der alle
> damals gewünschten Sprachen gut beherrschte.

Das ist klar.

Ist das selbe Problem wie bei Sprach-übersetzungen.

Die übersetzen doppelt. = Alles in englisch und dann von Englisch ins 
Ziel.

Das Problem bei Akustisch ist, das ein Deutscher ein Englischen Text 
anders hört als ein Ami. Und obwohl Amis englisch sprechen erkennen sie 
jeden Engländer an der Sprache.

Du musst also die Phonetischen Eigenheiten integrieren und das ist sehr 
sehr schwer.

Davon abgesehen man braucht keine fertigen Sätze. Mit ein bisschen 
Tricksen und ein leichten Verlust des fließenden Tons geht es auch mit 
einzelnen Wörtern. Ist halt alles eine Frage wie viel da an Text ist.

Eine Studie besagt das der normale Deutsche mit 1000-1500 Worten 98% 
seiner Gespräche bestreiten kann. Der Rest sind Fachgespräche.

von 2⁵ (Gast)


Lesenswert?

Stefan ⛄ F. schrieb:
> loeti2 schrieb:
>> Hab mal reingehört die englische Sprachausgabe ist ja grauenhaft.
>> Deutsch geht einigermaßen.
>
> Nuance ist auf europäische Sprachen spezialisiert. Für selbst definierte
> Wörter und Phrasen kann man die Aussprache konfigurativ optimieren.

Und Englisch ist keine europäische Sprache...

von Schlaumaier (Gast)


Lesenswert?

2⁵ schrieb:
> Und Englisch ist keine europäische Sprache...

löl.

Sag das mal den Engländern.  Die sind zwar nicht mehr in der EU, gehören 
aber Geografisch immer noch zu Europa. ;)

von Frank E. (Firma: Q3) (qualidat)


Lesenswert?


von Guido L. (guidol1970)


Lesenswert?

Sigma schrieb:
> aber Mimic3 läuft auf einem Raspberry Pi quasi in
> Echtzeit. 10 Sekunden Text kannst du in 10 Sekunden synthetisieren. Also
> die Rechenleistung reicht für einen ununterbrochenen Output.
> https://github.com/mycroftAI/mimic3

Normal unter Ubuntu/Linux (auch auf dem Raspberry Pi) sollte es espeak 
geben, mit dem man (wenn die Pakete vorhanden sind) die MBROLA-Voices 
nutzen kann.

https://wiki.ubuntuusers.de/eSpeak/
https://mycroft-ai.gitbook.io/docs/using-mycroft-ai/customizations/languages/german

Die deutsche Stimme ist da  eigentlich ganz gut - fuer umsonst :)

Ich hatte diese Config mal unter armbian auf einem Orange Pi Zero am 
laufen.
Das braucht kaum CPU-Leistung.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.