Hallo, auch nach langer Suche in WEB habe ich eigentlich keinen Hinweis auf bezahlbare und vor allen Dingen mit halbwegs natürlicher Sprache versehenen Text to Speech ICs gefunden die man an einen MC anschliessen kann. Für eine Anwendung , bei der ich bisher vorgefertigte Sprachtextbausteine verwendet habe, suche ich eine universellere Lösung. Hier im Forum sind die Beiträge zu TTS auch schon paar Jährchen her. Kann jemand hier vielleicht doch Hinweise auf neuere TTS ICs Generation geben die ich eventuell übersehen habe ? Danke.
So ein IC musst Du Dir schon selbst bauen. Am einfachsten mit irgendeinem µC der Wahl, auf dem Du eine der vielen frei verfügbaren TTS-Engines laufen lässt. Kaldi ist in C++ geschrieben, OpenTTS in Python, Mary TTS in Java ...
Danke für die diversen Hunweise. Die bisher verfügbaren TTS-IC haben leider eine grausige Sprachequalität. Mit TTS-Engines habe ich mich noch nicht befasst. Soweit ich das aber mal auf die Schnelle eruieren konnte braucht man da schon was gößeres an µCs. Schade dass es da anscheinend noch nichts brauchbares fertiges gibt.
Ich kenne keinen IC, aber Mimic3 läuft auf einem Raspberry Pi quasi in Echtzeit. 10 Sekunden Text kannst du in 10 Sekunden synthetisieren. Also die Rechenleistung reicht für einen ununterbrochenen Output. https://github.com/mycroftAI/mimic3
> Schade dass es da anscheinend noch nichts brauchbares fertiges gibt. Klar gibt es das, aber nicht für 2,43€ bei Aliexpress. Eine gut klingende universelle Sprachausgabe (Text-Vorleser) ist hoch kompliziert. Nicht umsonst gibt es dafür immer noch spezialisierte Firmen, wie Nuance. https://www.nuance.com/de-de/omni-channel-customer-engagement/voice-and-ivr/text-to-speech.html
Als fertige ICs wird es so etwas auch nicht mehr geben -- einfach, weil niemand so etwas ernsthaft braucht. Wer Sprachausgabe haben will, lässt die auf dem eh' verwendeten µC in Software laufen. Und dann nimmt man halt einen µC mit ausreichend Ressourcen, das kommt immer noch günstiger als ein exotisches Zusatz-IC.
DerEgon schrieb: > Wer Sprachausgabe haben will, lässt > die auf dem eh' verwendeten µC in Software laufen. Theoretisch ist Sprachausgabe für 5 Euro 0 Problem. Man nehme. Ein DFplayer-Mini, eine SD-Karte + Lautsprecher. Nun benutzt man ein TEXT-to-Mp3-Service im Netz (gibts auch für lau). Gibt alle möglichen Texte dort ein, und lässt ihn via Player/SD-Karte abspielen auf Befehl. Ansonsten muss man eine Phonetische Datenbank haben und die ist sehr Aufwendig und mit Sicherheit sehr teuer. Spracherkennung für die Beere kostet ca. 80$ + VK und versteht real 200 Worte ca.
Mit einem ESP32-A1S geht das auch gut. M. Kleine hat da ein einfaches Projekt wo die Text per MQTT getriggert werden, geht aber auch beliebig anders. Die Sprachbausteine werden auch von einer SDC als MP3 abgespielt. https://github.com/klein0r/esp32-smarthome-center Ein YT-Video hat er dazu auch gemacht.
Die meisten Geräte, gerade in der Medizin - Meßtechnik haben auch keine richtig freie Sprachausgabe ab Board, sondern gespeicherte Wörter, die dann entsprechend über ne DA Wandler "ausgespielt" werden. Es gab ja mal Chips mit Phonemen, die waren dann aber english und gräßlich. mfg
:
Bearbeitet durch User
Schlaumaier schrieb: > Theoretisch ist Sprachausgabe für 5 Euro 0 Problem. Ja klar wenn man nur vorgefertigte Sätze abspielen will :) > Spracherkennung für die Beere kostet ca. 80$ + VK und versteht real 200 > Worte ca. Hat mit Sprach_ausgabe_ jetzt nicht wirklich was zu tun.
Stefan ⛄ F. schrieb: > Eine gut klingende universelle Sprachausgabe (Text-Vorleser) ist hoch > kompliziert. Nicht umsonst gibt es dafür immer noch spezialisierte > Firmen, wie Nuance. > > https://www.nuance.com/de-de/omni-channel-customer-engagement/voice-and-ivr/text-to-speech.html Hab mal reingehört die englische Sprachausgabe ist ja grauenhaft. Deutsch geht einigermaßen.
loeti2 schrieb: > Hab mal reingehört die englische Sprachausgabe ist ja grauenhaft. > Deutsch geht einigermaßen. Nuance ist auf europäische Sprachen spezialisiert. Für selbst definierte Wörter und Phrasen kann man die Aussprache konfigurativ optimieren. Als ich noch bei Vodafone arbeitete, hatten wir für englisch und türkisch einen anderen Hersteller gewählt, der sich aber mit europäischen Sprachen schwer tat. Es gab keinen Hersteller, der alle damals gewünschten Sprachen gut beherrschte.
Stefan ⛄ F. schrieb: > Es gab keinen Hersteller, der alle > damals gewünschten Sprachen gut beherrschte. Das ist klar. Ist das selbe Problem wie bei Sprach-übersetzungen. Die übersetzen doppelt. = Alles in englisch und dann von Englisch ins Ziel. Das Problem bei Akustisch ist, das ein Deutscher ein Englischen Text anders hört als ein Ami. Und obwohl Amis englisch sprechen erkennen sie jeden Engländer an der Sprache. Du musst also die Phonetischen Eigenheiten integrieren und das ist sehr sehr schwer. Davon abgesehen man braucht keine fertigen Sätze. Mit ein bisschen Tricksen und ein leichten Verlust des fließenden Tons geht es auch mit einzelnen Wörtern. Ist halt alles eine Frage wie viel da an Text ist. Eine Studie besagt das der normale Deutsche mit 1000-1500 Worten 98% seiner Gespräche bestreiten kann. Der Rest sind Fachgespräche.
Stefan ⛄ F. schrieb: > loeti2 schrieb: >> Hab mal reingehört die englische Sprachausgabe ist ja grauenhaft. >> Deutsch geht einigermaßen. > > Nuance ist auf europäische Sprachen spezialisiert. Für selbst definierte > Wörter und Phrasen kann man die Aussprache konfigurativ optimieren. Und Englisch ist keine europäische Sprache...
2⁵ schrieb: > Und Englisch ist keine europäische Sprache... löl. Sag das mal den Engländern. Die sind zwar nicht mehr in der EU, gehören aber Geografisch immer noch zu Europa. ;)
Sigma schrieb: > aber Mimic3 läuft auf einem Raspberry Pi quasi in > Echtzeit. 10 Sekunden Text kannst du in 10 Sekunden synthetisieren. Also > die Rechenleistung reicht für einen ununterbrochenen Output. > https://github.com/mycroftAI/mimic3 Normal unter Ubuntu/Linux (auch auf dem Raspberry Pi) sollte es espeak geben, mit dem man (wenn die Pakete vorhanden sind) die MBROLA-Voices nutzen kann. https://wiki.ubuntuusers.de/eSpeak/ https://mycroft-ai.gitbook.io/docs/using-mycroft-ai/customizations/languages/german Die deutsche Stimme ist da eigentlich ganz gut - fuer umsonst :) Ich hatte diese Config mal unter armbian auf einem Orange Pi Zero am laufen. Das braucht kaum CPU-Leistung.
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.