Forum: PC-Programmierung Open Source Spracherkennungsbibliothek


von Manuel Volk (Gast)


Lesenswert?

Hallo,

ein Frage an euch die ich durch Suche im Netz nicht wirklich beantworten 
konnte. Gibt es eine Spracherkennungsbibliothek die für Spracherkennung 
ungefähr das Darstellt, was OpenCV für Bildverarbeitung ist?
Also Analyse der eingehenden Audiosignale, zur Verfügung stellen von 
Schnittstellen damit man mit den Eingaben arbeiten kann und Ausgabe von 
Sprache.

Gruß Manuel

von Rufus Τ. F. (rufus) Benutzerseite


Lesenswert?

Nun, wenn Du nach "open source speech recognition" suchst, solltest Du 
schon einiges finden können:

http://cmusphinx.sourceforge.net/
http://www.isip.piconepress.com/projects/speech/index.html
http://julius.sourceforge.jp/en_index.php

von huiii (Gast)


Lesenswert?

das etwas schwierige dabei ist eher, das OpenCL ein Ausgabeinterface 
darstellt und Sracherkennung ein Eingangsinterface dartsellt. 
Spracherkennung ohne gleichzeitige Gramatikmaschine und Heuristik, die 
auf die Sprache angepasst ist, ist Spielerei.

von Kail (Gast)


Lesenswert?

huiii schrieb:
> das OpenCL ein Ausgabeinterface
> darstellt

Kann es sein, dass du da was verwechselst? Open CL ist für parallel 
computing gedacht.

von Andreas S. (andreas) (Admin) Benutzerseite


Lesenswert?

Für Spracherkennung gibt es:
- Pocketsphinx: in C geschrieben, der Code sieht aber recht "gewachsen" 
aus und ist nicht sehr gut dokumentiert. Die verfügbaren akustischen 
Modelle für Englisch funktionieren gut, zumindest solange man eine 
eingeschränkte Grammatik verwendet (JSGF). Wenn man schnell einen 
Echtzeit-Erkenner auf die Beine stellen will, dann ist Pocketsphinx 
erste Wahl. Wenn man neue DInge ausprobieren möchte, eher nicht.
- HTK: komisch lizenziert, traditionell oft in der Forschung verwendet, 
aber heutzutage eher als veraltet zu  betrachten.
- Kaldi: jung, in C++ geschrieben, sehr modular. Wird häufig in 
aktueller Forschung verwendet. Ist vermutlich am ehesten mit OpenCV 
vergleichbar, aber definitiv nicht so erwachsen, und vermutlich nicht so 
ohne weiteres echtzeitfähig.

Schnittstellen für Audio Ein-/Ausgabe sind wieder eine andere Baustelle, 
dafür gibt es andere Bibliotheken (libsndfile, portaudio).

Allgemein ist Spracherkennung ein komplexes Thema für das man sicherlich 
mehr Hintergrundwissen und Einarbeitungszeit braucht als für erste 
Experimente mit Bildverarbeitung.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.