Forum: PC-Programmierung Open Source Spracherkennungsbibliothek

von Manuel Volk (Gast)

04.09.2013 22:02

Lesenswert?

•

Hallo,

ein Frage an euch die ich durch Suche im Netz nicht wirklich beantworten 
konnte. Gibt es eine Spracherkennungsbibliothek die für Spracherkennung 
ungefähr das Darstellt, was OpenCV für Bildverarbeitung ist?
Also Analyse der eingehenden Audiosignale, zur Verfügung stellen von 
Schnittstellen damit man mit den Eingaben arbeiten kann und Ausgabe von 
Sprache.

Gruß Manuel

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Open Source Spracherkennungsbibliothek

von Rufus Τ. F. (rufus)

04.09.2013 22:33

Lesenswert?

•

▲
▼

Nun, wenn Du nach "open source speech recognition" suchst, solltest Du 
schon einiges finden können:

http://cmusphinx.sourceforge.net/
http://www.isip.piconepress.com/projects/speech/index.html
http://julius.sourceforge.jp/en_index.php

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Open Source Spracherkennungsbibliothek

von huiii (Gast)

05.09.2013 08:53

Lesenswert?

•

▲
▼

das etwas schwierige dabei ist eher, das OpenCL ein Ausgabeinterface 
darstellt und Sracherkennung ein Eingangsinterface dartsellt. 
Spracherkennung ohne gleichzeitige Gramatikmaschine und Heuristik, die 
auf die Sprache angepasst ist, ist Spielerei.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Open Source Spracherkennungsbibliothek

von Kail (Gast)

05.09.2013 10:37

Lesenswert?

•

▲
▼

huiii schrieb:
> das OpenCL ein Ausgabeinterface
> darstellt

Kann es sein, dass du da was verwechselst? Open CL ist für parallel 
computing gedacht.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Open Source Spracherkennungsbibliothek

von Andreas S. (andreas) (Admin)

05.09.2013 15:46

Lesenswert?

•

▲
▼

Für Spracherkennung gibt es:
- Pocketsphinx: in C geschrieben, der Code sieht aber recht "gewachsen" 
aus und ist nicht sehr gut dokumentiert. Die verfügbaren akustischen 
Modelle für Englisch funktionieren gut, zumindest solange man eine 
eingeschränkte Grammatik verwendet (JSGF). Wenn man schnell einen 
Echtzeit-Erkenner auf die Beine stellen will, dann ist Pocketsphinx 
erste Wahl. Wenn man neue DInge ausprobieren möchte, eher nicht.
- HTK: komisch lizenziert, traditionell oft in der Forschung verwendet, 
aber heutzutage eher als veraltet zu  betrachten.
- Kaldi: jung, in C++ geschrieben, sehr modular. Wird häufig in 
aktueller Forschung verwendet. Ist vermutlich am ehesten mit OpenCV 
vergleichbar, aber definitiv nicht so erwachsen, und vermutlich nicht so 
ohne weiteres echtzeitfähig.

Schnittstellen für Audio Ein-/Ausgabe sind wieder eine andere Baustelle, 
dafür gibt es andere Bibliotheken (libsndfile, portaudio).

Allgemein ist Spracherkennung ein komplexes Thema für das man sicherlich 
mehr Hintergrundwissen und Einarbeitungszeit braucht als für erste 
Experimente mit Bildverarbeitung.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Thread beobachten |

Seitenaufteilung abschalten

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.

Bestehender Account

Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen

Noch kein Account? Hier anmelden.

Kontakt/Impressum – Datenschutzerklärung – Nutzungsbedingungen – Werbung auf Mikrocontroller.net