Hallo, ich brauche eine einfache Spracherkennung: Es gibt z.B. 3 Wörter. Wenn dann 'Wort 2' gesagt wird, soll das Programm die richtige Zuweisung finden. Die drei Wörter liegen alternativ als Text vor oder auch als Audiodateien, von verschiedenen Menschen gesprochen, vor. Wie kann man diese Art der Spracherkennung am einfachsten und günstigsten bewerkstelligen? Ich habe von Unternehmen gelesen, die genau das anbieten, aber häufig soll man dann pro Wort ~5 Cent bezahlen und das finde ich ein bisschen teuer. Danke!
Naja, in der Regel macht man folgendes: 1. Man extrahiert Eigenschaften. Das kann ein "Terzsprektrum" sein, oder auch auch die Zahl der Nulldurchgänge pro Zeiteinheit vor und nach einem Tiefpassfilter. Das letztere reicht für sehr kleine Vokabulare. Heutzutage nimmt man die für kurze Zeitabstände auf, beispielsweise 10-50 mal pro Sekunde. 2. Dann vergleichst Du das entweder mit gespeicherten Mustern, oder verwendest einen Zustandsautomaten. Im letzteren Fall siehst Du die Sprache als Markoff-Quelle an. Bedenke, dass ist alles nicht trivial. Selbst die wirklich gut gemachten Systeme funktionieren nur so la la. Apple setzt ja für Siri Personal ein http://www.youtube.com/watch?v=7-SVvtxHJGU Es gab mal eine Zeit lang fertige Spracherkennungsmodule. Die waren aber relativ teuer.
Hi Stuart, es gibt ein paar Open Source Projekte die Du kostenlos nutzen kannst. Es läßt sich nicht pauschal eine Software empfehlen. Meld Dich mal bei mir via Email, dann kann ich Dir dazu etwas mehr erzählen, denn ich habe dazu ein paar Bücher (siehe http://www.voice-compass.com ) geschrieben. Gruß Detlev Artelt http://www.aixvox.com
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.