Forum: PC Hard- und Software durchsuchbare Audiofiles: Spracherkennung


von Thomas (Gast)


Lesenswert?

Moin,
zum 01.10. übernehmen wir aufgrund eines Todesfalls eine langjährige 
Partnerfirma von uns.
Bei unserer heutigen Sichtung der Unterlagen stellte sich heraus, dass 
der Großteil der Aufzeichnungen als Tonaufnahmen (!) im mp3 Format 
vorliegt.
Insgesamt sind es fast 60GB Aufnahmen.
Gibt es eine Software welche diese mp3 Dateien mit Hilfe von 
Spracherkennung durchsuchbar macht? Am Ende möchte ich nach Stichworten 
(z.B. Firmennamen) suchen können.
Gruß Thomas

von Christoph db1uq K. (christoph_kessler)


Lesenswert?

Auweh!
Wie gut ist die Sprachqualität? Ich vermute, Spracherkennung ist noch 
schwieriger als Schrifterkennung gedruckter Texte.
Es gibt solche Spracherkennungssoftware, die ähnlich Alexa, Siri usw. 
versucht etwas zu verstehen, aber da dürfte es viele Fehler geben.
Diktiersoftware muss erst auf einen Sprecher trainiert werden, das ist 
hier nicht mehr möglich, wenn der verstorben ist.

von Schlaumaier (Gast)


Lesenswert?

Thomas schrieb:
> Großteil der Aufzeichnungen als Tonaufnahmen (!) im mp3 Format
> vorliegt.

Ich bin ja nicht wirklich neugierig. Aber welches Unternehmen hat die 
Unterlagen als AUDIO-File. ???

Das sind für mich höchstens  "Anhänge" zu Kundendaten wenn die Kunden 
der Aufzeichnung vorher zugestimmt haben.

Und solche Unterlagen muss ich nicht durchsuchen.

von Nano (Gast)


Lesenswert?

Thomas schrieb:
> Bei unserer heutigen Sichtung der Unterlagen stellte sich heraus, dass
> der Großteil der Aufzeichnungen als Tonaufnahmen (!) im mp3 Format
> vorliegt.

Ich habe mal Google Assistant gesagt, dass sie mir obigen Text, den ich 
ihr vorgelesen habe, nachsprechen soll um zu prüfen, ob man so die 
Spracherkennung von Google Assistant zur Spracherkennung und 
gleichzeitigen Umwandlung in Text nutzen kann.

Das hat sie auch gemacht und dabei auch gleich den Text angezeigt.
Allerdings machte sie daraus folgendes:
"Du hast gesagt: Bei unseren heutigen Sichtung der Unterlagen stelle 
sich heraus, dass der Großteil der auf zwei Astronauten am im Himmel 3 
Format vorliegt."

Es ist wohl besser, ihr stellt eine Sekräterin ein, die es gewohnt ist, 
Diktiertes niederzuschreiben.
Das ist dann auch weitgehend fehlerfrei.

Mit der Spracherkennung wird das nichts, zumal Google Assistant eine der 
besseren Spracherkennungen ist und wenn es nicht einmal die schafft...

von MaNi (Gast)


Lesenswert?

Gerade Namen  Firmennamen  technische oder fachspezifische 
Bezeichnungen wird vermutlich in die Hose gehen dabei.

von Christoph db1uq K. (christoph_kessler)


Lesenswert?

Zum Vergleich: Meine Sammlung von Musik-CDs habe ich vor Jahren 
"gegrabbt" und in ogg-vorbis codiert. Vielleicht 100 CDs zu 1 Stunde 
macht 100 Stunden oder vier Tage und Nächte. Das Ergebnis passte noch 
gut in das 8GB-Flash des mp3-Players. 60 GB wäre etwa das zehnfache also 
vierzig Tage und vierzig Nächte.

Die arme Sekretärin.

Lagen die Aufnahmen ursprünglich als Kassettenaufnahme vor und wurden 
irgendwann digitalisiert? Wie stark hat der Sprecher genuschelt?

: Bearbeitet durch User
von Uli (Gast)


Lesenswert?

Hallo Thomas,

sucht Euch einen Service, welcher Speech2Text anbietet. Beispiele sind 
https://www.amberscript.com/de/ oder auch https://www.speechlive.com/de/ 
besser noch https://www.speechmatics.com/ .
Diese sind nicht kostenlos, berechnen in der Regel nach Länge des Audios 
die Kosten. Die mp3-Datein kannst Du einfach hochladen und erhälst per 
E-Mail das Transcript.
Vg Uli

von LS (Gast)


Lesenswert?

Wenn dus ohne Cloud umwandelen willst dann kann ich dir das interne 
Spracherkennungsprogramm von Apple empfehlen.

Wenn du ein Iphone hast, dann geh offline, dann spielst du eine von den 
Dateien ab, gehst auf Notizen und dann unten aufs Mikrofon und schaust 
mal was erkannt wird.
Wenn der Dialekt spricht, dann hast du mit offline Lösungen vermutlich 
verloren, aber testen kosten nichts.

von LS (Gast)


Lesenswert?

Nano schrieb:
> Bei unserer heutigen Sichtung der Unterlagen stellte sich heraus, dass
>> der Großteil der Aufzeichnungen als Tonaufnahmen (!) im mp3 Format
>> vorliegt.

offline iphone: first take.

Bei unserer heutigen Sichtung der Unterlagen stellte sich RAUS DAS
>> der Großteil der Aufzeichnungen als Tonaufnahmen im mp3 Format
>> vorliegt.

Ich bin auch gottgleicher Sprecher ;-)

von Nano (Gast)


Lesenswert?

Christoph db1uq K. schrieb:

> Die arme Sekretärin.

Dann brauchst du halt mehrere, dann geht's schneller.

von Nano (Gast)


Lesenswert?

LS schrieb:
> Wenn dus ohne Cloud umwandelen willst dann kann ich dir das interne
> Spracherkennungsprogramm von Apple empfehlen.
>
> Wenn du ein Iphone hast, dann geh offline, dann spielst du eine von den
> Dateien ab, gehst auf Notizen und dann unten aufs Mikrofon und schaust
> mal was erkannt wird.
> Wenn der Dialekt spricht, dann hast du mit offline Lösungen vermutlich
> verloren, aber testen kosten nichts.

Eigentlich wäre es sinnvoller die bereits digitalisierten 
Sprachaufnahmen ohne Umweg über Lautsprecher und Mikro, wo wieder 
Verluste entstehen werden, mit der Spracherkennungssoftware zu nutzen. 
Das muss letztere dann halt können.
Aber wie schon gesagt, ich bezweifle, dass die ein zufriedenstellendes 
Ergebnis liefert.

Sie klingt aufgrund der Kosten für Sekretärinnen verlockend, aber am 
Ende müssen die Daten halt stimmen.
Wer den Preis drücken will, kann auch Studentinnen für 10€/h anstellen, 
die werden das bei brauchbarer Rechtschreibung auch hinkriegen.

von LS (Gast)


Lesenswert?

Nach kurzen nachdenken...
1 MB ist bei MP3 ca. 1 Min
1GB demnach 1000 Min

und 60 GB 60000 Min oder 1000 Stunden oder bei ner 40 Stunden Woche für 
Sekretärin ein halbes Jahr arbeit.

Gefühlt würde ich sagen alles in ein so ein Amplituden/Spektrumzeugs 
umwandeln und dann Audiosignatur der gesuchten Firmen aufspüren, kommt 
aber alles, wie immer auf das Budget an, das würde ich gefühlt sagen 
sollte die billigste Methode sein.

von Nano (Gast)


Lesenswert?

Thomas schrieb:
> Bei unserer heutigen Sichtung der Unterlagen stellte sich heraus, dass
> der Großteil der Aufzeichnungen als Tonaufnahmen (!) im mp3 Format
> vorliegt.
> Insgesamt sind es fast 60GB Aufnahmen.

Welche Bitrate wurde für die MP3 Dateien eigentlich verwendet?
Kann man abschätzen wieviele Stunden das sind?

von Rainer Z. (netzbeschmutzer)


Lesenswert?

Spracherkennungssoftware wird dort scheitern, wo es um Namen, Firmen und 
anderen seltenen/unbekannten Wörtern in den Audiodateien geht und ich 
denke, diese Namen und Firmen sind gerade das Wichtige in den 
Audiodateien.

Also doch eine Sekretärin/ein Sekretär.

Und bittschön, ihr könnt ja erstmal die Audiodateien anhören und 
Unwichtiges vorher aussortieren oder löschen. Das ist auch nicht mehr 
Aufwand als später alles nach dem Diktat zu lesen! Und spart euch Kosten 
fürs Tippen.

Also frohes Hören, 40 Tage und 40 Nächte. :)

von Matthias S. (Firma: matzetronics) (mschoeldgen)


Lesenswert?

Rainer Z. schrieb:
> Also doch eine Sekretärin/ein Sekretär.

So hat mein Papa das auch gemacht. Seine Röntgenbefunde hat er auf Band 
diktiert und die Sekretärin hats dann getippt.

von LS (Gast)


Lesenswert?

Matthias S. schrieb:
> Seine Röntgenbefunde hat er auf Band
> diktiert und die Sekretärin hats dann getippt.

Ich denke, dass hat sich der ehemalige Firmenchef auch so gedacht, aber 
er hatte keine Sekretärin ;-)

von Klaus P. (Gast)


Lesenswert?

Thomas schrieb:
> Gibt es eine Software welche diese mp3 Dateien mit Hilfe von
> Spracherkennung durchsuchbar macht?

Ja, z.B. Nuance Dragon Professional

von c-hater (Gast)


Lesenswert?

Thomas schrieb:

> zum 01.10. übernehmen wir aufgrund eines Todesfalls eine langjährige
> Partnerfirma von uns.
> Bei unserer heutigen Sichtung der Unterlagen stellte sich heraus, dass
> der Großteil der Aufzeichnungen als Tonaufnahmen (!) im mp3 Format
> vorliegt.
> Insgesamt sind es fast 60GB Aufnahmen.
> Gibt es eine Software welche diese mp3 Dateien mit Hilfe von
> Spracherkennung durchsuchbar macht? Am Ende möchte ich nach Stichworten
> (z.B. Firmennamen) suchen können.

Das kannste knicken. Suchen nach Eigennamen (egal, ob Firma oder Person) 
sind ziemlich regelmäßig zum scheitern verurteilt. Entweder unzählige 
false positives oder halt kaum bis keine Hits.

Das Problem ist hier, dass nichtmal KI helfen kann, die normalerweise 
nützliche Informationen zur Deutung aus dem Kontext entnehmen kann. Bei 
Eigennamen geht das halt das genau nicht.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.