Forum: PC-Programmierung Data Mining in Audiodateien


von Datenschürfarbeiter (Gast)


Lesenswert?

Ich habe eine große Anzahl an WMA-Dateien mit Aufnahmen von meinem 
Sprachrekorder. Themen sind vielfältig, es geht quasi um alles Mögliche.

Wie könnte ich - ohne sie einzeln anzuhören - eine gewisse Ordnung 
hineinbringen?

Ich dachte an Spracherkennung. Das funktioniert auch ganz gut, 
allerdings natürlich ohne Punkt und Komma, da ich diese nicht 
mitgesprochen habe.

Ich habe also für jede Sprachdatei eine Textdatei mit dem ungefähren 
Inhalt der Aufnahme.

Was könnte ich jetzt mit diesen Daten tun, das Sinn ergibt?

von Lukas T. (tapy)


Lesenswert?

Script schreiben, dass übliche Füllwörter raus filtert und gut?

von Datenschürfarbeiter (Gast)


Lesenswert?

Kryptomane schrieb im Beitrag #3093682:
> Datenschürfarbeiter schrieb:
>> Ich habe also für jede Sprachdatei eine Textdatei mit dem ungefähren
>> Inhalt der Aufnahme.
>>
>> Was könnte ich jetzt mit diesen Daten tun, das Sinn ergibt?
>
> Du könntest die Textdateien ausdrucken und mit einem Scanner Bilddateien
> daraus erzeugen. Diese kannst du dann wieder mit einem OCR Programm in
> ASCII umwandeln.

?

von Mr. Zulu (Gast)


Lesenswert?

Datenschürfarbeiter schrieb:
> Ich habe also für jede Sprachdatei eine Textdatei mit dem ungefähren
>
> Inhalt der Aufnahme.

Wie hast Du die generiert?

von Datenschürfarbeiter (Gast)


Lesenswert?

Lukas T. schrieb:
> Script schreiben, dass übliche Füllwörter raus filtert und gut?

Und was dann damit anfangen?

von Datenschürfarbeiter (Gast)


Lesenswert?

Mr. Zulu schrieb:
> Datenschürfarbeiter schrieb:
>> Ich habe also für jede Sprachdatei eine Textdatei mit dem ungefähren
>>
>> Inhalt der Aufnahme.
>
> Wie hast Du die generiert?

Per Spracherkennungssoftware.

von Datenschürfarbeiter (Gast)


Lesenswert?

Und jetzt?

von Datenschürfarbeiter (Gast)


Lesenswert?

Na na, nicht alle auf einmal.

von Arc N. (arc)


Lesenswert?

Datenschürfarbeiter schrieb:
> Was könnte ich jetzt mit diesen Daten tun, das Sinn ergibt?

http://en.wikipedia.org/wiki/Automatic_summarization
http://en.wikipedia.org/wiki/Named_entity_recognition

Wenn man da was selber machen will: Für den Einstieg vielleicht 
https://class.coursera.org/nlp/lecture/preview (kann ich nur empfehlen, 
z.Z. gibt's allerdings nur die Vorschau)

von Tommy.S (Gast)


Lesenswert?

Datenschürfarbeiter schrieb:
> Lukas T. schrieb:
>> Script schreiben, dass übliche Füllwörter raus filtert und gut?
>
> Und was dann damit anfangen?

Wie schon weiter unten geschrieben: automatisch zusammenfassen... Oder 
auch für eine Stichwortsuche in einer DB ablegen, zusammen mit einem 
Link auf die jeweilige Datei. Oder die Audiodateien nach Inhalt zu 
Gruppen zusammenfassen, oder...

Lass es mich mal so sagen: Du hast gerade den ersten Schritt einer 
Vorverarbeitung gemacht. Von Data Mining, wie Du im Betreff geschrieben 
hast, ist das noch weit entfernt. Die Frage ist doch zuallererst: was 
willst Du mit den Daten machen (Ordnung hineinbringen ist ein sehr 
grosses Feld, es sollte schon etwas konkreter werden)? Willst Du nur 
nach Schlagworten getrennt ablegen/suchbar machen? Willst Du thematisch 
sortieren? Willst Du Erkenntnisse darüber gewinnen über welche Themen Du 
am liebsten philosophierst?

Wenn Du weisst, was Du mit den Daten anfangen willst, dann gibt es auch 
einen Weg dorthin (ob gut oder schlecht sei mal dahin gestellt) - aber 
hier im Forum wird Dir aber niemand sagen können, was Du mit Deinen 
Daten anfangen willst...

Grüsse,
Tommy.S

von Datenschürfarbeiter (Gast)


Lesenswert?

Tommy.S schrieb:

> Willst Du Erkenntnisse darüber gewinnen über welche Themen Du
> am liebsten philosophierst?
>
Klingt gut für den Anfang. Was könnte die Ausgabe eines solchen 
Programmes sein?

Ich würde gerne Zusammenhänge sehen. Etwa "In Audiodatei XY wurde über 
Thema Z gesprochen. Thema Z wird auch in Audiodatei KK erwähnt, wenn 
auch in anderem Zusammenhang und mit anderen Worten. Ist es möglich, XY 
mit KK zu verbinden, etwa zum Thema "NeuesThema"?".

Wie müßte ein Programm aussehen, das die obengenannte Aussage treffen 
kann?

Allgemein glaube ich, daß ich nicht wissen muß, was ich will sondern die 
Tatsache "Audiodatei -> Textdatei ohne Satzzeichen" bereits 
einschränkend genug für die Möglichkeiten ist und ich eher aus den 
Möglichkeiten auswählen sollte als Ideen zu entwicken um festzustellen, 
daß die Voraussetzungen dafür nicht vorhanden sind.

Die Textdateien sind - nachdem sie automatisch erkannt werden und die 
Spracherkennung gewissermaßen auch von Satzzeichen abhängt - 
entsprechend ungenau. Was man sicher sagen kann ist: Kommt ein Wort 
häufig vor, ist das vermutlich auch wichtig.

von Datenschürfarbeiter (Gast)


Lesenswert?

Oder auch: "Nach Durchsicht der Audiodateien X1 .. Xn schlage ich vor, 
sich näher mit Thema Z zu beschäftigen, da dieses zu kurz gekommen ist. 
Oder den Hoizont zu erweitern mit Thema Y"

Während Thema Y aus der Analyse von Trends innerhalb des Themenpools in 
X1 .. Xn entsteht.

Ich möchte einfach alle Dateien dem Programm geben und mehr über mich 
erfahren oder was ich damit machen könnte, gewissermaßen eine objektive 
Analyse.

In etwa so, wie ich dem Programm muvee Reveal Videodateien und eine 
Audiodatei gebe und es mir daraus teils sehr passend geschnittene Filme 
erstellt.

von Tommy S. (tommys)


Lesenswert?

Hi Datenschürfarbeiter,

der erste Schritt der Vorverarbeitung ist ja schonmal gut gelaufen - aus 
den Audiodateien wurden Worte extrahiert, die Satzzeichen braucht eh 
kein Mensch ;-)

Such' mal nach "Stopwortliste", das ist das ganze blah-blah in einem 
Text, den eh niemand interessiert (provokativ gesprochen). Die 
Stopwörter kannst Du gestrost rausschmeissen, die bringen sonst nur den 
Rest durcheinander. Was danach übrig bleibt ist Content. Hier geht jetzt 
die eigentliche Arbeit los. Wörter müssen gewichtet werden (idealerweise 
automatisch), Verbindungen zwischen Wörtern hergestellt werden (z.B. 
Synonyme, aber auch Wörter die sachlich zum gleichen Thema gehören, ...) 
- das ist ein Haufen Arbeit und nicht umsonst gibt es Unternehmen die 
mit der zugehörigen Software richtig Geld verdienen. Im Internet gibt es 
aber zahlreiche Gratis-Datenbanken, die Dir hier Unterstützung geben.

Am Schluss hast Du einen gewichteten Graphen, an den Du dann gezielt 
Fragen stellen kannst (Fragen stellen im technischen Sinne, also sprich 
Knoten in einem Graphen betrachten; "bitte bitte liebes Datengrab, 
verrate mir doch dies-und-das" wird nicht funktionieren). Da Du Dir zu 
jedem Wort gemerkt hast, aus welcher Audiodatei dieses stammt, hast Du 
also zu den Schlagworten ein paar Audio-Dateien, sowie (über die 
Kantengewichtung) mehr oder weniger dazugehörige andere Audio-Dateien.

Klingt alles recht simpel, kann auch recht simpel implementiert werden. 
Je mehr Gedanken man sich macht, je besser die Gewichtungen und 
Wort-Datenbanken sind und je mehr Wissen Du in Deine 
Verknüpfungsalgorithmen steckst, umso besser werden Deine Ergebnisse.

Grüsse,
Tommy.S

von Datenschürfarbeiter (Gast)


Lesenswert?

Tommy S. schrieb:
>
> Im Internet gibt es
> aber zahlreiche Gratis-Datenbanken, die Dir hier Unterstützung geben.
Beispiele? Die, welche ich kenne haben keine API für automatisierte 
Anfragen für deutsche Wörter.

> Am Schluss hast Du einen gewichteten Graphen, an den Du dann gezielt
> Fragen stellen kannst. Da Du Dir zu
> jedem Wort gemerkt hast, aus welcher Audiodatei dieses stammt, hast Du
> also zu den Schlagworten ein paar Audio-Dateien, sowie (über die
> Kantengewichtung) mehr oder weniger dazugehörige andere Audio-Dateien.
Wie berechne ich Trends iSv "Du hast dich mit X beschäftigt und mit Y, 
jetzt ist es naheliegend sich mit Z zu beschäftigen".

von adsf (Gast)


Lesenswert?

Datenschürfarbeiter schrieb:
> Per Spracherkennungssoftware.

Verrätst du was du verwendet hast? Habe ein (einfacheres) verwandtes 
Problem grade.

von Tommy S. (tommys)


Lesenswert?

Hi,

>> Im Internet gibt es
>> aber zahlreiche Gratis-Datenbanken, die Dir hier Unterstützung geben.
> Beispiele? Die, welche ich kenne haben keine API für automatisierte
> Anfragen für deutsche Wörter.

Mit Datenbanken meinte ich eher Download von "Rohdaten" für SQL-DBs. 
Diese müssen dann natürlich lokal installiert sein. Ein Startpunkt 
könnte z.B. http://www.openthesaurus.de/about/download sein.


>> Am Schluss hast Du einen gewichteten Graphen, an den Du dann gezielt
>> Fragen stellen kannst. Da Du Dir zu
>> jedem Wort gemerkt hast, aus welcher Audiodatei dieses stammt, hast Du
>> also zu den Schlagworten ein paar Audio-Dateien, sowie (über die
>> Kantengewichtung) mehr oder weniger dazugehörige andere Audio-Dateien.
> Wie berechne ich Trends iSv "Du hast dich mit X beschäftigt und mit Y,
> jetzt ist es naheliegend sich mit Z zu beschäftigen".

Du suchst Dir den Knoten mit X heraus. Dann den Knoten mit Y. Danach 
schaust Du, ob es weitere Knoten gibt, die über eine (möglichst hoch 
gewichtete) Kante sowohl mit X als auch mit Y verbunden sind. Das wäre 
zumindest mal ein erster, einfacher Ansatz. Wie in meinem letzten Post 
schon angemerkt: das Thema kann beliebig komplex werden - fraglich ist 
immer: welches Wissen steckt in den Daten und wie kann es extrahiert 
werden?

Grüsse,
Tommy.S

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.