Ich habe eine große Anzahl an WMA-Dateien mit Aufnahmen von meinem Sprachrekorder. Themen sind vielfältig, es geht quasi um alles Mögliche. Wie könnte ich - ohne sie einzeln anzuhören - eine gewisse Ordnung hineinbringen? Ich dachte an Spracherkennung. Das funktioniert auch ganz gut, allerdings natürlich ohne Punkt und Komma, da ich diese nicht mitgesprochen habe. Ich habe also für jede Sprachdatei eine Textdatei mit dem ungefähren Inhalt der Aufnahme. Was könnte ich jetzt mit diesen Daten tun, das Sinn ergibt?
Kryptomane schrieb im Beitrag #3093682: > Datenschürfarbeiter schrieb: >> Ich habe also für jede Sprachdatei eine Textdatei mit dem ungefähren >> Inhalt der Aufnahme. >> >> Was könnte ich jetzt mit diesen Daten tun, das Sinn ergibt? > > Du könntest die Textdateien ausdrucken und mit einem Scanner Bilddateien > daraus erzeugen. Diese kannst du dann wieder mit einem OCR Programm in > ASCII umwandeln. ?
Datenschürfarbeiter schrieb: > Ich habe also für jede Sprachdatei eine Textdatei mit dem ungefähren > > Inhalt der Aufnahme. Wie hast Du die generiert?
Lukas T. schrieb: > Script schreiben, dass übliche Füllwörter raus filtert und gut? Und was dann damit anfangen?
Mr. Zulu schrieb: > Datenschürfarbeiter schrieb: >> Ich habe also für jede Sprachdatei eine Textdatei mit dem ungefähren >> >> Inhalt der Aufnahme. > > Wie hast Du die generiert? Per Spracherkennungssoftware.
Datenschürfarbeiter schrieb: > Was könnte ich jetzt mit diesen Daten tun, das Sinn ergibt? http://en.wikipedia.org/wiki/Automatic_summarization http://en.wikipedia.org/wiki/Named_entity_recognition Wenn man da was selber machen will: Für den Einstieg vielleicht https://class.coursera.org/nlp/lecture/preview (kann ich nur empfehlen, z.Z. gibt's allerdings nur die Vorschau)
Datenschürfarbeiter schrieb: > Lukas T. schrieb: >> Script schreiben, dass übliche Füllwörter raus filtert und gut? > > Und was dann damit anfangen? Wie schon weiter unten geschrieben: automatisch zusammenfassen... Oder auch für eine Stichwortsuche in einer DB ablegen, zusammen mit einem Link auf die jeweilige Datei. Oder die Audiodateien nach Inhalt zu Gruppen zusammenfassen, oder... Lass es mich mal so sagen: Du hast gerade den ersten Schritt einer Vorverarbeitung gemacht. Von Data Mining, wie Du im Betreff geschrieben hast, ist das noch weit entfernt. Die Frage ist doch zuallererst: was willst Du mit den Daten machen (Ordnung hineinbringen ist ein sehr grosses Feld, es sollte schon etwas konkreter werden)? Willst Du nur nach Schlagworten getrennt ablegen/suchbar machen? Willst Du thematisch sortieren? Willst Du Erkenntnisse darüber gewinnen über welche Themen Du am liebsten philosophierst? Wenn Du weisst, was Du mit den Daten anfangen willst, dann gibt es auch einen Weg dorthin (ob gut oder schlecht sei mal dahin gestellt) - aber hier im Forum wird Dir aber niemand sagen können, was Du mit Deinen Daten anfangen willst... Grüsse, Tommy.S
Tommy.S schrieb: > Willst Du Erkenntnisse darüber gewinnen über welche Themen Du > am liebsten philosophierst? > Klingt gut für den Anfang. Was könnte die Ausgabe eines solchen Programmes sein? Ich würde gerne Zusammenhänge sehen. Etwa "In Audiodatei XY wurde über Thema Z gesprochen. Thema Z wird auch in Audiodatei KK erwähnt, wenn auch in anderem Zusammenhang und mit anderen Worten. Ist es möglich, XY mit KK zu verbinden, etwa zum Thema "NeuesThema"?". Wie müßte ein Programm aussehen, das die obengenannte Aussage treffen kann? Allgemein glaube ich, daß ich nicht wissen muß, was ich will sondern die Tatsache "Audiodatei -> Textdatei ohne Satzzeichen" bereits einschränkend genug für die Möglichkeiten ist und ich eher aus den Möglichkeiten auswählen sollte als Ideen zu entwicken um festzustellen, daß die Voraussetzungen dafür nicht vorhanden sind. Die Textdateien sind - nachdem sie automatisch erkannt werden und die Spracherkennung gewissermaßen auch von Satzzeichen abhängt - entsprechend ungenau. Was man sicher sagen kann ist: Kommt ein Wort häufig vor, ist das vermutlich auch wichtig.
Oder auch: "Nach Durchsicht der Audiodateien X1 .. Xn schlage ich vor, sich näher mit Thema Z zu beschäftigen, da dieses zu kurz gekommen ist. Oder den Hoizont zu erweitern mit Thema Y" Während Thema Y aus der Analyse von Trends innerhalb des Themenpools in X1 .. Xn entsteht. Ich möchte einfach alle Dateien dem Programm geben und mehr über mich erfahren oder was ich damit machen könnte, gewissermaßen eine objektive Analyse. In etwa so, wie ich dem Programm muvee Reveal Videodateien und eine Audiodatei gebe und es mir daraus teils sehr passend geschnittene Filme erstellt.
Hi Datenschürfarbeiter, der erste Schritt der Vorverarbeitung ist ja schonmal gut gelaufen - aus den Audiodateien wurden Worte extrahiert, die Satzzeichen braucht eh kein Mensch ;-) Such' mal nach "Stopwortliste", das ist das ganze blah-blah in einem Text, den eh niemand interessiert (provokativ gesprochen). Die Stopwörter kannst Du gestrost rausschmeissen, die bringen sonst nur den Rest durcheinander. Was danach übrig bleibt ist Content. Hier geht jetzt die eigentliche Arbeit los. Wörter müssen gewichtet werden (idealerweise automatisch), Verbindungen zwischen Wörtern hergestellt werden (z.B. Synonyme, aber auch Wörter die sachlich zum gleichen Thema gehören, ...) - das ist ein Haufen Arbeit und nicht umsonst gibt es Unternehmen die mit der zugehörigen Software richtig Geld verdienen. Im Internet gibt es aber zahlreiche Gratis-Datenbanken, die Dir hier Unterstützung geben. Am Schluss hast Du einen gewichteten Graphen, an den Du dann gezielt Fragen stellen kannst (Fragen stellen im technischen Sinne, also sprich Knoten in einem Graphen betrachten; "bitte bitte liebes Datengrab, verrate mir doch dies-und-das" wird nicht funktionieren). Da Du Dir zu jedem Wort gemerkt hast, aus welcher Audiodatei dieses stammt, hast Du also zu den Schlagworten ein paar Audio-Dateien, sowie (über die Kantengewichtung) mehr oder weniger dazugehörige andere Audio-Dateien. Klingt alles recht simpel, kann auch recht simpel implementiert werden. Je mehr Gedanken man sich macht, je besser die Gewichtungen und Wort-Datenbanken sind und je mehr Wissen Du in Deine Verknüpfungsalgorithmen steckst, umso besser werden Deine Ergebnisse. Grüsse, Tommy.S
Tommy S. schrieb: > > Im Internet gibt es > aber zahlreiche Gratis-Datenbanken, die Dir hier Unterstützung geben. Beispiele? Die, welche ich kenne haben keine API für automatisierte Anfragen für deutsche Wörter. > Am Schluss hast Du einen gewichteten Graphen, an den Du dann gezielt > Fragen stellen kannst. Da Du Dir zu > jedem Wort gemerkt hast, aus welcher Audiodatei dieses stammt, hast Du > also zu den Schlagworten ein paar Audio-Dateien, sowie (über die > Kantengewichtung) mehr oder weniger dazugehörige andere Audio-Dateien. Wie berechne ich Trends iSv "Du hast dich mit X beschäftigt und mit Y, jetzt ist es naheliegend sich mit Z zu beschäftigen".
Datenschürfarbeiter schrieb: > Per Spracherkennungssoftware. Verrätst du was du verwendet hast? Habe ein (einfacheres) verwandtes Problem grade.
Hi, >> Im Internet gibt es >> aber zahlreiche Gratis-Datenbanken, die Dir hier Unterstützung geben. > Beispiele? Die, welche ich kenne haben keine API für automatisierte > Anfragen für deutsche Wörter. Mit Datenbanken meinte ich eher Download von "Rohdaten" für SQL-DBs. Diese müssen dann natürlich lokal installiert sein. Ein Startpunkt könnte z.B. http://www.openthesaurus.de/about/download sein. >> Am Schluss hast Du einen gewichteten Graphen, an den Du dann gezielt >> Fragen stellen kannst. Da Du Dir zu >> jedem Wort gemerkt hast, aus welcher Audiodatei dieses stammt, hast Du >> also zu den Schlagworten ein paar Audio-Dateien, sowie (über die >> Kantengewichtung) mehr oder weniger dazugehörige andere Audio-Dateien. > Wie berechne ich Trends iSv "Du hast dich mit X beschäftigt und mit Y, > jetzt ist es naheliegend sich mit Z zu beschäftigen". Du suchst Dir den Knoten mit X heraus. Dann den Knoten mit Y. Danach schaust Du, ob es weitere Knoten gibt, die über eine (möglichst hoch gewichtete) Kante sowohl mit X als auch mit Y verbunden sind. Das wäre zumindest mal ein erster, einfacher Ansatz. Wie in meinem letzten Post schon angemerkt: das Thema kann beliebig komplex werden - fraglich ist immer: welches Wissen steckt in den Daten und wie kann es extrahiert werden? Grüsse, Tommy.S
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.