Forum: PC Hard- und Software Wie findet man automatisch passende Audiodateien und schneidet sie zusammen?


von Tebaldo Schaible (Gast)


Lesenswert?

Es gibt Videos im Stil von https://www.youtube.com/watch?v=bmhbqKT7ONo

Wie finde ich automatisch passende Audiodateien von Textbausteinen und 
schneide sie zusammen, sodaß ich nur noch "Wie schneidet man effizient 
sehr dünne Folie?" eingeben muß und die Software mir dies aus vielen 
Videos zusammenschneidet

: Verschoben durch User
von ●DesIntegrator ●. (Firma: FULL PALATINSK) (desinfector) Benutzerseite


Lesenswert?

Autotune kann vieles, nur nicht sich gut anhören ;)

von Rolf M. (rmagnus)


Lesenswert?

Tebaldo Schaible schrieb:
> Wie finde ich automatisch passende Audiodateien von Textbausteinen und
> schneide sie zusammen, sodaß ich nur noch "Wie schneidet man effizient
> sehr dünne Folie?" eingeben muß und die Software mir dies aus vielen
> Videos zusammenschneidet

Wie kommst du darauf, dass das automatisch geht?

von Tebaldo Schaible (Gast)


Lesenswert?

Rolf M. schrieb:
> Wie kommst du darauf, dass das automatisch geht?

Wie kommst du darauf, daß das nicht automatisch geht?

von npn (Gast)


Lesenswert?

Tebaldo Schaible schrieb:
> Rolf M. schrieb:
>> Wie kommst du darauf, dass das automatisch geht?
>
> Wie kommst du darauf, daß das nicht automatisch geht?

Weil dann eine Datenbank existieren müsste, wo JEDES gesprochene Wort 
auf JEDEM Film und JEDEM Nachrichtenbeitrag als Filmdatei existieren 
müsste. Nur dann könnte man einen Satz wie "Wie schneidet man effizient 
sehr dünne Folie?" aus gesprochenen Wörtern automatisch zusammensetzen.

von Tebaldo Schaible (Gast)


Lesenswert?

npn schrieb:
> Tebaldo Schaible schrieb:
>> Rolf M. schrieb:
>>> Wie kommst du darauf, dass das automatisch geht?
>>
>> Wie kommst du darauf, daß das nicht automatisch geht?
>
> Weil dann eine Datenbank existieren müsste, wo JEDES gesprochene Wort
> auf JEDEM Film und JEDEM Nachrichtenbeitrag als Filmdatei existieren
> müsste. Nur dann könnte man einen Satz wie "Wie schneidet man effizient
> sehr dünne Folie?" aus gesprochenen Wörtern automatisch zusammensetzen.

Auch wenn du völlig falsch liegst, sehe ich für die Beantwortung der 
Frage keinen Nutzen, dir zu erklären, warum.

von npn (Gast)


Lesenswert?

Tebaldo Schaible schrieb:
> Auch wenn du völlig falsch liegst,

Warum meinst du, dass ich falsch liege?
Und wie sollte dein Vorhaben sonst funktionieren?

von Rolf M. (rmagnus)


Lesenswert?

Tebaldo Schaible schrieb:
> Rolf M. schrieb:
>> Wie kommst du darauf, dass das automatisch geht?
>
> Wie kommst du darauf, daß das nicht automatisch geht?

Ich hab das nirgends behauptet. Allerdings glaube ich tatsächlich nicht, 
dass es etwas gibt, das das automatisch macht. Das wäre schlicht viel zu 
viel Aufwand für etwas, das doch eher eine Nischen-Erscheinung ist.

von ●DesIntegrator ●. (Firma: FULL PALATINSK) (desinfector) Benutzerseite


Lesenswert?

das ganze ist entweder sehr viel Handarbeit,
wissen wo man die passenden Worte in Filmclips findet.
Da mag es ja genug Arbeitslose Leute geben oder Schüler,
die nie lernen müssen, die für sowas Zeit haben.

Oder ein Stimmenimitator (im Format Jörg Knör)
spricht auf Clips, die von der Mundbewegung her halbwegs passen.

von Egon N. (egon2321)


Lesenswert?

Ist doch kinderleicht.

Erstens sind die Spracherkennungen inzwischen recht gut.

Zweitens wird es noch viel einfacher: Viele Videos haben bereits fertige 
Untertitel. Wenn nicht kann man sich bei z.B. Youtube bedienen, da 
werden die Videos automatisch mittels Spracherkennung mit Untertiteln 
versehen und diese werden auch durch Nutzer korrigiert.

Fernsehsendungen besitzen in der Regel auch Untertitel da diese für 
Hörgeschädigte geeignet sein müssen (z.B. ÖR).

Dies trifft vermutlich auch auf die ganzen Aufnahmen des Präsidenten zu, 
denn diese müssen für die Nachwelt archiviert werden und hier könnte ich 
mir durchaus vorstellen, dass es eine entsprechende Grundlage gibt dass 
diese auch mit Untertiteln für Hörgeschädigte versehen werden müssen 
bzw. hier braucht man es teils auch einfach nur für eine gute 
Indizierung.


Man muss also nur noch eine Untertiteldatenbank mit den Videos der 
ganzen Reden anlegen und kann sich dann ziemlich genau die Snippets der 
Wörter ausspucken lassen.


https://en.wikipedia.org/wiki/SubRip



>168
>00:20:41,150 --> 00:20:45,109
>- How did he do that?
>- Made him an offer he couldn't refuse.



So sehen Untertitel in der Regel aus. Die Snippets bekommt man mit 
ffmpeg/etc. leicht heraus.

Wer es noch etwas mehr fancy will, der schätzt oder ermittelt über 
Datenbanken auch noch wie lang welches Wort grob gesprochen wird 
(Wikipedia, Duden usw. bieten das Vorlesen eines Wortes an, daraus kann 
man sehr genau die Wortlänge ermitteln in Sekunden), dann sind die 
Snippets noch genauer und es fällt weniger Handarbeit an.

Autotune usw. ziehen das dann in die entsprechende Tonlage, aber hier 
wird wenn ich es richtig höre noch zusätzlich verzerrt.

: Bearbeitet durch User
von Purzel H. (hacky)


Lesenswert?

Die Idee ist gut. Wird's sicher in ein paar Jahren auf dem Markt geben. 
Nur muesste man dann auch um allenfalls ein Copyright zu umgehen, oder 
um eine andere Aussage zu erreichen, die Figuren auswechseln koennen. 
Also zB Schwarzi gegen Uma auswechseln, oder gegen mich selbst.

von Egon N. (egon2321)


Lesenswert?

Zwölf M. schrieb:
> Nur muesste man dann auch um allenfalls ein Copyright zu umgehen,

Nennt sich Fair Use und gibt es in den USA und sonstigen Staaten die 
nicht ganz so rückständig von der Lobby geschmiert werden wie z.B. 
Deutschland.

von Sebastian S. (amateur)


Lesenswert?

Software kann noch nicht mal Musik mit "Fehlgriffen" der Musiker 
identifizieren.
Für die gibt es nur: Sound - Kein Sound.

Was Software kann ist das Ende eines Stückes finden, so lange dann 
halbwegs Ruhe herrscht.
Sie kann auch das Ende einer "Pause" finden.

Was sie aber nicht kann Stücke "hören" oder den Unterschied zwischen 
einem Musikstück und dem Lärm in einer Fußgängerzone unterscheiden.
Übrigens ein ordentliches Schlagzeugsolo und das Hämmern in einer 
Werkstatt klingen, für Computi, fast gleich.

von Michael B. (alter_mann)


Lesenswert?

Die Frage und die beiden "Zwischenrufe" des TO lassen 2 
Schlußfolgerungen zu.

1. <*)))o><
2. Niemand will es merken.

Möge er doch die allwissende Siri fragen oder Alexa.

von Rolf M. (rmagnus)


Lesenswert?

Tebaldo Schaible schrieb:
> Auch wenn du völlig falsch liegst, sehe ich für die Beantwortung der
> Frage keinen Nutzen, dir zu erklären, warum.

Ganz schön hochnäsig und unfreundlich für jemanden, der hier Hilfe 
sucht…

von ●DesIntegrator ●. (Firma: FULL PALATINSK) (desinfector) Benutzerseite


Lesenswert?

Rolf M. schrieb:
> Ganz schön hochnäsig und unfreundlich für jemanden, der hier Hilfe
> sucht…

ein Spiegelbild vieler user hier...

von sumo (Gast)


Lesenswert?

● J-A V. schrieb:
> Rolf M. schrieb:
>> Ganz schön hochnäsig und unfreundlich für jemanden, der hier Hilfe
>> sucht…
>
> ein Spiegelbild vieler user hier...

Stimmt, es gibt noch viele andere hier, die Hilfe suchen, aber total 
hochnäsig und unfreundlich sind.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.