Forum: PC Hard- und Software Automatische Sprachübersetzung mit Untertiteln für Videos


von batman (Gast)


Lesenswert?

Howdy,
ist das schon realistisch machbar, für zuhause ohne irgendeine fette 
Google-KI im Hintergrund?
Angenommen eine Mediendatei, ob fremdsprachiger Spielfilm oder 
Privataufnahme durch eine lokale PC-Software zu jagen, die dann z.B. 
eine srt-Untertiteldatei ausspuckt, mit einigermaßen korrekter und 
verständlicher Übersetzung der gesprochenen Dialoge?
Idealerweise gleich als Plugin fürn Mediaplayer?
Wobei ich nicht weiß, ob Spracherkennung auch das Bild (Lippenlesen) 
nutzt oder nur Audio?

von Frank (Gast)


Lesenswert?

batman schrieb:
> Wobei ich nicht weiß, ob Spracherkennung auch das Bild (Lippenlesen)
> nutzt

Klar. Besonders wenn dee Sprecher mit dem Rücken zur Kamera steht ;)

batman schrieb:
> ist das schon realistisch machbar, für zuhause ohne irgendeine fette
> Google-KI im Hintergrund?

Nein. Zumindest nicht, wenn wirklich sinnvolles dabei rauskommen soll.

von batman (Gast)


Lesenswert?

Danke!

von Jens M. (schuchkleisser)


Lesenswert?

Wie gut das funktioniert wenn eine Google-Serverfarm das macht, sieht 
man ja zuhauf auf YouTube.

Zuhause funktioniert es gerade mal, die Texte aus den Untertiteln zu 
extrahieren (Texterkennung aus Video!), und auch da ist für die 
Übersetzung "die Cloud" zuständig, mit ebenso grausigen Ergebnissen.
(Welcher Idiot auf den Trichter gekommen ist, die Untertitel bei Bluray 
als überlagertes Bild statt Text mitzuliefern....)

von batman (Gast)


Lesenswert?

Es ging mir auch nicht um mustergültige Übersetzungen, sondern daß man 
zumindest mal spontan der Handlung eines beliebigen fremdsprachigen 
Films folgen könnte. Aber das bleibt dann wohl leider erstmal noch ein 
Traum.
Umso verblüffender für mich, wie gut Spracherkennung und automatische 
Textübersetzungen z.B. mit Google schon funzen. Aber die Konzerne 
betreiben wohl zunehmend ihre Geheimwissenschaften, ähnlich wie beim 
autonomen Fahren.

von Schlaumaier (Gast)


Lesenswert?

batman schrieb:
> die dann z.B.
> eine srt-Untertiteldatei ausspuckt, mit einigermaßen korrekter und
> verständlicher Übersetzung der gesprochenen Dialoge?

eine SRT-Datei ist eine normale Text-Datei.

Und OFFline-Übersetzer habe ich schon vor über 20 Jahren benutzt. Mit 
ziemlich guten Erfolg. Die liefen sogar unter DOS prima.

von Schlaumaier (Gast)


Lesenswert?

Nachtrag :

Mein Text-Übersetzer hieß damals power translator. Gibt es in eine 
neueren Version bei Amazon sogar noch.

von Hennes (Gast)


Lesenswert?

Hallo

batman schrieb:
> Umso verblüffender für mich, wie gut Spracherkennung und automatische
> Textübersetzungen z.B. mit Google schon funzen. Aber die Konzerne
> betreiben wohl zunehmend ihre Geheimwissenschaften, ähnlich wie beim
> autonomen Fahren.

Ja wenn es gut läuft ist es schon beinah erschreckend gut wie gut das 
funktioniert und zwar auch wo man meint: "So deutlich spricht der (die) 
eigentlich doch gar nicht, warum gibt es eigentlich noch 
Simultanüberstzer?"

Aber oft genug kommt da auch ziemlicher Mist bei heraus, obwohl man 
eigentlich den Vortragenden gut ja sogar sehr gut versteht- ist schon 
seltsam...
Ob bei den sehr guten Ergenissen das wirklich immer die automatische 
Übersetzung und Spracherkennung wirklich vollständig selbstständig macht 
möchte man da fast bezweifeln, leider halten sich die Konzerne wie du 
schon geschrieben hast bei den wirklich interessanten Details sehr 
bedeckt.

An "Ähmms" "Öhhs" usw. scheint sich die Automatik auf jeden Fall nicht 
oder nur wenig zu stören.

Aber auch was der erstaunlich gute https://www.deepl.com/translator 
"nur" reine Textüberstzer schafft ist erstaunlich, aber öfter auch eben 
nicht - und das bei Texten wo man (ich) mit nur bescheidenen 
Schulenglisch meint das gerade das doch sehr einfach und klar 
(automatisch) zu übersetzten sein müsste - vieleicht liegt es dann aber 
auch daran das der Text (Die Grammtik) nicht so 100% Koscher ist, bzw. 
es 1001 Bedeutungen gibt und viel nur aus dem Zusammenhang und 
Hintergrundwissen sinnvoll übersetzt werden kann.
Wenn natürlich ein deutscher der so gerade sein Schulenglisch 
"beherrscht" ;-) einen englischen Text schreibt ist das als 
"Schulenglisch" Deutscher sehr gut zu überstzten.
Das was Otto Walkes da mal in der frühen Steinzeit bewusst übertieben 
als Gag gemacht hat hat nämlich seinen wahren Hiuntergrund - und das wir 
so manchen deutschsprachigen Politiker und Sportler eigentlich ganz 
hervorragend verstehen wenn er "Englisch" (ähnlich "gut" wie die meisten 
- sein wir doch ehrlich) spricht so hervorragend verstehen dürfte auch 
seinen Grund haben... ;-)

von Schlaumaier (Gast)


Lesenswert?

Das ist weniger Hexenwerk am man denkt.

Im Prinzip ist das nur eine kleine (für Phonem) und eine große Datenbank 
mit den fertigen Ergebnis.

Bei der Spracherkennung erkennt der Computer KEINE Worte. Er zerlegt 
Worte in Phonem , auch Laut-Sprache genannt. Diese Laut-Sprache sieht 
man in Übersetzungswörterbücher. Phonem sind sehr viel unabhängiger von 
der Aussprache wie Wörter. Diese Tonfetzen werden geglättet, bekannte 
Hintergrundgeräusche (Atmen/Lüfter etc) entfernt. Das Ergebnis wird dann 
mit einer Datenbank verglichen und die Wörter zusammengesetzt. Und schon 
hat man das ganze. Ist aber eine Menge Arbeit und man braucht eine große 
+ Schnelle Datenbank. ;)

Ich habe vor über 25 Jahren (weiß nicht mehr genau wann) mal auf der 
Messe mit DRAGON gespielt und mich mit einen der Fachleute unterhalten. 
Der hat es mir genau so erklärt.

Damals musste man noch 5 x ein bestimmten Text sprechen, damit das 
System sich an den Sprachrhythmus und die Lautstärke des Sprechers 
gewöhnen konnte.

von Hennes (Gast)


Lesenswert?

Danke sehr interessant - aber warum dann doch die sehr unterschiedlichen 
Ergenisse?
Weil so einiges "fluppt" richtig gut und das mit dieser Phenom Zerlegung 
(nochmal Danke für die Info)und den Datenbanken klappt hervorragen oder 
eben genug auch nicht und zwar ohne das da großartige "untypische" 
Störgeräusche im Hintergrund dabei sind, das Thema extrem Exotisch ist 
(wegen Datenbank) oder sofern man sie Sprache selbst so einigermaßen 
versteht und "automatisch" übersetzt bzw. sogar "direkt" versteht 
(überigens wesentlich einfacher als selbst sprechen oder gar schreiben - 
zumindest auf dem Niveau wie die meisten eine in der Schule erlernte 
Fremdsprache "beherrschen") das man größere Probleme damit hätte das 
selbst (also ohne Untertitel) zu verstehn.
Kann es sein das das mit den Phenom nur gut funktionier wenn der 
Vortragende die jeweilige "Hochsprache" spricht?
Weil wer jemals einen echten (also indischen keinen in den USA oder GB 
aufgewachsenen) Inder in Englisch (angeblich eine Zeite Amtssprach in 
Indien die jeder beherscht... na ja..) lauschen durfte denn wird klar 
sein das das mit den Phenomen schon eine heftige herausforderung sein 
dürfte - selbst als Mensch hat man da erst mal heftigste Probleme und 
fragt sich "Was will der Typ (die Typin) jetzt mir eigenlich 
vorsingen?!" - ja vorsingen kein schreibfehler...

hennes

von Schlaumaier (Gast)


Lesenswert?

Weil der Algorithmus genau wie eine OCR Fehler mit Logik ausgleicht.

Das ganze nennt man Näherungsverfahren. Einfach gesagt, er versucht zu 
erraten was du gesagt hast.
Bei einer OCR wird das Ergebnis einer Texterkennung durch eine 
Rechtschreibdatenbank gejagt.

Und bei Spracherkennung durch einen Datenbank mit analytische Treffer 
Wahrscheinlichkeit.

Einfach erklärt. Wenn 10 Mio Leute nach eine bestimmten Wort suchen, 
dann ist es vermutlich das Wort was du auch suchst. Ähnlich klingende 
Worte / Namen etc. werden so "Fehler korrigiert".

Den selben Effekt hast du auch bei einer Google-Suche. "Meinten Sie .... 
" oder "sie tippten xxx  angezeigt wird xxy.  Klicken sie hier um alle 
Ergebnisse von xxx anzuzeigen".

Ist die selbe Technik nur ohne Sprache. Nur hierbei werden halt 
Tippfehler mit "analytische Treffer Wahrscheinlichkeit" abgeglichen, 
nach den Motto "Der sucht ja eh danach".

Die Routinen dahinter sind hoch mathematische Formeln. Aber die Logik 
ist immer die selbe.

von Schlaumaier (Gast)


Lesenswert?

Hennes schrieb:
> Kann es sein das das mit den Phenom nur gut funktionier wenn der
> Vortragende die jeweilige "Hochsprache" spricht?

jein. Aber es gibt ein Problem. Bei kleineren Sprachen kommt es 
teilweise zur Doppelübersetzungen. Einfach gesagt. Es gibt ca. 147 
Länder mit ca. von mir geschätzt ca. 500 Sprachen. Das wäre einfach zu 
viel Aufwand diese zu übersetzen.

Also macht man das mit einen Trick.  Man übersetzt JEDE Sprache in 
Englisch. Und dann zurück in die Zielsprache.

Nur die Hochsprachen (Deutsch gehört dazu) werden direkt übersetzt in 
andere Hochsprachen.

Irgendwo gab/gibt es eine Webseite wo Google sogar angibt welche 
Sprachen es direkt übersetzt.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.