Forum: Mikrocontroller und Digitale Elektronik Wake word ohne Training


von Jemin K. (jkam)


Lesenswert?

Ich habe eine Anwendung, in der ein Modul (Stromverbrauch im Standby < 
0.1W) einfach nur auf ein Wake Word reagieren soll um ein Licht 
einzuschalten (Relais). Jetzt gibt es diverse Module, die alle 
Spracherkennung versprechen, aber ich müsste jedes Mal ein neues Modell 
trainieren. Das wäre nicht so schlimm, wenn ich nicht meine eigenen 
Daten bereitstellen müsste. Gibt's nicht vielleicht irgendwas, was 
bereits eine Liste verschiedener Wake Words erkennen kann, von mir aus 
auch vorgefertigt (Licht, Light, On, irgendsowas, halt night Alexa oder 
Hallo Google), oder wo ich ein Wake Word aus dem Text erzeugen kann? Da 
jetzt in der Umgebung die Hintergrundgeräusche aufzunehmen, verschiedene 
Sprecher das Wort sagen zu lassen etc. ist mir zu aufwendig und auch 
datenschutzrechtlich bedenklich, da nicht nur ich dort Zugang habe.

von Julian L. (rommudoh)


Lesenswert?

Falls es identische Module sind und kein super-billiger China-Schrott, 
kannst du das trainierte Modell doch sicher übertragen?

von Niklas G. (erlkoenig) Benutzerseite


Lesenswert?

https://docs.espressif.com/projects/esp-sr/en/latest/esp32s3/wake_word_engine/README.html

https://docs.espressif.com/projects/esp-sr/en/latest/esp32s3/wake_word_engine/README.html#esp-open-wake-word

Die vordefinierten Wörter sind leider größtenteils chinesisch...

PS: Das "ohne Training" ist so eine Sache - das Training ist in der 
Praxis das Hauptproblem. So manches KI-Projekt ist daran gescheitert, 
dass nicht genug (gute) Trainingsdaten zur Verfügung stehen.

: Bearbeitet durch User
von Rainer W. (rawi)


Lesenswert?

Jemin K. schrieb:
> Da jetzt in der Umgebung die Hintergrundgeräusche aufzunehmen,
> verschiedene Sprecher das Wort sagen zu lassen etc. ist mir zu aufwendig
> und auch datenschutzrechtlich bedenklich, da nicht nur ich dort Zugang
> habe.

Gerade Trainingsdaten für KI-Modelle sind perfekt anonymisierbar, 
datentechnisch also eher unproblematisch. Dass du den Aufwand scheust, 
ist als Argument schon eher plausibel ;-)

von Dieterich (einermehr)


Lesenswert?

Hallo

Jemin K. schrieb:
> Das wäre nicht so schlimm, wenn ich nicht meine eigenen
> Daten bereitstellen müsste.

Erklär das mal bitte etwas genauer - was musst du da bereitstellen?
Adressen, Realnamen,...? Wenn ja ernsthaft (ohne Ironie ohne Wertung): 
Warum und wofür?
Oder halt nur (auch) deine Stimme - was wäre daran das Problem - so ein 
System muss nun mal die Sprachweise von möglichst vielen Leuten 
kennenlernen.

Niklas G. schrieb:
> PS: Das "ohne Training" ist so eine Sache - das Training ist in der
> Praxis das Hauptproblem.

Was sind gute Trainingsdaten? Ist es die reine Menge
Was ist das Problem an guten Trainingsdaten zu kommen?

Rainer W. schrieb:
> Gerade Trainingsdaten für KI-Modelle sind perfekt anonymisierbar,
> datentechnisch also eher unproblematisch.

Warum muss da überhaupt was anonymisiert werden, wie würden den die 
Trainingsdaten für ein Spracherkennungssystem für eine Worterkennung 
gewonnen werden?
Reicht es nicht aus wenn möglichst viele Leute in verschiedenen 
sinnvollen Umgebungen z.B. "Licht an" in ein hingehaltenes Mikrofon mit 
einen geeigneten Aufzeichnungsgerät (heutzutage wohl einfach ein 
Smartphone) hinein-quatschen?

Ist das nur ein rechtliches Problem? Wenn ja was denn da genau?

Die Fragen sind ernst und ohne "politisches" Statement bzw. ironische 
wertenden Hintergrund gemeint.

: Bearbeitet durch User
von Niklas G. (erlkoenig) Benutzerseite


Lesenswert?

Dieterich schrieb:
> Was sind gute Trainingsdaten? Ist es die reine Menge

Auch, du brauchst tausende Samples

> Was ist das Problem an guten Trainingsdaten zu kommen?

Hängt natürlich stark von der Anwendung ab. Möchtest du z.B. Flugzeuge 
von Fotos erkennen musst du tausende Fotos von Flugzeugen beschaffen und 
alle korrekt manuell annotieren. Bei Sprache ist es einfacher, aber auch 
hier brauchst du viele Positiv-und Negativsamples von vielen Sprechern.

von Harald K. (kirnbichler)


Lesenswert?

Dieterich schrieb:
> Warum muss da überhaupt was anonymisiert werden

Man will aus gutem Grund keinen von irgendwem irgendwo betriebenen 
KI-Systemen Trainingsdaten zur Verfügung stellen, und schon gar nicht 
irgendwelche biometrisch auswertbare Daten, zu denen Sprechproben 
eindeutig auch gehören.

von Jemin K. (jkam)


Lesenswert?

Klar kann ich die anonymisieren, aber ich brauche ja nicht nur 
Positivbeispiele sondern auch Negative. Deshalb müsste man eine Weile 
die Hintergrundgeräusche und Gespräche aufnehmen die dort erfolgen. Das 
darf ich überhaupt nicht.

von Monk (roehrmond)


Lesenswert?

Jemin K. schrieb:
> Das darf ich überhaupt nicht.

Die großen KI Anbieter lösen das Problem zur Zeit ganz einfach, indem 
sie es ignorieren. Wir haben digitale Raubritter und sind irgendwie auch 
alle ein bisschen mit schuld, weil wir deren Dienste trotzdem nutzen.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.