Forum: Offtopic phonetische Suche (lautsprachlich) in Wortschatz


von Carypt C. (carypt)


Lesenswert?

Weiß Jemand wo man auf dem Wortschatz eine phonetische Suche ausführen 
kann, um Bedeutungsähnlichkeiten in Wortähnlichkeiten zu erkennen. zB 
Menschen Menge, Rad road, Pferd Vier, Chemie  Mische,,,  so aus 
interesse, ich will jetzt kein eigenes Programm schreiben, wäre auch das 
Erste.

: Bearbeitet durch User
von Mani W. (e-doc)


Lesenswert?

Interessant wäre ja der Ausdruck

Blumento pferde

von Sebastian R. (sebastian_r569)


Lesenswert?

Ich fürchte, ich hab noch nicht ganz verstanden, worum es geht.
"Pferd" und "Vier" haben für mich jetzt keine ähnliche Bedeutung...

von ●DesIntegrator ●. (Firma: FULL PALATINSK) (desinfector) Benutzerseite


Lesenswert?

Sebastian R. schrieb:
> Ich fürchte, ich hab noch nicht ganz verstanden, worum es geht.

hier ähnlich.

Carypt C. schrieb:
> auf dem Wortschatz

AUF dem Wortschatz?

Genaugenommen gehts ja schon damit los.
Wenn man das gesuchte evtl auch falsch eingibt,
wirds länger dauern, bis man etwas findet.

von Udo S. (urschmitt)


Lesenswert?

In Java gibt es in apache commons das Paket 
org.apache.commons.codec.language.bm
Das implementiert den Beider Morse Algorithmus für phonetische Suche. 
Gibts garantiert auch für andere Sprachen

von Udo S. (urschmitt)


Lesenswert?

Mani W. schrieb:
> Blumento pferde

Gibt mit Levenshtein distance je nach Ausführung durchaus einen guten 
Treffer.
Allerdings nur wenn man nicht mit den white spaces in Tokens zerlegt.

von Rbx (rcx)


Lesenswert?

Carypt C. schrieb:
> Weiß Jemand wo man auf dem Wortschatz eine phonetische Suche ausführen
> kann, um Bedeutungsähnlichkeiten in Wortähnlichkeiten zu erkennen. zB
> Menschen Menge, Rad road, Pferd Vier, Chemie  Mische,,,  so aus
> interesse, ich will jetzt kein eigenes Programm schreiben, wäre auch das
> Erste.

Zieh dir ein paar Witzbücher rein. Viele Witze hier werden auf dieser 
Basis gemacht.
Wobei hier auch Doppeldeutigkeiten funzen und - was noch besser ist - 
man kann in anderen Sprachen (Arabisch z.B.) die Mehrdeutigkeiten und 
Text-Tiefe regelrecht auf die Palme treiben.
Ein paar Runden stille Post spielen kann auch sehr unterhaltsam werden. 
Bei Pferd kann man z.B. das P weglassen, und landet dann u.a. bei 
verdammt oder verrückt.

Man kann auch auf der Basis von Textgestaltungen seinen Spaß damit 
haben: "..schematische Chemie mit Emil"

(musst du halt ein wenig drauf achten, hier z.B. kommen ja 
unterschiedliche Ansätze zum tragen: 
https://www.youtube.com/watch?v=wJ71b-kleLg)

: Bearbeitet durch User
von Christoph db1uq K. (christoph_kessler)


Lesenswert?

Anscheinend für hebräische Namen entwickelt
"Beider-Morse Phonetic Matching:
An Alternative to Soundex with Fewer False Hits
by Alexander Beider & Stephen P. Morse":
https://stevemorse.org/phonetics/bmpm.pdf
und das hier auch genannte Soundex:
https://en.wikipedia.org/wiki/Daitch%E2%80%93Mokotoff_Soundex

von Udo S. (urschmitt)


Lesenswert?

Christoph db1uq K. schrieb:
> und das hier auch genannte Soundex:
> https://en.wikipedia.org/wiki/Daitch%E2%80%93Mokotoff_Soundex

Soundex kannst du vergessen. Uralt und völliger Mist!
Beider Morse ist m.W. nicht nur für hebräische Sprachen, ich hatte oben 
ja schon darauf verwiesen, auch auf eine konkrete Implementierung in 
Java.

Nachtrag: Beider Morse kostet aber richtig Rechenleistung! Dagegen ist 
selbst eine lineare Suche mit Levenshtein schnell.

: Bearbeitet durch User
von Carypt C. (carypt)


Lesenswert?

schon mal danke schön, Udo
Mal schauen ob ich das hinkrieg
regen rain reh rennen

von Darius (dariusd)


Lesenswert?

Hallo


Sebastian R. schrieb:
> Ich fürchte, ich hab noch nicht ganz verstanden, worum es geht.
> "Pferd" und "Vier" haben für mich jetzt keine ähnliche Bedeutung...

●DesIntegrator ●. schrieb:
> hier ähnlich.

Den Aussagen kann ich mich nur Anschließen.

Was ist "das", wofür soll "das" gut sein?

Hat wohl irgenwas mit Sprache und akustisch falsch verstehen oder 
Ähnlichkeiten (welche ich aber in keiner Weise erkenne - siehe auch 
Sebastians Wortmeldung) zu tun?.

Wenn ich z.B nach

Udo S. schrieb:
> Levenshtein distance

google bekomme ich Treffer mit den ich Null anfangen kann

z.B.:
https://en.wikipedia.org/wiki/Levenshtein_distance

Hääähh...? Mathematikvorlesung? Linguistik Professoren treff? Ein Scherz 
in Richtung "Fluxkompensator" und "Siemens Lufthaken"? (Wohl eher 
nicht).

Christoph db1uq K. schrieb:
> und das hier auch genannte Soundex:
> https://en.wikipedia.org/wiki/Daitch%E2%80%93Mokotoff_Soundex

Auch das erklärt mir so gar nichts

Rbx schrieb:
> Zieh dir ein paar Witzbücher rein. Viele Witze hier werden auf dieser
> Basis gemacht.
> Wobei hier auch Doppeldeutigkeiten funzen und - was noch besser ist -
> man kann in anderen Sprachen (Arabisch z.B.) die Mehrdeutigkeiten und
> Text-Tiefe regelrecht auf die Palme treiben.
> Ein paar Runden stille Post spielen kann auch sehr unterhaltsam werden.
> Bei Pferd kann man z.B. das P weglassen, und landet dann u.a. bei
> verdammt oder verrückt.
>
> Man kann auch auf der Basis von Textgestaltungen seinen Spaß damit
> haben: "..schematische Chemie mit Emil"

Hört sich nach einer witzigen Spielerei an - aber was ist der tiefere 
Sinn dahinter?
Es geht doch wohl mehr als um ein Spiel für Kindergeburtstage oder 
"witzige" Gedichte?

Wer macht mal den Erklärbär (bzw.gute, verständliche Links) für die 
welche wirklich nichts Verstehen.
In den Sinne:
Wer nicht mal das ABC beherrscht oder versteht wofür es gut ist, kann 
auch nicht Goethe und Shakespeare lesen und verstehen.

: Bearbeitet durch User
von Monk (roehrmond)


Lesenswert?

Ich finde die Problembeschreibung auch sehr verwirrend.

Vermutlich möchte der TO, dass der Vergleich ähnlich klingender Worte 
(Strings) TRUE ergibt.

Beispiele:
1
Adventskranzkerzen = Atzvenzkrantskärtsen
2
paar = par
3
Lehrer = Leerer
4
Relais = Relay

So etwas mach meiner Meinung nach nur Sinn, wenn man es mit einem 
Synonymwörterbuch kombiniert:
1
Bilder = Fotos
2
Pumphose = Haremshose = Sarouelhose = Aladin-Hose
3
Auszubildender = Stift = Lehrling

Bei einer Suchmaschine für Dokumente/Produkte macht das durchaus Sinn.

: Bearbeitet durch User
von Christoph db1uq K. (christoph_kessler)


Lesenswert?

> Suchmaschine
Das dürfte die Hauptanwendung sein. Und da besonders Namen. Im genannten 
Text von Beider/Morse steht als Beispiel:

As an example, consider the name Schwarz (standard German spelling). It 
can appear in various documents as Schwartz (alternate German spelling), 
Shwartz, Shvartz and Shvarts (Anglicized spellings), Szwarc (Polish), 
Szwartz (blended German-Polish), Şvarţ (Romanian), Svarc (Hungarian), 
Chvarts (French), Chvartz (blended French-German), Шварц (modern 
Russian), Шварцъ (Russian before 1918), שברץ and שורץ (Hebrew), and 
שווארץ (Yiddish).

von Rbx (rcx)


Lesenswert?

Darius schrieb:
> Es geht doch wohl mehr als um ein Spiel für Kindergeburtstage oder
> "witzige" Gedichte?

Das ja, aber schau mal bei den Computer-Linguisten rein in die 
Fachzeitschriften. Da bekommt man echt den Eindruck, die brauchen etwas 
Betreuung. Ähnlich geht es den Linguisten draußen, wenn es um ernsthafte 
Sachen geht, wird es schwierig mit denen.
Das kann man natürlich hier nicht abklären - ist aber eigentlich ein 
ziemliches Aufregerthema.

von ●DesIntegrator ●. (Firma: FULL PALATINSK) (desinfector) Benutzerseite


Lesenswert?

hebbt ji sonst nix to dohn?

von Carypt C. (carypt)


Lesenswert?

Haben Hafen, es geht etwas mehr in etymologische Bedeutugssuche, ich bin 
oft erstaunt wie sehr ich die Bedeutung eines Text-Wortes verinnerlicht 
habe und Gar nicht auf die Bedeutungsnähe ähnlich klingender (Phonetik) 
Worte komme. Ok, Pferd kommt wahrscheinlich eher vom Pruste-laut den 
Pferde manchmal machen, aber 5 nicht. Und im Schwein ist auch ein oink 
pfersteckt. Es gab da mal ein Hörspiel "Vogelherdrecherche", das ist 
bissi in der Richtung.

Beider/Morse sucht anscheinend nur im Personennamensregister (auch 
interessant). Wortschatz-datensätze müßte ich da haben. Zum einen 
offline- Wörterbuch-Programm-Datensätze, aber auch 
Europäische-Union-Übersetzungs-Wortschätze , Open Thesasaurus , Aspell. 
Bloß in Anwendung habe ich es nicht. ich dachte es gäht irgendwie mit 
Regex, aber da gibt es manchmal nur 200 Zeichen-Eingabe. Wie gesagt, ich 
bin da nicht drin, aber die Wortspielerei interessiert mich zuweilen, 
deshalb meine Frage, ob es da schon was gibt in einfach. Aber danke sehr

: Bearbeitet durch User
von Darius (dariusd)


Lesenswert?

Hallo

Monk schrieb:
> Vermutlich möchte der TO, dass der Vergleich ähnlich klingender Worte
> (Strings) TRUE ergibt.
>
> Beispiele:Adventskranzkerzen = Atzvenzkrantskärtsen
> paar = par
> Lehrer = Leerer
> Relais = Relay

Danke, jetzt verstehe ich auch was der TO eigentlich sagen wollte.
Wobei (und ich bin auch nicht der Rechtschreibkünstler, aber das war 
schon hart zu lesen) beim den Adventskranzkeren musste ich mehrmals den 
Begriff lesen der als "gleich" gesetzt wurde.
So wie ein Kind was gerade das lesen anfängt ;-) - dann hat es aber 
"Klick" gemacht und ich habe (hoffentlich) verstanden worum es den TO 
und den Profianworten aus dem Elfenbeinturm geht.

Mhh... das (die Frage) hätte der TO und die "Elfenbeinturm Spezialisten" 
auch Allgemeinverständlicher stellen, bzw. beantworten können, vor allem 
da es im Kern doch ein Forenfernes Thema ist.

Aber es ist auch ein Hinweis für "uns" E-Techniker, Facharbeiter und 
meinen Empfinden nach am deutlichsten bei den "Programmierer" ist:
Sprecht (schreibt) bitte Allgemeinverständlich, erklärt zur Not erst mal 
die Hintergründe der Frage und Antwort wenn ihr nicht "privat" unter 
euch Spezialisten seid - dieses Beispiel hat auch mir wieder gezeigt wie 
man sich selbst ein Bein stellen kann oder gar unbeabsichtigt Arrogant 
und ausgrenzend herüberkommen kann.

Ich selbst ertappe mich mit solchen "ausschließenden" und abgrenzenden 
"Fragen" und formulierungen auch immer wieder.
Fachsprache ja - aber nicht soweit das es zur unverständlichen 
"Fremdsprache", obwohl deutsch gesprochen und geschrieben, wird...

von Monk (roehrmond)


Lesenswert?

Carypt C. schrieb:
> ich dachte es gäht irgendwie mit Regex

Regex ist dazu ungeeignet und auch nicht gedacht.

: Bearbeitet durch User
von Carypt C. (carypt)


Lesenswert?

ich werde mal weiter nach phonetischer Suchmaschine googeln, "Witch" 
gabs wohl mal, bis vor 5 Jahren.

von Carypt C. (carypt)


Lesenswert?

ich dachte, ich schau mal in google "labs", auch geschlossen.

von Udo S. (urschmitt)


Lesenswert?

Darius schrieb:
> google bekomme ich Treffer mit den ich Null anfangen kann

Google kann damit deutlich mehr anfangen, das benutzt den Algorithmus 
nämlich um auch Treffer für Wörter und Begriffe zu finden die du als 
"nicht Rechtschreibkünstler" falsch schreibst.

von Udo S. (urschmitt)


Lesenswert?

Carypt C. schrieb:
> ch werde mal weiter nach phonetischer Suchmaschine googeln, "Witch"
> gabs wohl mal, bis vor 5 Jahren.

Ich hatte vorhin nicht auf deine Beispiele geschaut:

Carypt C. schrieb:
> zB
> Menschen Menge, Rad road, Pferd Vier, Chemie  Mische,,,

Keine Ahnung welche Ähnlichkeit du da erkennen willst. Da wird dir wohl 
kein Algorithmus der Welt ausser ein angelerntes KI System helfen 
können.
Phonetik findet Worte unterschiedlicher Schreibweise und gleicher 
Bedeutung wie
Schmitt, Schmidt, Schmid und vielleicht auch noch Schmied.
oder Maier, Meier und Mayer

Ganz ausgefallen eventuell sogar "Georg" und "Schorsch".
Die Algorithmen dürften aber inzwischen eher von trainierter "machine 
learning" bzw KI übernommen werden.

Bei Wortähnlichkeiten wie Rad road kann dir der Levenshtein 
weiterhelfen, auch "edit distance" genannt.
Der hätte hier einen Wortabstand von 1 ermittelt (Einfügen des Zeichens 
'o' im zweiten Wort).

von Rbx (rcx)


Lesenswert?

Carypt C. schrieb:
> es geht etwas mehr in etymologische Bedeutungssuche

Ja was denn jetzt? Etymologie finde ich auch spannend, kann oft sehr 
hilfreich sein. In die Schranken weisen, oder mit offenen Visier 
antreten ist z.B. schon recht alt. Oder alle fünfe gerade lassen, etwas 
auf die "lange Bank" schieben, oder warum die Eier an Ostern bunt sein 
müssen, oder ähnliches.

Für Bedeutungsähnlichkeiten gibt es einen guten Sammelschinken:
https://www.buchkatalog.de/der-deutsche-wortschatz-nach-sachgruppen-9783110455632

Mit Doppeldeutigkeiten kann man auch spielen, wie gesagt, ist z.B. im 
Arabischen sehr beliebt - und nicht nur das: hinsichtlich 
Mehrfachdeutungen, Uneindeutigkeit und Komplexität wird behutsam dahin 
gedrängt gewisse Zusammenhänge nicht allzueindeutig zu interpretieren, 
Vorurteile zu vermeiden, Sorgfalt anzustreben, uvm.

Wirklich klüger wird man diesbezüglich in der Psychologie (ist kein 
Witz) es gibt ein paar Arbeiten in die Richtung der 
Bedeutungsverknüpfungen. Also beispielsweise so, wenn man den Begriff 
"Messer" verliert, kann es auch schwierig werden, "geschnittenes Brot" 
zu verstehen. Da gibt es ein ganze Menge spannender Arbeiten dazu.

Also wenn du Bock auf Arbeit hast: Es gibt reichlich Stoff zum Lernen 
über dies und das diesbezüglich.

Versuche am besten erstmal selbst, das, was du haben willst, in etwa zu 
operationalisieren. Dann suchst du dir ein paar Beispiele zusammen, und 
schreibst dazu, wie du auf welche Schublade kommst. Vielleicht brauchst 
du erstmal ein wenig Input und eine gewisse Richtung, die du verfolgen 
kannst.
Das Ungefähre kann natürlich verpuffen, kommt auch vor.
Aber irgendwie brauchst du was und sei es nur erstmal eine Leiter für 
den Himmel.

Wikipedia ist da als Anfang auch gar nicht so schlecht:
https://de.wiktionary.org/wiki/Pferd

von Lotta  . (mercedes)


Lesenswert?

Es gibt nen Algorithmus, der "Soundex" heißt.
Der kann zum Beispiel Stefan, Stephan, Steffan u.s.w, suchen.

Google bitte mal in Netz nach dem Algo.

mfg.

von Martin L. (makersting)


Lesenswert?

Carypt C. schrieb:
> ,,,

Das betonte Komma.

von Carypt C. (carypt)


Lesenswert?

Aaalso, ich habe Java jre-8u421 heruntergeladen in 32 und 64bit, ich 
habe auch jdk-17 heruntergeladen, ich habe nur Win7; 32 sowie 64b 
installiert, danach nur 64b installiert. Dann habe ich Apache Commons 
Lang in den Versionen 3-3.15 , 2.6 und 1.01 gezogen, entpackt und die 
Datei commons-lang(-2.6).jar geöffnet. Und nichts passiert in irgeneiner 
der Versionen. Der Falstad Simulator circuit.jar wird problemlos 
ausgeführt, Java funktioniert also.

Das habe ich nun wohl falsch verstanden wie das funktionieren soll. ich 
hätte ja gern so etwas wie eine Anwendung oder Prompt, die mir erlaubt 
ein Textfile auszuwählen und die Suche oder Umwandlung auszuführen. Das 
geht wohl so nicht. ich habe mir schon auch gedacht, daß ich 
irgendwelche Programmierbefehle lernen und eingeben müßte, aber das 
klappt wohl so nicht. Gesehen habe ich vermutlich ein Video, wo jemand 
in Visualstudio Java und die Apache Commons Lang3 eingebunden hat und 
dann einzelne Funktinen von Lang3 ausgeführt hat.

Das wird mir ja viel zu kompliziert, da kann ich ja besser eigene Regex 
Formeln zur Umwandlung tippen und brauche keine eigene Anwendung zu 
generieren. ächz

Oder geht das nun auch unter Java, Java Notepad und dann Apache 
Bibliothek nutzen. ich weiß ja nichts darüber.

Apache Commons Lang enthält auch den Soundex Algorithmus.

von Carypt C. (carypt)


Lesenswert?

ich suche gerade, ob vielleicht in Open Office (Apache Open Office) Java 
und Java Plugins möglich sind, das würde ja Sinn machen. Könnte sein 
laut Wiki. Ob Libre Office das auch kann, eventuell sind Plugins auch 
für Notepad++ da.

von Sheeva P. (sheevaplug)


Angehängte Dateien:

Lesenswert?

Carypt C. schrieb:
> Apache Commons Lang enthält auch den Soundex Algorithmus.

Apache Commons Codec [1] hat Implementierungen für die Algorithmen 
Soundex, Kölner Phonetik, Caverphone und ein paar andere. Das ist jedoch 
nur eine Bibliothek, die Du in Deine eigenen Programme einbinden mußt.

Pyphonetics für Python ist auch eine Bibliothek, die Du in eigene 
Programme einbinden mußt, enthalten ist unter anderem der 
Soundex-Algorithmus. Im Kern arbeiten die Algorithmen alle recht 
ähnlich: jedes Wort wird dabei in eine algorithmusspezifische 
phonetische Repräsentation umgewandelt.

Wenn ich Dein Vorhaben richtig verstanden habe, möchtest Du gerne 
phonetische Ähnlichkeiten finden. Ich würde dazu mit einem Wörterbuch 
anfangen und dessen Wörter in ihre phonetischen Repräsentationen 
umwandeln. Bei der Suche würde ich die Suchworte ebenso umwandeln, 
jeweils die Levenshtein-Distanzen zu den Repräsentationen aus dem 
Wörterbuch berechnen, und dann haben die Ergebnisse mit der kleinsten 
Levenshtein-Distanz die größte phonetische Ähnlichkeit.

Die Levenshtein-Distanz zwischen zwei Worten ist grundsätzlich einfach: 
sie berechnet, wie viele Buchstaben geändert, hinzugefügt oder 
weggelassen werden müssen, um vom einen zum anderen Wort zu gelangen. 
Die Levenstein-Distanz von "Haus" zu "Hans" ist also 1, die von "Haus" 
zu "Hund" ist 3.

Als Starthilfe habe ich Dir ein kleines Python-Skript zum Spielen 
angehängt und die zugehörige requirements.txt angehängt.


[1] https://commons.apache.org/proper/commons-codec/
[2] https://pypi.org/project/pyphonetics/

von Carypt C. (carypt)


Lesenswert?

ich danke für die Hilfe und hoffe es war nicht zu viel Aufwand. Aber wie 
gesagt habe ich ja null Ahnung von Java Python Perl C . ich schau mir 
das mal an, aber tendiere doch mehr zu Regex Operationen.

genau genommen suche ich nach den Bedeutungsähnlichkeiten in den 
phonetischen Ähnlichkeiten. zB thresh trash , hound/hund  hunt.

Analog müßte ich also Java Development Kit installieren und dann die 
Apache Commons Lang Bibliothek einbinden.

Es gibt wohl Wörterbücher für Apache Open Office und Libre Office aber 
phonetische Unterstützung anscheinend nicht so richtig. Nochmals danke 
für die Mühe.

: Bearbeitet durch User
von Carypt C. (carypt)


Lesenswert?

für windows 7 brauche ich jeweils veraltete versionen. python 3.8.10 , 
java jdk 13 nur 64bit, tippen darf ich trotzdem in notepad++ , netbeans 
14/17 ist aber nur 32bit, oder so. herrjeh, das ist mir alles viel zu 
umständlich , da mußß ich erst lernen wie man in java und python 
programme schreibt, bibliotheken einbindet. dabei will ich nur ein paar 
automatisierte änderungen an wortlisten ausführen. naja, weiß ich etwas 
besser bescheid. etwas zu viel zum lernen. danke trotzdem
frech frisch

: Bearbeitet durch User
von Sheeva P. (sheevaplug)


Lesenswert?

Carypt C. schrieb:
> ich danke für die Hilfe und hoffe es war nicht zu viel Aufwand. Aber wie
> gesagt habe ich ja null Ahnung von Java Python Perl C . ich schau mir
> das mal an, aber tendiere doch mehr zu Regex Operationen.

Naja, Python ist mit einem Fokus auf Einfachheit entwickelt worden und 
genießt nicht umsonst den Ruf als "ausführbarer Pseudocode". Bisher ist 
mir noch kein Entwickler in einer beliebigen Programmiersprache 
begegnet, der es nicht hätte lesen, und nach kurzer Zeit auch schreiben 
konnte.

> genau genommen suche ich nach den Bedeutungsähnlichkeiten in den
> phonetischen Ähnlichkeiten. zB thresh trash , hound/hund  hunt.

Nunja, die "Bedeutungsählichkeiten" von "thresh" (verdreschen) und 
"trash" (verdreschen) verstehe ich leider nicht, und auch die bei 
"hound" (Hund) und "hunt" (Jagd)... okay, Hunde werden häufig bei der 
Jagd eingesetzt, aber eine "Bedeutungsähnlichkeit" zu erkennen, fällt 
mir dennoch mehr als schwer.

Phonetische Ähnlichkeiten zwischen "thresh" und "trash" sowie "hound" 
und "hunt" kann ich jedoch zwar erkennen, frage mich dann aber, welcher 
tiefere Sinn sich aus diesen phonetischen Ähnlichkeiten ergeben könnte. 
Insofern wird es vermutlich einfacher, Dir eine passende Software zu 
empfehlen, wenn Du das Problem und den Zweck der Sache genauer 
beschreiben könntest.

Wenn Du Deine Aufgabe lösen möchtest, solltest Du vielleicht zunächst 
einmal zurücktreten und darüber nachdenken, bis Du sie verständlich 
erklären kannst -- bei meinen Projekten ist das auch für mein eigenes 
Verständnis sinnvoll.

> Analog müßte ich also Java Development Kit installieren und dann die
> Apache Commons Lang Bibliothek einbinden.
>
> Es gibt wohl Wörterbücher für Apache Open Office und Libre Office aber
> phonetische Unterstützung anscheinend nicht so richtig. Nochmals danke
> für die Mühe.

Mir sind Elasticsearch, OpenSearch und Apache Solr bekannt, die -- in 
einem begrenzten Umfang -- phonetische Suchen unterstützen, vielleicht 
ist eines dieser Programme etwas für Dich. Alle sind in Java 
geschrieben, für Elastic- und OpenSearch gibt es mit Kibana und 
OpenSearch Dashboards auch recht gute Webfrontends -- ob es so etwas 
aber auch für Solr gibt, weiß ich nicht, weil ich bislang noch nicht 
damit gearbeitet habe.

Alle drei sind extrem mächtige und performante Volltext-Suchmaschinen 
(wobei OpenSearch ein Elasticsearch-Fork von Amazon ist), alle in Java 
geschrieben, und sie können wesentlich mehr als phonetische Suchen. Die 
Mächtigkeit hat jedoch ihren Preis, Elastic- und OpenSearch brauchen 
schon bei kleineren Instanzen durchaus auch mal 4 GB Arbeitsspeicher -- 
aber dafür können sie einfache Suchanfragen auch auf große Datensätze 
zuverlässig in einstelligen Millisekundenbereich beantworten und liegen 
auch bei komplizierteren Suchen mit Levenshtein oder Phonetik meistens 
unter 20 Millisekunden.

Wie man Phonetik und Levenshtein jedoch verbinden kann, ist mir bisher 
noch unbekannt, vielleicht geht da etwas über ein spezialisiertes 
Scoring, aber darauf wetten möchte ich lieber nicht.

von Carypt C. (carypt)


Lesenswert?

ich glaube ich möchte einfach lautverwandte Wörter näher beieinander 
aufgelistet sehen, anders als alphabetisch. Also eine Auflistung nach 
Soundex oä. Es wird wohl nicht viel Mehrwert bringen.

Java habe ich nun als jdk 8, Netbeans und Python installiert und, werde 
aber nun kein Programmieren lernen. Es war eine Frage nach der 
Machbarkeit und ungefähr kenne ich jetzt die Möglichkeiten. reicht 
erstmal, danke

von Sheeva P. (sheevaplug)


Lesenswert?

Carypt C. schrieb:
> ich glaube ich möchte einfach lautverwandte Wörter näher beieinander
> aufgelistet sehen, anders als alphabetisch. Also eine Auflistung nach
> Soundex oä. Es wird wohl nicht viel Mehrwert bringen.

Naja, wie das mit der Lautverwandtschaft geht, siehst Du ja in meinem 
Skript. Hast Du das mal angeschaut oder sogar ausprobiert, läuft es bei 
Dir?

> Java habe ich nun als jdk 8, Netbeans und Python installiert und, werde
> aber nun kein Programmieren lernen.

Ach, keine Sorge, die Basics sind nicht schwer und für ein paar 
phonetische Suchen wirst Du wohl nicht in die Verlegenheit kommen, 
komplexe Algorithmen entwickeln zu müssen. Python ist einfach und mein 
Patensohn arbeitet damit, seit er sieben Jahre alt geworden ist -- er 
hatte sich zum Geburtstag einen Kurs bei mir gewünscht, und natürlich 
hab ich ihm diesen Wunsch erfüllt.

Meinen Erfahrungen zufolge können Kenntnisse in einer Skriptsprache das 
Leben vieler Computerbenutzer oft deutlich erleichtern, besonders, wenn 
sie eigene Ideen haben, wie ja offenbar Du. Aber wenn Du nicht willst, 
auch okay -- ich sag' ja nichts, ich mein' ja nur. Egal: viel Spaß mit 
Deiner Idee, vielleicht findest Du ja eine Lösung. :-)

von ●DesIntegrator ●. (Firma: FULL PALATINSK) (desinfector) Benutzerseite


Angehängte Dateien:

Lesenswert?

Sheeva P. schrieb:
> Lautverwandtschaft

:-]

von Carypt C. (carypt)


Lesenswert?

sheeva, nein, ich habe es noch nicht probiert, mir fehlen dazu einfach 
die grundlagen, ich habe python 3.8 installiert, ich weiß nicht wo es 
aufgeht, ok da ist ein IDLE dabei, da kann man etwas eintippen. wie text 
einbinden, programm darauf ausführen, keine ahnung. ich weiß es nicht 
oder noch nicht. deinen programmcode habe ich mir angesehen. ich muss es 
erst lernen. in den 70iger jahren gab es taschenrechner mit roten 
leuchtenden zahlen. computer kenne ich erst seit 2000. ich habe noch nie 
programmcode geschrieben. es bleibt mal wieder bei der entscheidung java 
python c regex. regex verstehe ich schon. ich danke dir für deine mühe.

ich wollte diesmal nicht visual studio installieren, ich habe gesehen 
wie damit jemand die ausgaben sehen konnte die seine eingaben ge-run-ned 
haben.

: Bearbeitet durch User
von Monk (roehrmond)


Lesenswert?

Python wurde lange Zeit mit einer IDE ausgeliefert, die zum Lernen sehr 
gut geeignet ist. Inzwischen kann man sie einzeln downloaden.
https://www.python-lernen.de/python-idle.htm

Mein Sohn (Teenager) ist damit auf Anhieb zurecht gekommen.

von Carypt C. (carypt)


Lesenswert?

Ok, aha, da ist run mit dabei. Danke

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.