Forum: PC-Programmierung Dokumentensuche ala Google für eigenen Server


von Holger K. (holgerkraehe)


Lesenswert?

Hallo zusammen

Ich suche nach einer Lösung, Dokumente auf einem Server über ein 
Webinterface zu durchsuchen.

Ich bin bei meiner Recherche auf Datafari gestossen.
Leider erfüllt dies nicht gänzlich meine Bedürfnisse.

Idealerweise würde meine Lösung die Dokumente mit einem Cronjob auf dem 
Linuxserver indexieren und dann über ein Webinterface zugänglich machen.

Kennt da jemand etwas passendes?

Quasi Googlesuche für Dokumente auf dem Server

Danke.

: Bearbeitet durch User
von Arc N. (arc)


Lesenswert?

Holger K. schrieb:
> Kennt da jemand etwas passendes?
>
> Quasi Googlesuche für Dokumente auf dem Server
>
> Danke.

Nicht direkt...
Tracker, Recoll oder Catfish auf dem Server laufen lassen und dazu einen 
kleinen bspw. Python-Web-Server basteln, der die Nutzeranfragen 
entgegennimmt.

von Holger K. (holgerkraehe)


Lesenswert?

Arc N. schrieb:
> Holger K. schrieb:
>> Kennt da jemand etwas passendes?
>>
>> Quasi Googlesuche für Dokumente auf dem Server
>>
>> Danke.
>
> Nicht direkt...
> Tracker, Recoll oder Catfish auf dem Server laufen lassen und dazu einen
> kleinen bspw. Python-Web-Server basteln, der die Nutzeranfragen
> entgegennimmt.

Danke für deinen Input.
Werde ich mir mal anschauen.

Auf dem Server läuft zurzeit Apache mit mysql und php.
Würde vermutlich dann diese beiden nutzen.

von Georg (Gast)


Lesenswert?

Holger K. schrieb:
> Quasi Googlesuche für Dokumente auf dem Server

In der Steinzeit der Suchmaschinen gabs mal eine "personal" Version 
einer Suchsoftware, ich erinnere mich leider nicht mehr von welcher. Ich 
habe die auf Firmenservern eingesetzt zur Dokumentenverwaltung, und das 
hat auch gut funktioniert. Die heutige Google-Software dürfte auf deinem 
Server wohl nicht mehr laufen, da bräuchtest du schon eine Halle voll 
Server, und alle heutigen Suchmaschinen sind sowieso geschützte 
Firmengeheimnisse.

Georg

von Michael J. (Gast)


Lesenswert?

Georg schrieb:
> heutige Google-Software dürfte auf deinem
> Server wohl nicht mehr laufen

Das vielleicht nicht, aber Du kannst ja Google selbst Deinen Server 
durchsuchen lassen. Macht mikrocontroller.net doch auch, wenn Du was in 
die Suchleiste auf der Startseite eingibst.

von Holger K. (holgerkraehe)


Lesenswert?

Michael J. schrieb:
> Georg schrieb:
>> heutige Google-Software dürfte auf deinem
>> Server wohl nicht mehr laufen
>
> Das vielleicht nicht, aber Du kannst ja Google selbst Deinen Server
> durchsuchen lassen. Macht mikrocontroller.net doch auch, wenn Du was in
> die Suchleiste auf der Startseite eingibst.

Das geht leider nicht.
Es handelt sich ja um lokale dateien.
Welche nicht im WWW erreichbar sind

von Pandur S. (jetztnicht)


Lesenswert?

Das Problem mit Dokumentenverwaltungen sind doch schon die Dateiformate. 
Ohne einen Disassembemler, der Datenformate versteht versinkt eine 
Selbstbausuchmaschine im Muell. Wie erkennt man den content eines Excel, 
wie erkennt man den content eines pdf, wie erkennt man den content eines 
Word-docs? Teilweise ist 90% Muell. Man kann natuerlich einen Suchbaum 
aufbauen, der den Muell auch enthaelt. Oder sich bei einem Muellfilter 
vertun.

Sicher ein sehr interessantes Projekt.

Ich wuerd eher zu jedem Dokument ein kleines Abstract schreiben. Was 
sich natuerlich auf vielleicht 1000 Dokumente beschraenken muss.

von Ich (Gast)


Lesenswert?

Für das oben schon erwähnte Recoll gibt es ein Webfrontend: 
https://github.com/koniu/recoll-webui

https://de.wikipedia.org/wiki/Apache_Lucene

@Oh Doch: Das schöne ist ja, dass die von Dir angesprochenen Probleme 
schon (mehrfach) gelöst wurden :-)

von Arc N. (arc)


Lesenswert?

Oh D. schrieb:
> Das Problem mit Dokumentenverwaltungen sind doch schon die Dateiformate.
> Ohne einen Disassembemler, der Datenformate versteht versinkt eine
> Selbstbausuchmaschine im Muell. Wie erkennt man den content eines Excel,
> wie erkennt man den content eines pdf, wie erkennt man den content eines
> Word-docs? Teilweise ist 90% Muell. Man kann natuerlich einen Suchbaum
> aufbauen, der den Muell auch enthaelt. Oder sich bei einem Muellfilter
> vertun.

Ein Teil der Formate die Tracker kennt:
MS Word, Excel, Powerpoint, Abiword, Postscript, PDF, DVI, epub, XPS, 
HTML, OGG, MP3, OpenDocument, RTF. Rest siehe
https://wiki.gnome.org/Projects/Tracker/SupportedFormats
Recoll ist da ähnlich
http://www.lesbonscomptes.com/recoll/features.html#doctypes
Windows ebenso, da muss nur der passende IFilter 1) vorhanden sein, der 
das entsprechende Format auseinandernimmt

1) https://msdn.microsoft.com/de-de/library/ms691105%28v=vs.85%29.aspx

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.