Hallo zusammen Ich suche nach einer Lösung, Dokumente auf einem Server über ein Webinterface zu durchsuchen. Ich bin bei meiner Recherche auf Datafari gestossen. Leider erfüllt dies nicht gänzlich meine Bedürfnisse. Idealerweise würde meine Lösung die Dokumente mit einem Cronjob auf dem Linuxserver indexieren und dann über ein Webinterface zugänglich machen. Kennt da jemand etwas passendes? Quasi Googlesuche für Dokumente auf dem Server Danke.
:
Bearbeitet durch User
Holger K. schrieb: > Kennt da jemand etwas passendes? > > Quasi Googlesuche für Dokumente auf dem Server > > Danke. Nicht direkt... Tracker, Recoll oder Catfish auf dem Server laufen lassen und dazu einen kleinen bspw. Python-Web-Server basteln, der die Nutzeranfragen entgegennimmt.
Arc N. schrieb: > Holger K. schrieb: >> Kennt da jemand etwas passendes? >> >> Quasi Googlesuche für Dokumente auf dem Server >> >> Danke. > > Nicht direkt... > Tracker, Recoll oder Catfish auf dem Server laufen lassen und dazu einen > kleinen bspw. Python-Web-Server basteln, der die Nutzeranfragen > entgegennimmt. Danke für deinen Input. Werde ich mir mal anschauen. Auf dem Server läuft zurzeit Apache mit mysql und php. Würde vermutlich dann diese beiden nutzen.
Holger K. schrieb: > Quasi Googlesuche für Dokumente auf dem Server In der Steinzeit der Suchmaschinen gabs mal eine "personal" Version einer Suchsoftware, ich erinnere mich leider nicht mehr von welcher. Ich habe die auf Firmenservern eingesetzt zur Dokumentenverwaltung, und das hat auch gut funktioniert. Die heutige Google-Software dürfte auf deinem Server wohl nicht mehr laufen, da bräuchtest du schon eine Halle voll Server, und alle heutigen Suchmaschinen sind sowieso geschützte Firmengeheimnisse. Georg
Georg schrieb: > heutige Google-Software dürfte auf deinem > Server wohl nicht mehr laufen Das vielleicht nicht, aber Du kannst ja Google selbst Deinen Server durchsuchen lassen. Macht mikrocontroller.net doch auch, wenn Du was in die Suchleiste auf der Startseite eingibst.
Michael J. schrieb: > Georg schrieb: >> heutige Google-Software dürfte auf deinem >> Server wohl nicht mehr laufen > > Das vielleicht nicht, aber Du kannst ja Google selbst Deinen Server > durchsuchen lassen. Macht mikrocontroller.net doch auch, wenn Du was in > die Suchleiste auf der Startseite eingibst. Das geht leider nicht. Es handelt sich ja um lokale dateien. Welche nicht im WWW erreichbar sind
Das Problem mit Dokumentenverwaltungen sind doch schon die Dateiformate. Ohne einen Disassembemler, der Datenformate versteht versinkt eine Selbstbausuchmaschine im Muell. Wie erkennt man den content eines Excel, wie erkennt man den content eines pdf, wie erkennt man den content eines Word-docs? Teilweise ist 90% Muell. Man kann natuerlich einen Suchbaum aufbauen, der den Muell auch enthaelt. Oder sich bei einem Muellfilter vertun. Sicher ein sehr interessantes Projekt. Ich wuerd eher zu jedem Dokument ein kleines Abstract schreiben. Was sich natuerlich auf vielleicht 1000 Dokumente beschraenken muss.
Für das oben schon erwähnte Recoll gibt es ein Webfrontend: https://github.com/koniu/recoll-webui https://de.wikipedia.org/wiki/Apache_Lucene @Oh Doch: Das schöne ist ja, dass die von Dir angesprochenen Probleme schon (mehrfach) gelöst wurden :-)
Oh D. schrieb: > Das Problem mit Dokumentenverwaltungen sind doch schon die Dateiformate. > Ohne einen Disassembemler, der Datenformate versteht versinkt eine > Selbstbausuchmaschine im Muell. Wie erkennt man den content eines Excel, > wie erkennt man den content eines pdf, wie erkennt man den content eines > Word-docs? Teilweise ist 90% Muell. Man kann natuerlich einen Suchbaum > aufbauen, der den Muell auch enthaelt. Oder sich bei einem Muellfilter > vertun. Ein Teil der Formate die Tracker kennt: MS Word, Excel, Powerpoint, Abiword, Postscript, PDF, DVI, epub, XPS, HTML, OGG, MP3, OpenDocument, RTF. Rest siehe https://wiki.gnome.org/Projects/Tracker/SupportedFormats Recoll ist da ähnlich http://www.lesbonscomptes.com/recoll/features.html#doctypes Windows ebenso, da muss nur der passende IFilter 1) vorhanden sein, der das entsprechende Format auseinandernimmt 1) https://msdn.microsoft.com/de-de/library/ms691105%28v=vs.85%29.aspx
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.