Textbrowser: Link folgen

von Gerald (Gast)

10.03.2014 23:03

Lesenswert?

•

Hallo,

ich möchte von verschiedenen Webseiten automatisiert Informationen 
auslesen. Dazu möchte ich mir ein shell-Skript schreiben, das auf meinem 
Raspberry läuft und regelmäßig ausgeführt wird. Dieses soll die 
Webseiten mit dem Textbrowser W3M aufrufen und entsprechende Passagen an 
mich per Mail senden.


Leider ist auf manchen Webseiten die gewünschte Information nie unter 
einer festen Adresse erreichbar, sondern man muss ein bis zwei Links 
klicken. Man kann mit "grep" die Zeile mit dem Link suchen, aber wie 
kann man diesem dann automatisiert folgen?

Danke!

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Textbrowser: Link folgen

von Philip K. (philip_k)

10.03.2014 23:11

Lesenswert?

•

▲
▼

wget?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Textbrowser: Link folgen

von kopfkratzer (Gast)

10.03.2014 23:14

Lesenswert?

•

▲
▼

kopfkratz
Ja und wo liegt nun das Problem ?
Du parst die HTML Tags nach Deinem Stichwort und wenn da ein Link 
auftaucht machst Du damit eine Rekursion bis Du am gewünschten Dokument 
bist.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Textbrowser: Link folgen

von wurst (Gast)

10.03.2014 23:17

Lesenswert?

•

▲
▼

rss geht nicht?

inwiefern muss man 1-2mal klicken? ist das mit javascript o.ä. gelöst?

ansonsten kann ich meinem vorredner zustimmen: wget mit --mirror option 
oder rekursion einschränken

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Textbrowser: Link folgen

von kopfkratzer (Gast)

10.03.2014 23:28

Lesenswert?

•

▲
▼

wurst schrieb:
> rss geht nicht?
>
> inwiefern muss man 1-2mal klicken? ist das mit javascript o.ä. gelöst?
>
> ansonsten kann ich meinem vorredner zustimmen: wget mit --mirror option
> oder rekursion einschränken

Er will ja nicht alles herunterladen sondern eine bestimmte Info in 
einem HTML Dokument finden.
Oder habe ich da was falsch verstanden ?
OK wget in grep umleiten geht auch, fragt sich nur wie man da dann einen 
bestimmten Textteil finden und mailen kann ?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Textbrowser: Link folgen

von Gerald (Gast)

10.03.2014 23:43

Lesenswert?

•

▲
▼

Ich bin da nicht so erfahren...


Habe jetzt wget -r -l1 ausgeführt und mir so ca 10 Dateien 
runtergeladen. Wirklich weitergekommen bin ich dadurch nicht.

@kopfkratzer: genau so soll es sein..
Kannst Du mir Deinen Tipp nochmal etwas genauer erläutern? Danke!

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Textbrowser: Link folgen

von Dieter (Gast)

11.03.2014 08:28

Lesenswert?

•

▲
▼

Hallo Gerald,

wget ist eine nettes Tool, aber ich glaube das was Du brauchst ist Perl 
mit dem Modul WWW::Mechanize.
Das Modul ist richtig nett, ich selbst hole damit meine digitale Version 
der Tageszeitung aus dem Netz und sende sie mir per eMail zu. Die 
Webseite der Tageszeitung sowie das App sind eine Zumutung. Dafür wird 
eine https-Verbindung inkl. Login problemlos mit WWW::Mechanize 
aufgebaut, die richtigen Links gesucht und danach runtergeladen.
Das ganze Skript hat 75 Zeilen! Der Versand erfolgt danach mit dem Perl 
Skript smtp-cli per eMail.
Das alles läuft nachts um 5:30h auf meinem Raspberry und morgens auf dem 
Weg zur Arbeit lese ich in Ruhe meine eMails.

Hier die wichtigen Links:

http://www.linux-magazin.de/Ausgaben/2004/03/Datenruessel
http://www.logix.cz/michal/devel/smtp-cli/

Dieter

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Textbrowser: Link folgen

von Jörg W. (dl8dtl) (Moderator)

11.03.2014 09:00

Lesenswert?

•

▲
▼

WWW::Mechanize kannte ich noch nicht, habe aber schon ähnliches mit
den normalen Perl-Modulen gebaut (HTTP::Request, HTML::TokeParser,
LWP::UserAgent).

Finde ich auch sinnvoller, als zu versuchen, einen w3m zu 
automatisieren.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Textbrowser: Link folgen

von Dieter (Gast)

11.03.2014 09:04

Lesenswert?

•

▲
▼

in dem von mir genannten Link wird auch beschrieben wie einfach es es 
mit dem Perl Modul WWW::Mechanize::Shell die Website von einer Shell zu 
bedienen und daraus später dann ein WWW::Mechanize kompatibles Skript zu 
erstellen.
Das geht erstaunlich gut.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Textbrowser: Link folgen

von Dieter (Gast)

11.03.2014 09:10

Lesenswert?

•

▲
▼

Hier mal ein Simples Beispiel für alle Interessierten:

#!/usr/bin/perl -w
#use strict;
use WWW::Mechanize;
use WWW::Mechanize::FormFiller;
use URI::URL;
#use Date::Calc qw(Today);
use Date::Calc qw(Today Day_of_Week Decode_Month
                   Add_Delta_YMD Date_to_Days);
# Titel der einzelnen PDF-Teilausgaben
# Achtung es sind nicht an jedem Wochentag alle Teile erhältlich, daher wird weiter unten eine
# Schnittmenge zwischen diesem Array und den wirklich erhältlichen Zeitungen gebildet.
my @Daten = ("Hauptzeitung", "Lokalteil", "Stellenmarkt", "Immobilien", "Lokalteil 2");
my $zeitung;
my ($year, $month, $day) = Today();
my $file2 = sprintf("_%02d_%02d_%d", $day, $month, $year);                   
my $agent = WWW::Mechanize->new( autocheck => 1 );
my $formfiller = WWW::Mechanize::FormFiller->new();
$agent->agent('User-Agent=Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.5; en-US; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.7');
$agent->env_proxy();
  $agent->get('https://login.musterzeitung');
  $agent->form_number(1) if $agent->forms and scalar @{$agent->forms};
  $agent->form_number(2);
  $formfiller->add_filler( 'inputLogin' => Fixed => 'mustermann' );
  $formfiller->add_filler( 'inputPass' => Fixed => 'mussermannPassword' );     
  $formfiller->fill_form($agent->current_form);
  $agent->submit();
  $agent->follow_link('n' => 1);
  $agent->follow_link('n' => 2);
  # Debug
  $agent->save_content('out.html');
  # End/Debug
  # Suche den Link mit der Beschriftung 'Download der Zeitung'
  $agent->follow_link('text_regex' => qr((?^:Download der Zeitung)));
# Linkstext abspeichern
my @Alpha;
@Alpha = $agent->links();
my $x = WWW::Mechanize::Link->new();
my @List;
foreach $x (@Alpha)
  push(@List,$x->text());
# Schnittmenge beider Listen finden
my ($el, $el2);
foreach $el (@List) {
    foreach $el2 (@Daten) {
        if (defined $el2 &&  $el =~ /^\Q$el2/ ) {
            #print "gefunden\n";
            push(@final,$el2);
            undef $el2;
            last;
# Download Zeitung 
foreach $zeitung(@final)
  # Debug
  $agent->save_content('out.html');
  # End/Debug
  # Zeitung suchen
  $agent->find_link('text_regex' => qr((?^:$zeitung)));
  if ($agent->success()) {
    # den Link folgen
    $agent->follow_link('text_regex' => qr((?^:$zeitung)));
  # und als PDF speichern
    $agent->save_content($zeitung.$file2.'.pdf', binmode => ':raw');
    print "$zeitung geladen\n";
    print $zeitung.$file2. ".pdf geschrieben\n";
  # wieder zurück
    $agent->back();
  } else {
    print "$zeitung nicht gefunden";

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Textbrowser: Link folgen

von Gerald (Gast)

11.03.2014 23:07

Lesenswert?

•

▲
▼

Danke Dieter!

Ich werd's mal versuchen!

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Textbrowser: Link folgen

von Dieter (Gast)

19.03.2014 08:08

Lesenswert?

•

▲
▼

und schon Erfolge aufzuweisen?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Textbrowser: Link folgen

von Gerald (Gast)

20.03.2014 20:32

Lesenswert?

•

▲
▼

Nein,

ich tu mir noch schwer - habe noch nie perl programmiert... :-)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Textbrowser: Link folgen

von Jörg W. (dl8dtl) (Moderator)

21.03.2014 10:05

Lesenswert?

•

▲
▼

Wenn es kein Geheimnis ist, dann poste doch mal ein Beispiel einer
solchen Webseite und dessen, was du gern daraus extrahieren möchtest.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Textbrowser: Link folgen

von Gerald (Gast)

21.03.2014 20:40

Lesenswert?

•

▲
▼

Nö, ist kein Geheimnis. Ich möchte wöchentlich die Gewinnzahlen der 
AktionMensch Lotterie schicken lassen.

www.aktion-mensch.de  -->  Lotterie --> Alle Gewinnzahlen

Die Adresse der Seite ist ein zufälliger Code, der sich immer ändert - 
warum auch immer.



Momentan hänge ich aber bei der Installation der CPAN Module. Mein 
Raspberry installiert da schon seit Stunden rum...

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Textbrowser: Link folgen

von Rolf Magnus (Gast)

21.03.2014 21:03

Lesenswert?

•

▲
▼

Gerald schrieb:
> Die Adresse der Seite ist ein zufälliger Code, der sich immer ändert -
> warum auch immer.

Da ist eine Session-ID drin. Aber die kannst du auch weglassen:
https://www.aktion-mensch.de/co/am/pls/lotterie/am.controller?p_seite=service_gewinnzahlen

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Textbrowser: Link folgen

von Gerald (Gast)

21.03.2014 21:13

Lesenswert?

•

▲
▼

Na toll...

..jetzt muss ich mir ien anderes Feierabendprojekt suchen... ;-)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Forum: PC-Programmierung Textbrowser: Link folgen