Forum: PC-Programmierung Webseiteninformationen extrahieren

von Julian V. (torten_juli)

12.03.2015 13:38

Lesenswert?

•

Ich möchte für ein kleine Projekt Informationen aus dem Netzt 
weiterverarbeiten. Konkret geht es um Wetterdaten, die ich auf einem 
kleinen Webserver nutzen möchte.
Welche Ansätze gibt es, damit man Informationen aus den Webseiten 
extrahieren kann?
Ein Beispiel:
Ich möchte den Temperatuverlauf für den morgigen Tag. Dazu benötige ich 
für jede Stunde die Temperatur. Natürlich ist diese auf der HTML-Seite 
verteilt. Wie kann ich diese verarbeiten bzw. die Informationen für mich 
nutzen.

Am besten wäre Hinweise, wie so etwas unter Linux mit der Shell gehen 
könnte. Aber auch python oder andere Sachen wären möglich. Was wäre da 
generell zu Empfehlen. Ich probier auch gern was neues aus.

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseiteninformationen extrahieren

von Rufus Τ. F. (rufus)

12.03.2015 13:47

Lesenswert?

•

▲
▼

Es gibt Dienstleister, die solche Daten in einem sinnvoll verarbeitbaren 
Format zur Verfügung stellen, ohne daß man Webseiten auseinanderpflücken 
("screen scraping") muss.

Siehe z.B.
http://www.worldweatheronline.com/api/
(durchaus auch kostenlos)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseiteninformationen extrahieren

von Tom (Gast)

12.03.2015 14:46

Lesenswert?

•

▲
▼

Wenn es scraping sein muss:

> Linux mit der Shell
Ein bash-Script mit curl, grep, sed und viel Zeit sowie Fluchen, wenn 
der Anbieter irgendwann die Seite ändert.

Aus eigener Erfahrung: gleich mit Python und Beautiful Soup (oder einer 
ähnlichen Lösung) anfangen, die nicht auf unterster Textebene die 
Seite zerpflückt. Ab einen gewissen Grad der Komplexität wird die 
schnelle einfache bash-Lösung zur Bremse, weil sich der Hauptteil der 
Entwicklung auf "Wie kann ich bash durch obskure Tricks dazu bringen, X 
zu tun?" verschiebt.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseiteninformationen extrahieren

von Yalu X. (yalu) (Moderator)

12.03.2015 14:59

Lesenswert?

•

▲
▼

In Python kommst du mit den mitgelieferten Bibliotheken mit wenig
Aufwand schon ziemlich weit:

Mit urllib.request kannst du  den HTML-Text einer Webseite einlesen und
mit re per regulärem Ausdruck nach bestimmten Mustern suchen. Falls
reguläre Ausdrücke zu schwach sind, kannst du mit html.parser den
HTML-Text auch syntaktisch analysieren.

Hier ist ein einfaches Beispiel zur Abfrage der aktuellen Temperatur in
Berlin von wetter.com:

from urllib.request import urlopen
from re import search
url      = 'http://www.wetter.com/wetter_aktuell/aktuelles_wetter/deutschland/berlin/DE0001020.html'
pattern  = r'<div class="degree-in" >\s*(\S*)\s*°C\s*</div>'
htmltext = urlopen(url).read().decode('utf-8')
searchresult = search(pattern, htmltext)
if searchresult:
  temp = float(searchresult.group(1).replace(',', '.'))
  print('Aktuelle Temperatur: %.1f °C' % temp)


Diese Methode der Abfrage funktioniert prinzipiell mit jeder Webseite.
Allerdings musst du bei jeder Änderung des Aufbaus der Webseite deine
Software entsprechend anpassen. Diesbezüglich ist die Verwendung eines
APIs, wie von Rufus vorgeschlagen, vorteilhafter.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseiteninformationen extrahieren

von Murkser (Gast)

12.03.2015 15:05

Lesenswert?

•

▲
▼

Python Weather API: https://code.google.com/p/python-weather-api/

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Thread beobachten |

Seitenaufteilung abschalten

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.

Bestehender Account

Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen

Noch kein Account? Hier anmelden.

Kontakt/Impressum – Datenschutzerklärung – Nutzungsbedingungen – Werbung auf Mikrocontroller.net