Forum: PC-Programmierung Python Hyperlink extrahieren

von Jochen (Gast)

05.10.2016 22:21

Lesenswert?

•

Hi,

wie kann ich in meinem Beispiel den herausgesuchten Link darstellen?

import codecs
from bs4 import BeautifulSoup 
from urllib.request import urlopen
from tkinter.filedialog import askopenfilename
name = askopenfilename(filetypes =(("Import File", "*.txt"),("All Files","*.*")),title = "")
f = codecs.open(name, encoding='utf-8')
file_names = []
for file_name in f.readlines():
    file_name = file_name.strip()
    if ',' in file_name:
        for f in file_name.split(','):
            file_names.append(f)
    else:
        file_names.append(file_name)
    URL = BeautifulSoup (urlopen(file_name), "html.parser")  
    result = URL.findAll('a', h ref=True, text='Hinweise')
    print (result)


Jetzt wird das aktuell so angezeigt:
[<a h ref="mikrocontroller.net/">Hinweise</ a>]

P.S.:
Wegen dem Forum Spam Filter musste ich

h ref

 das Leerzeichen einfügen. Da ist normal kein Leerzeichen enthalten

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Python Hyperlink extrahieren

von Tom (Gast)

06.10.2016 08:07

Lesenswert?

•

▲
▼

https://www.crummy.com/software/BeautifulSoup/bs4/doc/
"One common task is extracting all the URLs found within a page’s <a> 
tags:"

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Python Hyperlink extrahieren

von c.m. (Gast)

06.10.2016 08:13

Lesenswert?

•

▲
▼

kann python regex?

wget -qO - 'https://www.mikrocontroller.net/topic/408425#new' | perl -ne 'print "$1\n" if /h ref="(.+?)"/'
/assets/screen-25aeb641e7e36168d501aeefd29f1c157a8c7da8742b07c3f149cdd6b944c7b6.css
/assets/print-6a10251861e8c43ce72044862fabaf8065abdfa2c1879af13ac74a64f19d2f67.css
/favicon.ico
http://www.mikrocontroller.net/topic/408425
/newsfeed
/feed/global
/feed/forum/8
/feed/topic/408425
/searchplugin.xml
//code.jquery.com/ui/1.10.3/themes/smoothness/jquery-ui.css
/articles/AVR
/articles/ARM


"h ref" auch hier mit spam-lmaa

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Python Hyperlink extrahieren

von Joachim S. (oyo)

06.10.2016 08:36

Lesenswert?

•

▲
▼

Ich habe mit diesem BeautifulSoup zwar keine Erfahrung, aber der Doku 
nach (https://www.crummy.com/software/BeautifulSoup/bs4/doc/) würde ich 
vermuten, dass es so gehen müsste:

URL = BeautifulSoup (urlopen(file_name), "html.parser")
    result = URL.findAll('a', h ref=True, text='Hinweise')
    print (result[0].get('href'))

bzw. so, falls mehrere passende URLs enthalten sein können:

URL = BeautifulSoup (urlopen(file_name), "html.parser")
    results = URL.findAll('a', h ref=True, text='Hinweise')
    for result in results:
        print (result.get('href'))

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Thread beobachten |

Seitenaufteilung abschalten

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.

Bestehender Account

Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen

Noch kein Account? Hier anmelden.

Kontakt/Impressum – Datenschutzerklärung – Nutzungsbedingungen – Werbung auf Mikrocontroller.net