Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- #urllib importálása
- import urllib.request, urllib.parse, urllib.error
- #megkeresem azokat a linkeket, amiken először végig akarok iterálni
- nagyurl = 'http://www.darwinawards.com/darwin/'
- nagydarwin = urllib.request.urlopen(nagyurl).read().decode('utf-8')
- nagydarwin_resz = nagydarwin.split('" target="_top"><B>')
- #len(nagydarwin_resz)
- #mindegyiknek a legvégén van az a link, ami nekem kell
- nagylinklista = list()
- for i in nagydarwin_resz[0:len(nagydarwin_resz)-1]:
- nagylink = nagyurl+i[i.rfind('<A href="')+len(('<A href="')):]
- nagylinklista.append(nagylink)
- print(nagylinklista)
- linklista = list()
- for i in nagylinklista
- #megkeresem ezeken belül azokat a linkeket, amikről az adatot (sztorikat) szeretném kigyűjteni
- kisurl = i
- kishtml = urllib.request.urlopen(kisurl)
- kisdarwin = kishtml.read().decode('utf-8')
- kisdarwin_reszek = kisdarwin.split('<P><A href="darwin')
- len(kisdarwin_reszek)
- #az első rész mindig mindent tartalmaz, ami az első cím előtt van, tehát az nem kell nekem
- for i in kisdarwin_reszek[1:]:
- kislink = kisurl[:len(kisurl)-9] + j[:j.find('">')]
- linklista.append(kislink)
- print(linklista)
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement