Advertisement
Guest User

Untitled

a guest
May 27th, 2018
75
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
Python 1.19 KB | None | 0 0
  1. #urllib importálása
  2. import urllib.request, urllib.parse, urllib.error
  3.  
  4. #megkeresem azokat a linkeket, amiken először végig akarok iterálni
  5. nagyurl = 'http://www.darwinawards.com/darwin/'
  6. nagydarwin = urllib.request.urlopen(nagyurl).read().decode('utf-8')
  7. nagydarwin_resz = nagydarwin.split('" target="_top"><B>')
  8. #len(nagydarwin_resz)
  9.  
  10. #mindegyiknek a legvégén van az a link, ami nekem kell
  11. nagylinklista = list()
  12. for i in nagydarwin_resz[0:len(nagydarwin_resz)-1]:
  13.     nagylink = nagyurl+i[i.rfind('<A href="')+len(('<A href="')):]
  14.     nagylinklista.append(nagylink)
  15. print(nagylinklista)
  16.  
  17. linklista = list()  
  18. for i in nagylinklista
  19.     #megkeresem ezeken belül azokat a linkeket, amikről az adatot (sztorikat) szeretném kigyűjteni
  20.     kisurl = i
  21.     kishtml = urllib.request.urlopen(kisurl)
  22.     kisdarwin = kishtml.read().decode('utf-8')
  23.     kisdarwin_reszek = kisdarwin.split('<P><A href="darwin')
  24.     len(kisdarwin_reszek)
  25.     #az első rész mindig mindent tartalmaz, ami az első cím előtt van, tehát az nem kell nekem    
  26.     for i in kisdarwin_reszek[1:]:
  27.         kislink = kisurl[:len(kisurl)-9] + j[:j.find('">')]
  28.         linklista.append(kislink)
  29. print(linklista)
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement