Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- #!/usr/bin/python
- # coding: utf-8
- import re
- import urllib
- from HTMLParser import HTMLParser
- from converter import unaccentedMap
- down = urllib.urlopen('http://pl.wikipedia.org/wiki/Polska')
- strona = unicode(down.read(), 'utf-8')
- down.close()
- #zamiana polskich znakow np. 'ą' na 'a'
- strona = strona.translate(unaccentedMap())
- strona = HTMLParser().unescape(strona)
- #print strona
- #szukanie akapitow <p>
- wynik = re.compile(r'<p.*?>(.*?)</p>').findall(strona)
- #usuwanie tagow z pozostalych akapitow np. <font>
- wynik = re.sub('<[^>]*>', '', ''.join(wynik))
- #usuwanie przypisow np. [5]
- wynik = re.sub(r'\[.*?\]', '', wynik)
- #print wynik
- with open('bla.txt', 'w') as f:
- f.write(wynik.encode('utf8'))
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement