Advertisement
lewapkon

ngramSUPER.py

Feb 20th, 2014
162
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
Python 0.71 KB | None | 0 0
  1. #!/usr/bin/python
  2. # coding: utf-8
  3.  
  4. import re
  5. import urllib
  6. from HTMLParser import HTMLParser
  7. from converter import unaccentedMap
  8.  
  9. down = urllib.urlopen('http://pl.wikipedia.org/wiki/Polska')
  10. strona = unicode(down.read(), 'utf-8')
  11. down.close()
  12. #zamiana polskich znakow np. 'ą' na 'a'
  13. strona = strona.translate(unaccentedMap())
  14. strona = HTMLParser().unescape(strona)
  15. #print strona
  16. #szukanie akapitow <p>
  17. wynik = re.compile(r'<p.*?>(.*?)</p>').findall(strona)
  18. #usuwanie tagow z pozostalych akapitow np. <font>
  19. wynik = re.sub('<[^>]*>', '', ''.join(wynik))
  20. #usuwanie przypisow np. [5]
  21. wynik = re.sub(r'\[.*?\]', '', wynik)
  22. #print wynik
  23. with open('bla.txt', 'w') as f:
  24.     f.write(wynik.encode('utf8'))
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement