ngramSUPER.py

#!/usr/bin/python
# coding: utf-8

import re
import urllib
from HTMLParser import HTMLParser
from converter import unaccentedMap

down = urllib.urlopen('http://pl.wikipedia.org/wiki/Polska')
strona = unicode(down.read(), 'utf-8')
down.close()
#zamiana polskich znakow np. 'ą' na 'a'
strona = strona.translate(unaccentedMap())
strona = HTMLParser().unescape(strona)
#print strona
#szukanie akapitow <p>
wynik = re.compile(r'<p.*?>(.*?)</p>').findall(strona)
#usuwanie tagow z pozostalych akapitow np. <font>
wynik = re.sub('<[^>]*>', '', ''.join(wynik))
#usuwanie przypisow np. [5]
wynik = re.sub(r'\[.*?\]', '', wynik)
#print wynik
with open('bla.txt', 'w') as f:
    f.write(wynik.encode('utf8'))