Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- import re
- import sys
- import itertools
- import wykop
- import yaml
- # Dane do wykop API zapisane w pliku secrets.yml
- with open('secrets.yml') as fp:
- data = yaml.load(fp)
- api = wykop.WykopAPI(data['APP_KEY'], data['APP_SECRET'])
- # Pobranie wszystkich stron które zwracają jakieś wyniki (było ich chyba 46)
- for i in itertools.count(1):
- pasta = api.tag('pasta', page=i)
- print("#pasta strona", i)
- # jeśli nie ma już past, przerywamy
- if not pasta['items']:
- break
- # odfiltrowujemy linki i łączymy je w jeden wielki string
- text = "\n\n".join(item['body'] for item in pasta['items'] if item['type'] == 'entry')
- # zamieniamy " na "
- text = text.replace('"', '"')
- # zamieniamy html-owy znak nowej linii na normalny
- text = text.replace('<br />', '\n')
- # usuwamy trochę podwójnych znaków nowej lini, by wygenerowana pasta ich za dużo nie miała
- text = text.replace('\n\n', '\n')
- # usuwamy tagi <a href z tagów
- text = re.sub(r'#<a href="#\w+">(?P<tag>\w+)</a>', lambda match: "#{}".format(match.groups()[0]), text)
- # usuwamy inne htmlowe tagi
- text = re.sub(r'<\w+/?>', '', text)
- text = re.sub(r'<\w+/? class="\w+">', '', text)
- # wynik strony zapisujemy do pliku
- with open(sys.argv[1], 'a') as fp:
- fp.write(text)
- print("zapisane do pliku:", sys.argv[1])
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement