Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- import os
- import sys
- import re
- def read_text_from_file(file_path):
- """
- Aceasta functie returneaza continutul unui fisier.
- file_path: calea catre fisierul din care vrei sa citesti
- """
- with open(file_path, 'r') as f:
- #with open(file_path, 'r', encoding='UTF-8') as file:
- text = f.read()
- return text
- def write_to_file(text, file_path):
- """
- Aceasta functie scrie un text intr-un fisier.
- text: textul pe care vrei sa il scrii
- file_path: calea catre fisierul in care vrei sa scrii
- """
- with open(file_path, 'w') as f:
- f.write(text)
- if __name__ == '__main__':
- # setezi fisierul din care vrei sa citesti textul
- file_path = 'c:\Folder1\bebe.txt'
- # citesti textul din fisier
- text = read_text_from_file(file_path)
- # aici e pattern-ul pentru expresia regex; (.*?) inseamna ca preia tot ce este intre tag-uri
- pattern = re.compile('<p class=\".*?\">(.*?)</p>')
- # aici se face match - se cauta potriviri in text cu pattern-ul dat
- m = pattern.match(text)
- # se salveaza textul dintre tag-uri in variabila text_tag; group(1) inseamna ca se ia primul grup gasit in text
- # in cazul nostru (.*?) este primul grup gasit
- # group(0) este tot textul
- text_tag = str(m.group(1))
- # strip taie toate spatiile de la inceputul si finalul text-ului
- new_text = text_tag.strip()
- # facem split la text dupa spatiu si apoi unim cuvintele gasite printr-un singur spatiu
- new_text = " ".join(new_text.split())
- # textul nou va fi textul initial, dar care are textul dintre tag-uri inlocuit cu textul prelucrat
- text = text.replace(text_tag, new_text)
- # la final suprascriem continutul initial al fisierului cu noul continut
- write_to_file(text, file_path)
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement