html tags convert to pdf

from fpdf import fpdf, html
from fpdf import FPDF
import os
import re

from PyPDF2 import PdfFileMerger

dict_simboluri = {
    '&#259;': 'ă',
    '&#226;': 'â',
    '&atilde;': 'ã',
    '&acirc;': 'â',
    '&#x103;': 'ă',
    '&#xE2;': 'a',
    ' ': ' ',
    '&icirc;': 'î',
    '&#206;': 'Î',
    '&#238;': 'î',
    '&#xEE;': 'î',
    '&#xCE;': 'Î',
    '&#536;': 'Ș',
    '&#537;': 'ș',
    '&#350;': 'Ş',
    '&#x219;': 'ș',
    '&#351;': 'ș',
    '&nbsp;': ' ',
    '&#539;': 'ț',
    '&#355;': 'ț',
    '&#354;': 'Ţ',
    '&#x21B;': 'ț',
    '&#355;': 'ț',
    '&ldquo;': '"',
    '&rdquo;': '"',
    '&amp;': ''
}

class PDF(FPDF):
    def set_pdf_title(self, file_path):
        title = ''  # Inițializează titlul cu un șir vid

        with open(file_path, 'r', encoding='utf-8') as file:
            file_content = file.read()

        title_match = re.search('<title>(.*?) \|', file_content)
        if title_match:
            title = title_match.group(1).strip()

        if title:  # Verifică dacă s-a găsit un titlu
            self.set_font('Kanit', 'B', 12)
            self.cell(0, 10, f'Articole {title}', 0, 1, 'C')
        else:
            self.set_font('Kanit', 'B', 12)
            self.cell(0, 10, 'Articole', 0, 1, 'C')

    def header(self):
        self.set_pdf_title(self.file_path)

    def chapter_title(self, title):
        self.set_font('Kanit', 'B', 14)  # dimensiune 14, stil bold
        self.set_text_color(204, 0, 0)  # rosu pentru titlu
        self.cell(0, 10, title, 0, 1, 'L')
        self.set_text_color(0, 0, 0)  # resetează culoarea la negru

    def chapter_date(self, date):
        self.set_font('Kanit', '', 12)  # dimensiune 12, stil normal
        self.cell(0, 10, date, 0, 1, 'L')

    def chapter_body(self, lead):
        self.set_font('Kanit', '', 12)  # dimensiune 12, stil normal
        self.cell(0, 10, lead, 0, 1, 'L')

    def add_link(self, link):
        self.set_font('Kanit', '', 12)  # dimensiune 12, stil normal
        self.set_text_color(0, 0, 255)  # albastru pentru link
        self.cell(0, 10, 'Link: ' + link, 0, 1, 'L', link=link)
        self.set_text_color(0, 0, 0)  # resetează culoarea la negru

# ...

def save_to_pdf(directory_path):
    for root, dirs, files in os.walk(directory_path):
        for file_name in files:
            file_path = os.path.join(root, file_name)
            if file_name.endswith(".html"):
                try:
                    with open(file_path, 'r', encoding='utf-8') as file:
                        file_content = file.read()
                except UnicodeDecodeError:
                    with open(file_path, 'r', encoding='latin-1') as file:
                        file_content = file.read()

                if '<!-- ARTICOL CATEGORIE START -->' in file_content:
                    # creare fisier PDF
                    pdf = PDF()
                    pdf.set_auto_page_break(auto=True, margin=15)
                    pdf.add_font("Kanit", fname="e:/Carte/BB/17 - Site Leadership/alte/Ionel Balauta/Aryeht/Task 1 - Traduce tot site-ul/Doar Google Web/Andreea/Meditatii/Sedinta 20 august 2022/fonts/Kanit-Regular.ttf")
                    pdf.add_font("Kanit", style="B", fname="e:/Carte/BB/17 - Site Leadership/alte/Ionel Balauta/Aryeht/Task 1 - Traduce tot site-ul/Doar Google Web/Andreea/Meditatii/Sedinta 20 august 2022/fonts/Kanit-Bold.ttf")
                    pdf.add_font("Kanit", style="I", fname="e:/Carte/BB/17 - Site Leadership/alte/Ionel Balauta/Aryeht/Task 1 - Traduce tot site-ul/Doar Google Web/Andreea/Meditatii/Sedinta 20 august 2022/fonts/Kanit-Italic.ttf")
                    pdf.add_font("Kanit", style="BI", fname="e:/Carte/BB/17 - Site Leadership/alte/Ionel Balauta/Aryeht/Task 1 - Traduce tot site-ul/Doar Google Web/Andreea/Meditatii/Sedinta 20 august 2022/fonts/Kanit-BoldItalic.ttf")

                    pdf.set_font("Kanit", size=12)
                    pdf.file_path = file_path  # Setează calea fișierului curent

                    # Preluare titluri
                    titluri_articole = re.findall('class="linkMare">(.*?)</a></span>', file_content)
                    if not titluri_articole:
                        print(f"Nu s-au găsit titluri în fișierul {file_path}.")
                        continue

                    # Preluare date
                    date_articole = re.findall('<td class="text_dreapta">(.*?), in <a href="', file_content)
                    if not date_articole:
                        print(f"Nu s-au găsit date în fișierul {file_path}.")
                        continue

                    # Preluare leads
                    leads_articole = re.findall('<p class="text_obisnuit2"><em>(.*?)</em></p>', file_content)
                    if not leads_articole:
                        print(f"Nu s-au găsit lead-uri în fișierul {file_path}.")
                        continue

                    # Preluare linkuri
                    linkuri_articole = re.findall('id="external2"><a href="(.*)">read more', file_content)
                    if not linkuri_articole:
                        print(f"Nu s-au găsit linkuri în fișierul {file_path}.")
                        continue

                    if len(titluri_articole) == len(date_articole) == len(leads_articole) == len(linkuri_articole):
                        pdf.add_page()

                        for i in range(len(titluri_articole)):
                            titlu_articol = titluri_articole[i]
                            # ...
                            data_articol = date_articole[i]
                            # ...
                            lead_articol = leads_articole[i]
                            # ...
                            link_articol = ''
                            if i < len(linkuri_articole):  # Verifică dacă există un link disponibil
                                link_articol = linkuri_articole[i]

                            pdf.chapter_title(titlu_articol)
                            pdf.chapter_date(data_articol)
                            pdf.chapter_body(lead_articol)
                            pdf.add_link(link_articol)
                            pdf.cell(0, 10, '-------------------', 0, 1, 'L')

                        den_fisier = file_path.split('.')[0] + '.pdf'
                        pdf.output(den_fisier)

                    else:
                        print("Numarul de titluri, date, leads sau linkuri nu se potrivesc în fișierul --- {} ---.".format(file_path))
                        print("Titluri: ", len(titluri_articole))
                        print("Date: ", len(date_articole))
                        print("Leads: ", len(leads_articole))
                        print("Linkuri: ", len(linkuri_articole))
                else:
                    print(f"Fișierul {file_path} nu conține markerul <!-- ARTICOL CATEGORIE START --> și va fi ignorat.")


from pdfrw import PdfReader, PdfWriter, errors

def merge_pdf_files(directory_path):
    writer = PdfWriter()
    for root, dirs, files in os.walk(directory_path):
        for file_name in files:
            if file_name.endswith(".pdf"):
                file_path = os.path.join(root, file_name)
                try:
                    reader = PdfReader(file_path)
                    if not reader.pages:  # Verifică dacă fișierul PDF are pagini
                        print(f"Fișierul {file_name} este gol și va fi ignorat.")
                        continue
                    for page in reader.pages:
                        writer.addPage(page)
                except errors.PdfParseError:  # Tratează cazul în care fișierul PDF este corupt
                    print(f"Fișierul {file_name} este corupt și va fi ignorat.")
                    continue
        writer.write(os.path.join(root, "articles-categorii.pdf"))
        break


directory_path = "c:\\Folder9\\"  # înlocuiește cu calea către directorul cu fișierele HTML
save_to_pdf(directory_path)
merge_pdf_files(directory_path)