Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- from os.path \
- import join
- import os
- class Rezultat:
- def __init__(self, fajl, brPojavlj):
- self.fajl = fajl
- self.brPojavlj = brPojavlj
- def getFajl(self):
- return self.fajl
- def getBr(self):
- return self.brPojavlj
- def pyWalker(mypath):
- putanje = []
- for path, subdirs, files in os.walk(mypath):
- for name in files:
- print os.path.join(path, name)
- if ".html" in name:
- putanje.append(join(path,name))
- return putanje
- def brKr(kljucneReci):
- putanje = pyWalker("/home/nemanja/Desktop/java/1402436073_273__test/python-2.7.7-docs-html/")
- brPojavljivanje = []
- for i in range(0, len(putanje)):#pravimo listu nula koja je iste duzine kao lista fajlova
- brPojavljivanje.append(0)
- for i,fajl in enumerate(putanje):
- f = open(fajl, 'r')
- lines = f.readlines()
- for line in lines:
- reci = line.split(" ")
- for rec in reci:
- for kljucnaRec in kljucneReci:
- if kljucnaRec in rec:
- brPojavljivanje[i] += 1
- ################################
- # brojimo koliko ima linkova ka ovom fajlu
- # i pamtimo koji su to fajlovi
- # da bismo ih kasnije pretrazili
- fajloviKojiVodeKaNama = []
- for j, fajl2 in enumerate(putanje):
- if fajl2 != fajl:
- f2 = open(fajl2, 'r')
- lines2 = f.readlines()
- for line2 in lines2:
- reci = line2.split(" ")
- for rec in reci:
- if "href=" in rec:
- # href = <a href="putanja/mojFajl.html"
- index = fajl.rfind("//")
- nasFolder = fajl[0:index]
- #cupam ceo link od href=" link "
- nasFajl = rec[6:len(rec)-2]
- punaPutanja = nasFolder + nasFajl
- if punaPutanja == fajl:
- fajloviKojiVodeKaNama.append(punaPutanja)
- brPojavljivanje[i] += 1
- # pretrazujemo fajlove koji imaju link ka nama
- # broj kljucnih reci u njemu
- for j,fajl2 in enumerate(fajloviKojiVodeKaNama):
- f = open(fajl2, 'r')
- lines = f.readlines()
- for line in lines:
- reci = line.split(" ")
- for rec in reci:
- for kljucnaRec in kljucneReci:
- if kljucnaRec in rec:
- brPojavljivanje[i] += 1
- rezultati = []
- for i in range(0,len(putanje)):
- r = Rezultat(putanje[i], brPojavljivanje[i])
- rezultati.append(r)
- for i in range(0, len(rezultati)-1):
- for j in range(0+i, len(rezultati)):
- if rezultati[j].getBr() > rezultati[i].getBr():
- temp = rezultati[i]
- rezultati[i] = rezultati[j]
- rezultati[j] = temp
- for rez in rezultati:
- print rez.getBr()
- print rez.getFajl()
- # prvaKljucnaRec AND drugaKljucnaRec
- # prvaljucnaRec OR drugeKljucnaRec
- # NOT prvakljucnaRec
- kljucRez = ['the', 'a']
- brKr(kljucRez)
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement