Advertisement
kernel_memory_dump

Untitled

Jun 14th, 2014
212
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
Python 3.43 KB | None | 0 0
  1.  
  2.  
  3.  
  4. from os.path \
  5. import  join
  6. import os
  7.  
  8. class Rezultat:
  9.  
  10.     def __init__(self, fajl, brPojavlj):
  11.         self.fajl = fajl
  12.         self.brPojavlj = brPojavlj
  13.  
  14.     def getFajl(self):
  15.         return self.fajl
  16.  
  17.     def getBr(self):
  18.         return self.brPojavlj
  19.  
  20.  
  21. def pyWalker(mypath):
  22.     putanje = []
  23.     for path, subdirs, files in os.walk(mypath):
  24.      for name in files:
  25.          print os.path.join(path, name)
  26.          if ".html" in name:
  27.             putanje.append(join(path,name))
  28.  
  29.     return putanje
  30.  
  31.  
  32. def brKr(kljucneReci):
  33.     putanje = pyWalker("/home/nemanja/Desktop/java/1402436073_273__test/python-2.7.7-docs-html/")
  34.     brPojavljivanje = []
  35.     for i in range(0, len(putanje)):#pravimo listu nula koja je iste duzine kao lista fajlova
  36.         brPojavljivanje.append(0)
  37.  
  38.  
  39.     for i,fajl in enumerate(putanje):
  40.             f = open(fajl, 'r')
  41.             lines  = f.readlines()
  42.             for line in lines:
  43.                 reci = line.split(" ")
  44.                 for rec in reci:
  45.                     for kljucnaRec in kljucneReci:
  46.                      if kljucnaRec in rec:
  47.                         brPojavljivanje[i] += 1
  48.             ################################
  49.             # brojimo koliko ima linkova ka ovom fajlu
  50.             # i pamtimo koji su to fajlovi
  51.             # da bismo ih kasnije pretrazili
  52.             fajloviKojiVodeKaNama = []
  53.             for j, fajl2 in enumerate(putanje):
  54.                 if fajl2 != fajl:
  55.                     f2 = open(fajl2, 'r')
  56.                     lines2  = f.readlines()
  57.                     for line2 in lines2:
  58.                         reci = line2.split(" ")
  59.                         for rec in reci:
  60.                             if "href=" in rec:
  61.                                 # href = <a href="putanja/mojFajl.html"
  62.                                 index = fajl.rfind("//")
  63.                                 nasFolder = fajl[0:index]
  64.                                 #cupam ceo link od href=" link "
  65.                                 nasFajl = rec[6:len(rec)-2]
  66.                                 punaPutanja = nasFolder + nasFajl
  67.                                 if punaPutanja == fajl:
  68.                                     fajloviKojiVodeKaNama.append(punaPutanja)
  69.                                     brPojavljivanje[i] += 1
  70.  
  71.             # pretrazujemo fajlove koji imaju link ka nama
  72.             # broj kljucnih reci u njemu
  73.             for j,fajl2 in enumerate(fajloviKojiVodeKaNama):
  74.                 f = open(fajl2, 'r')
  75.                 lines  = f.readlines()
  76.                 for line in lines:
  77.                     reci = line.split(" ")
  78.                     for rec in reci:
  79.                         for kljucnaRec in kljucneReci:
  80.                          if kljucnaRec in rec:
  81.                             brPojavljivanje[i] += 1
  82.  
  83.     rezultati = []
  84.     for i in range(0,len(putanje)):
  85.         r = Rezultat(putanje[i], brPojavljivanje[i])
  86.         rezultati.append(r)
  87.  
  88.     for i in range(0, len(rezultati)-1):
  89.         for j in range(0+i, len(rezultati)):
  90.             if rezultati[j].getBr() > rezultati[i].getBr():
  91.                 temp = rezultati[i]
  92.                 rezultati[i] = rezultati[j]
  93.                 rezultati[j] = temp
  94.  
  95.     for rez in rezultati:
  96.         print rez.getBr()
  97.         print rez.getFajl()
  98.  
  99.  
  100. # prvaKljucnaRec AND drugaKljucnaRec
  101. # prvaljucnaRec OR drugeKljucnaRec
  102. # NOT prvakljucnaRec
  103.  
  104.  
  105. kljucRez = ['the', 'a']
  106. brKr(kljucRez)
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement