Advertisement
Diggernaut

University of Birmingham Staff Search digger config

Feb 15th, 2017
182
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
YAML 1.68 KB | None | 0 0
  1. ---
  2. config:
  3.     agent: Firefox
  4. iterator:
  5.     type: csv
  6.     name: letter
  7.     value: A,B
  8. do:
  9. - link_add:
  10.     url: http://www.birmingham.ac.uk/staff/profiles/index.aspx?CurrentTab=AtoZ&StaffComplete_AtoZ_AtoZLetter=<%letter%>&StaffComplete_atozlisting_goto=1
  11. - walk:
  12.     to: links
  13.     do:
  14.     - find:
  15.         path: 'div.listing--items>article'
  16.         do:
  17.         - object_new: person
  18.         - find:
  19.             path: h1>a
  20.             do:
  21.            - parse
  22.             - object_field_set:
  23.                 object: person
  24.                 field: name
  25.             - parse:
  26.                 attr: href
  27.             - normalize:
  28.                 routine: url
  29.             - object_field_set:
  30.                 object: person
  31.                 field: url
  32.         - find:
  33.             path: p.staff--job-title
  34.             do:
  35.            - parse
  36.             - object_field_set:
  37.                 object: person
  38.                 field: title
  39.         - find:
  40.             path: p.staff--school-or-department
  41.             do:
  42.            - parse
  43.             - object_field_set:
  44.                 object: person
  45.                 field: department
  46.         - find:
  47.             path: dd:contains('+44')
  48.             do:
  49.            - parse
  50.             - object_field_set:
  51.                 object: person
  52.                 field: phone
  53.         - find:
  54.             path: dd:contains('@')
  55.             do:
  56.            - parse
  57.             - object_field_set:
  58.                 object: person
  59.                 field: email
  60.         - object_save:
  61.             name: person
  62.     - find:
  63.         path: a.pagination__controls__next
  64.         do:
  65.         - parse:
  66.             attr: href
  67.         - link_add
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement