Advertisement
Guest User

Untitled

a guest
Jan 20th, 2020
199
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 1.37 KB | None | 0 0
  1. # Создадим датафрейм с данными по сетевым заведениям:
  2. chain_num_seats = data[data['chain'] == 'да'].groupby(
  3. 'object_name', as_index=False).mean()[['object_name', 'number']]
  4. # Выведем на экран:
  5. chain_num_seats
  6. # Посмотрим сколько сетей без обработки:
  7. chain_num_seats_unique = chain_num_seats['object_name'].unique()
  8. len(np.unique(chain_num_seats_unique))
  9. # приведём названия к нижнему регистру:
  10. chain_num_seats_unique_lower = list(map(lambda x: x.lower(), chain_num_seats_unique))
  11. print(len(chain_num_seats_unique_lower))
  12. chain_num_seats_unique_lower
  13. # Список строк который нужно исключить из навзаний:
  14. to_remove_list = ['«','»',
  15. '\'',
  16. 'кафе',
  17. 'ресторан ',
  18. 'ДЕТСКИЙ КЛУБ']
  19.  
  20. # сделаем список с нижним регистром:
  21. to_remove_list = list(map(lambda x: x.lower(), to_remove_list))
  22.  
  23. # Применим список для замены названий:
  24. import re
  25. chain_num_seats_unique_lower = pd.Series(chain_num_seats_unique_lower).str.replace('|'.join(map(re.escape, to_remove_list)), '')
  26. # и выведем получившееся на экран:
  27. chain_num_seats_unique_lower
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement