Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- # Создадим датафрейм с данными по сетевым заведениям:
- chain_num_seats = data[data['chain'] == 'да'].groupby(
- 'object_name', as_index=False).mean()[['object_name', 'number']]
- # Выведем на экран:
- chain_num_seats
- # Посмотрим сколько сетей без обработки:
- chain_num_seats_unique = chain_num_seats['object_name'].unique()
- len(np.unique(chain_num_seats_unique))
- # приведём названия к нижнему регистру:
- chain_num_seats_unique_lower = list(map(lambda x: x.lower(), chain_num_seats_unique))
- print(len(chain_num_seats_unique_lower))
- chain_num_seats_unique_lower
- # Список строк который нужно исключить из навзаний:
- to_remove_list = ['«','»',
- '\'',
- 'кафе',
- 'ресторан ',
- 'ДЕТСКИЙ КЛУБ']
- # сделаем список с нижним регистром:
- to_remove_list = list(map(lambda x: x.lower(), to_remove_list))
- # Применим список для замены названий:
- import re
- chain_num_seats_unique_lower = pd.Series(chain_num_seats_unique_lower).str.replace('|'.join(map(re.escape, to_remove_list)), '')
- # и выведем получившееся на экран:
- chain_num_seats_unique_lower
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement