Untitled

import pandas as pd

from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
import seaborn as sns
import matplotlib.pyplot as plt


# определим функцию отрисовки графиков попарных признаков для кластеров
def show_clusters_on_plot(df, x_name,y_name, cluster_name):
    plt.figure(figsize = (10,10))
    sns.scatterplot(df[x_name], df[y_name],
           hue = df[cluster_name], palette = 'Paired'
       )
    plt.title('{} vs {}'.format(x_name, y_name))
    plt.show()

# читаем данные
travel = pd.read_csv('/datasets/tripadvisor_review_case.csv')
print(travel.shape)

# стандартизируем данные
sc = StandardScaler()
x_sc = sc.fit_transform(travel)

# задаём модель k_means с числом кластеров 3
km = KMeans(n_clusters = 3)
# прогнозируем кластеры для наблюдений (алгоритм присваивает им номера от 0 до 4)
labels = km.fit_predict(x_sc)

# сохраняем метки кластера в поле датасета
travel['cluster_km'] = labels

# выводим статистику по средним значениям признаков по кластеру
travel.groupby(['cluster_km']).mean()

# отрисуем графики для пары признаков "соки" и "религия"
show_clusters_on_plot(travel, 'Average user feedback on juice bars',
												'Average user feedback on religious institutions', 'cluster_km')

# отрисуем графики для пары признаков "соки" и "рестораны"
show_clusters_on_plot(travel, 'Average user feedback on juice bars',
											 'Average user feedback on restaurants', 'cluster_km')