example pandas cols correlation

import pandas as pd

# прочитать файл
df = pd.read_csv('21.csv', delimiter = ';')

# удалить две последние строки
df.drop(df.index[[-1, -2]], inplace=True)
# вывести все заголовки
print(list(df),'\n')

# выполнить очистку данных над нужным столбцом со значениями
df['2017, Выручка, млн RUB'] = df['2017, Выручка, млн RUB'].apply(lambda x: int(x.replace(' ', '')))
# отобразить статистику по полученному числовому столбцу
print(df['2017, Выручка, млн RUB'].describe(), '\n')

# создаём столбец DataFrame, содержащий длину названия фирмы
df['Наименование'] = df['Наименование'].apply(lambda x: len(x.split(',')[0]))
print(df['Наименование'].describe(), '\n')

# теперь найдём корреляцию выручки за 2017 год от длины названия фирмы
correlation = df['2017, Выручка, млн RUB'].corr(df['Наименование'])

# найдём корреляцию
print('correlation is = %s' % correlation)

# ----------------------- далее следует полученный вывод -------------------
"""
['№', 'Наименование', 'Регистрационный номер', 'Наименование на английском', 'Краткое наименование', 'Наименование полное', 'Адрес (место нахождения)', 'Руководитель ФИО', 'Руководитель должность', 'Руководитель ИНН', 'Телефон', 'Электронный адрес', 'Сайт в сети Интернет', 'Дата регистрации', 'Возраст компании', 'Регион регистрации', 'Вид деятельности/отрасль', '2017, Выручка, млн RUB']

count     8675.000000
mean        98.420980
std        897.662561
min          5.000000
25%         11.000000
50%         22.000000
75%         56.000000
max      66272.000000
Name: 2017, Выручка, млн RUB, dtype: float64

count    8675.000000
mean       10.174409
std         5.561789
min         1.000000
25%         6.000000
50%         9.000000
75%        13.000000
max        64.000000
Name: Наименование, dtype: float64

correlation is = 0.03687705982029855
"""