Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- import pandas as pd
- # прочитать файл
- df = pd.read_csv('21.csv', delimiter = ';')
- # удалить две последние строки
- df.drop(df.index[[-1, -2]], inplace=True)
- # вывести все заголовки
- print(list(df),'\n')
- # выполнить очистку данных над нужным столбцом со значениями
- df['2017, Выручка, млн RUB'] = df['2017, Выручка, млн RUB'].apply(lambda x: int(x.replace(' ', '')))
- # отобразить статистику по полученному числовому столбцу
- print(df['2017, Выручка, млн RUB'].describe(), '\n')
- # создаём столбец DataFrame, содержащий длину названия фирмы
- df['Наименование'] = df['Наименование'].apply(lambda x: len(x.split(',')[0]))
- print(df['Наименование'].describe(), '\n')
- # теперь найдём корреляцию выручки за 2017 год от длины названия фирмы
- correlation = df['2017, Выручка, млн RUB'].corr(df['Наименование'])
- # найдём корреляцию
- print('correlation is = %s' % correlation)
- # ----------------------- далее следует полученный вывод -------------------
- """
- ['№', 'Наименование', 'Регистрационный номер', 'Наименование на английском', 'Краткое наименование', 'Наименование полное', 'Адрес (место нахождения)', 'Руководитель ФИО', 'Руководитель должность', 'Руководитель ИНН', 'Телефон', 'Электронный адрес', 'Сайт в сети Интернет', 'Дата регистрации', 'Возраст компании', 'Регион регистрации', 'Вид деятельности/отрасль', '2017, Выручка, млн RUB']
- count 8675.000000
- mean 98.420980
- std 897.662561
- min 5.000000
- 25% 11.000000
- 50% 22.000000
- 75% 56.000000
- max 66272.000000
- Name: 2017, Выручка, млн RUB, dtype: float64
- count 8675.000000
- mean 10.174409
- std 5.561789
- min 1.000000
- 25% 6.000000
- 50% 9.000000
- 75% 13.000000
- max 64.000000
- Name: Наименование, dtype: float64
- correlation is = 0.03687705982029855
- """
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement