Advertisement
viking_unet

example pandas cols correlation

Jul 6th, 2020
1,008
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
Python 2.50 KB | None | 0 0
  1. import pandas as pd
  2.  
  3. # прочитать файл
  4. df = pd.read_csv('21.csv', delimiter = ';')
  5.  
  6. # удалить две последние строки
  7. df.drop(df.index[[-1, -2]], inplace=True)
  8. # вывести все заголовки
  9. print(list(df),'\n')
  10.  
  11. # выполнить очистку данных над нужным столбцом со значениями
  12. df['2017, Выручка, млн RUB'] = df['2017, Выручка, млн RUB'].apply(lambda x: int(x.replace(' ', '')))
  13. # отобразить статистику по полученному числовому столбцу
  14. print(df['2017, Выручка, млн RUB'].describe(), '\n')
  15.  
  16. # создаём столбец DataFrame, содержащий длину названия фирмы
  17. df['Наименование'] = df['Наименование'].apply(lambda x: len(x.split(',')[0]))
  18. print(df['Наименование'].describe(), '\n')
  19.  
  20. # теперь найдём корреляцию выручки за 2017 год от длины названия фирмы
  21. correlation = df['2017, Выручка, млн RUB'].corr(df['Наименование'])
  22.  
  23. # найдём корреляцию
  24. print('correlation is = %s' % correlation)          
  25.  
  26. # ----------------------- далее следует полученный вывод -------------------
  27. """
  28. ['№', 'Наименование', 'Регистрационный номер', 'Наименование на английском', 'Краткое наименование', 'Наименование полное', 'Адрес (место нахождения)', 'Руководитель ФИО', 'Руководитель должность', 'Руководитель ИНН', 'Телефон', 'Электронный адрес', 'Сайт в сети Интернет', 'Дата регистрации', 'Возраст компании', 'Регион регистрации', 'Вид деятельности/отрасль', '2017, Выручка, млн RUB']
  29.  
  30. count     8675.000000
  31. mean        98.420980
  32. std        897.662561
  33. min          5.000000
  34. 25%         11.000000
  35. 50%         22.000000
  36. 75%         56.000000
  37. max      66272.000000
  38. Name: 2017, Выручка, млн RUB, dtype: float64
  39.  
  40. count    8675.000000
  41. mean       10.174409
  42. std         5.561789
  43. min         1.000000
  44. 25%         6.000000
  45. 50%         9.000000
  46. 75%        13.000000
  47. max        64.000000
  48. Name: Наименование, dtype: float64
  49.  
  50. correlation is = 0.03687705982029855
  51. """
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement