Advertisement
elena_oranges

СП-1

Mar 26th, 2022
45
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 3.17 KB | None | 0 0
  1. !pip install nums_from_string # устанавливаю библиотеку, которая далее понадобится в проекте
  2. !pip install phik # устанавливаю библиотеку для корреляции
  3. # импортирую все библиотеки(даже те, чо возможно, не пригодятся)
  4. import pandas as pd # импортирую библиотеку pandas
  5. import numpy as np # импортирую библиотеку numpy
  6. import math # импортирую библиотеку math
  7. import matplotlib.pyplot as plt # подгружаю библиотеку matplotlib
  8. import seaborn as sns # подгружаю библиотеку seaborn
  9. from scipy import stats as st
  10. import nums_from_string
  11. import phik # импортирую библиотеку для корреляции
  12. from phik.report import plot_correlation_matrix
  13. from phik import report
  14. from functools import reduce
  15. from scipy.stats import levene
  16. from scipy.stats import bartlett
  17.  
  18. df = pd.read_csv('/datasets/games.csv') # сохраняяю датасет в переменную df
  19. df.info() # вывожу информацию таблице
  20.  
  21. df.head(10) # вывожу первые 10 строк таблицы для визуального знакомства
  22.  
  23. df.columns = [ # методом columns меняю названия всех столбцов
  24. 'name',
  25. 'platform',
  26. 'year_of_release',
  27. 'genre',
  28. 'na_sales',
  29. 'eu_sales',
  30. 'jp_sales',
  31. 'other_sales',
  32. 'critic_score',
  33. 'user_score',
  34. 'rating'
  35. ]
  36. df.head()
  37.  
  38. # определяю число пропусков в столбце с годом релиза
  39. len(df[df['year_of_release'].isna()])
  40.  
  41. # считаю долю пропусков в столбце с с годом релиза от общей длины таблицы
  42. no_year = len(df[df['year_of_release'].isna()]) / len(df)
  43. display('Процент пропусков в столбце year_of_release {:0.2%}'.format(no_year))
  44.  
  45. # сделаю срез из таблицы по условию "значение в столбце year_of_release пропущено" ПОЧЕМУ ОНА СТАЛА ПУСТОЙ?
  46. df_no_year = df.query('year_of_release == "NaN"')
  47. df_no_year.head() # посмотрю начало таблицы
  48.  
  49. # Соберу строки, где год выпуска указан в названии игры
  50. years = [] # список для строк, где в названии есть цифры, рассматриваю года 20.. и 19.., как возможные варианты
  51. no_years = [] # список для строк, где в названии нет цифр
  52. for row in df_no_year['name']: # напишу функцию
  53. if '20' in row:
  54. years.append(row)
  55. elif '19' in row:
  56. years.append(row)
  57. else:
  58. no_years.append(row)
  59.  
  60. display(years)
  61.  
  62. df_years = pd.DataFrame(years) # создам из списка таблицу
  63. df_years.columns = ['name'] # дам столбцу понятное название, по аналогии с основной таблицей
  64. df_years # полюбуюсь на результат
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement