СП-1

!pip install nums_from_string # устанавливаю библиотеку, которая далее понадобится в проекте
!pip install phik # устанавливаю библиотеку для корреляции
# импортирую все библиотеки(даже те, чо возможно, не пригодятся)
import pandas as pd # импортирую библиотеку pandas
import numpy as np # импортирую библиотеку numpy
import math # импортирую библиотеку math
import matplotlib.pyplot as plt # подгружаю библиотеку matplotlib
import seaborn as sns # подгружаю библиотеку seaborn
from scipy import stats as st
import nums_from_string
import phik # импортирую библиотеку для корреляции
from phik.report import plot_correlation_matrix
from phik import report
from functools import reduce
from scipy.stats import levene
from scipy.stats import bartlett

df = pd.read_csv('/datasets/games.csv') # сохраняяю датасет в переменную df
df.info() # вывожу информацию  таблице

df.head(10) # вывожу первые 10 строк таблицы для визуального знакомства

df.columns = [ # методом columns меняю названия всех столбцов
    'name',
    'platform',
    'year_of_release',
    'genre',
    'na_sales',
    'eu_sales',
    'jp_sales',
    'other_sales',
    'critic_score',
    'user_score',
    'rating'
]
df.head()

# определяю число пропусков в столбце с годом релиза
len(df[df['year_of_release'].isna()])

 # считаю долю пропусков в столбце с с годом релиза от общей длины таблицы
no_year = len(df[df['year_of_release'].isna()]) / len(df)
display('Процент пропусков в столбце year_of_release {:0.2%}'.format(no_year))

# сделаю срез из таблицы по условию "значение в столбце year_of_release пропущено" ПОЧЕМУ ОНА СТАЛА ПУСТОЙ?
df_no_year = df.query('year_of_release == "NaN"')
df_no_year.head() # посмотрю начало таблицы

# Соберу строки, где год выпуска указан в названии игры
years = [] # список для строк, где в названии есть цифры, рассматриваю года 20.. и 19.., как возможные варианты
no_years = [] # список для строк, где в названии нет цифр
for row in df_no_year['name']: # напишу функцию
    if '20' in row:
        years.append(row)
    elif '19' in row:
        years.append(row)
    else:
        no_years.append(row)

display(years)

df_years = pd.DataFrame(years) # создам из списка таблицу
df_years.columns = ['name'] # дам столбцу понятное название, по аналогии с основной таблицей
df_years # полюбуюсь на результат