Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- !pip install nums_from_string # устанавливаю библиотеку, которая далее понадобится в проекте
- !pip install phik # устанавливаю библиотеку для корреляции
- # импортирую все библиотеки(даже те, чо возможно, не пригодятся)
- import pandas as pd # импортирую библиотеку pandas
- import numpy as np # импортирую библиотеку numpy
- import math # импортирую библиотеку math
- import matplotlib.pyplot as plt # подгружаю библиотеку matplotlib
- import seaborn as sns # подгружаю библиотеку seaborn
- from scipy import stats as st
- import nums_from_string
- import phik # импортирую библиотеку для корреляции
- from phik.report import plot_correlation_matrix
- from phik import report
- from functools import reduce
- from scipy.stats import levene
- from scipy.stats import bartlett
- df = pd.read_csv('/datasets/games.csv') # сохраняяю датасет в переменную df
- df.info() # вывожу информацию таблице
- df.head(10) # вывожу первые 10 строк таблицы для визуального знакомства
- df.columns = [ # методом columns меняю названия всех столбцов
- 'name',
- 'platform',
- 'year_of_release',
- 'genre',
- 'na_sales',
- 'eu_sales',
- 'jp_sales',
- 'other_sales',
- 'critic_score',
- 'user_score',
- 'rating'
- ]
- df.head()
- # определяю число пропусков в столбце с годом релиза
- len(df[df['year_of_release'].isna()])
- # считаю долю пропусков в столбце с с годом релиза от общей длины таблицы
- no_year = len(df[df['year_of_release'].isna()]) / len(df)
- display('Процент пропусков в столбце year_of_release {:0.2%}'.format(no_year))
- # сделаю срез из таблицы по условию "значение в столбце year_of_release пропущено" ПОЧЕМУ ОНА СТАЛА ПУСТОЙ?
- df_no_year = df.query('year_of_release == "NaN"')
- df_no_year.head() # посмотрю начало таблицы
- # Соберу строки, где год выпуска указан в названии игры
- years = [] # список для строк, где в названии есть цифры, рассматриваю года 20.. и 19.., как возможные варианты
- no_years = [] # список для строк, где в названии нет цифр
- for row in df_no_year['name']: # напишу функцию
- if '20' in row:
- years.append(row)
- elif '19' in row:
- years.append(row)
- else:
- no_years.append(row)
- display(years)
- df_years = pd.DataFrame(years) # создам из списка таблицу
- df_years.columns = ['name'] # дам столбцу понятное название, по аналогии с основной таблицей
- df_years # полюбуюсь на результат
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement