Advertisement
AliaksandrLet

Всякие полезности

Apr 18th, 2022 (edited)
52
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
Python 2.09 KB | None | 0 0
  1. #map
  2.     """
  3.     Это классная команда для простого преобразования данных. Определяете словарь, в котором «ключами» являются старые значения,
  4.     а «значениями» – новые значения:
  5.     """
  6.  
  7. level_map = {1: 'high', 2: 'medium', 3: 'low'}
  8. df['c_level'] = df['c'].map(level_map)
  9.  
  10. #value counts
  11.     """
  12.     Команда для проверки распределения значений. Чтобы проверить возможные значения и частоту каждого отдельного значения
  13.     в столбце 'c', выполните:
  14.     """
  15.  
  16. df['c'].value_counts()
  17. #Некоторые полезные трюки и аргументы этой функции:
  18.     """
  19.     normalize = True – проверить частоту вместо подсчёта.
  20.     dropna = False – включить пропущенные значения в статистику.
  21.     df['c'].value_counts().reset_index() – преобразовать таблицу статистики в объект Pandas DataFrame.
  22.     df['c'].value_counts().reset_index().sort_values(by='index') – показывать статистику, отсортированную по уникальным
  23.     значениям в столбце 'c' вместо количества.
  24.     """
  25.  
  26. #Количество пропущенных значений
  27.     """
  28.     При построении моделей часто надо исключить строку с большим количеством пропущенных значений или строки со всеми
  29.     пропущенными значениями. Используйте .isnull() и .sum() для подсчёта количества пропущенных значений в указанных столбцах:
  30.     """
  31.  
  32. import pandas as pd
  33. import numpy as np
  34. df = pd.DataFrame({ 'id': [1,2,3], 'c1':[0,0,np.nan], 'c2': [np.nan,1,1]})
  35. df = df[['id', 'c1', 'c2']]
  36. df['num_nulls'] = df[['c1', 'c2']].isnull().sum(axis=1)
  37. df.head()
  38.  
  39.  
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement