Untitled

import numpy as np
import pandas as pd  # Importamos pandas bajo el pseudonimo

# Rango de fechas 8 dias
fechas = pd.date_range('27/2/2019', periods=8)
# Creo un dataframe
df = pd.DataFrame(np.random.random((8, 4)), index=fechas,
                  columns=['A', 'B', 'C', 'D'])

# Extraigo una Serie del dataframe
s = df['A']
# Selecciono una de las fechas de mi lista
# Que defini como indice
print(s[fechas[1]])
# 0.9948947196784879

# Si queremos intercambiar columnas
df[['B', 'A']] = df[['A', 'B']]  # No se debe hacer aunque funcione
# Forma correcta
df.loc[:, ['B', 'A']] = df[['A', 'B']].to_numpy()
print(df[['A', 'B']])
#                    A         B
# 2019-02-27  0.319319  0.671448
# 2019-02-28  0.405093  0.960463
# 2019-03-01  0.542734  0.261184
# 2019-03-02  0.172890  0.700732
# 2019-03-03  0.665918  0.585571
# 2019-03-04  0.459141  0.068089
# 2019-03-05  0.447317  0.493405
# 2019-03-06  0.661500  0.877922
# Anotacion Location Choices

# Series
sa = pd.Series([1, 2, 3], index=list('abc'))
# Seleccionar Indices Rapido
print(sa.b)
# 2

# Seleccionar columnas de un dataset rapido
print(df.A)
# 2019-02-27    0.319319
# 2019-02-28    0.405093
# 2019-03-01    0.542734
# 2019-03-02    0.172890
# 2019-03-03    0.665918
# 2019-03-04    0.459141
# 2019-03-05    0.447317
# 2019-03-06    0.661500
# Freq: D, Name: A, dtype: float64

# Reasignar un indice
sa.a = 5
print(sa)
# a    5
# b    2
# c    3
# dtype: int64

# Solo si existe
df.A = list(range(len(df)))
print(df)
#             A         B         C         D
# 2019-02-27  0  0.671448  0.161066  0.059666
# 2019-02-28  1  0.960463  0.822715  0.814657
# 2019-03-01  2  0.261184  0.885155  0.660747
# 2019-03-02  3  0.700732  0.935873  0.901624
# 2019-03-03  4  0.585571  0.983047  0.062070
# 2019-03-04  5  0.068089  0.737237  0.233875
# 2019-03-05  6  0.493405  0.226257  0.809233
# 2019-03-06  7  0.877922  0.786466  0.182065

# Si no existe
df.X = list(range(len(df)))  # Lanza Error
#  Pandas doesn't allow columns to be created via a new attribute name
df['X'] = list(range(len(df)))  # Forma correcta
df
# Asignar una fila
df.iloc[1] = [1, 2, 3, 4]
print(df)
#             A          B         C          D
# 2019-02-27  0   0.671448  0.161066  0.0596664
# 2019-02-28  1          2         3          4
# 2019-03-01  2   0.261184  0.885155   0.660747
# 2019-03-02  3   0.700732  0.935873   0.901624
# 2019-03-03  4   0.585571  0.983047  0.0620701
# 2019-03-04  5  0.0680889  0.737237   0.233875
# 2019-03-05  6   0.493405  0.226257   0.809233
# 2019-03-06  7   0.877922  0.786466   0.182065

# Slices
# Series
s[:2]  # Primeros 2 Elementos
# 2019-02-27    0.686824
# 2019-02-28    0.868448
# Freq: D, Name: A, dtype: float64

s[::2]  # Todos los elementos con paso 2
# 2019-02-27    0.686824
# 2019-03-01    0.199276
# 2019-03-03    0.805328
# 2019-03-05    0.006065
# Freq: 2D, Name: A, dtype: float64

s[::-1]  # Reversa de indices
# 2019-03-06    0.764515
# 2019-03-05    0.006065
# 2019-03-04    0.120355
# 2019-03-03    0.805328
# 2019-03-02    0.966972
# 2019-03-01    0.199276
# 2019-02-28    0.868448
# 2019-02-27    0.686824
# Freq: -1D, Name: A, dtype: float64

s[5::-1]  # ultimos 6 elementos al revez
# 2019-03-04    0.120355
# 2019-03-03    0.805328
# 2019-03-02    0.966972
# 2019-03-01    0.199276
# 2019-02-28    0.868448
# 2019-02-27    0.686824
# Freq: -1D, Name: A, dtype: float64

s2 = s.copy()  # Pasa lo mismo que numpy con la memoria
s2[:5] = 0
print(s2)
# 2019-02-27    0.000000
# 2019-02-28    0.000000
# 2019-03-01    0.000000
# 2019-03-02    0.000000
# 2019-03-03    0.000000
# 2019-03-04    0.120355
# 2019-03-05    0.006065
# 2019-03-06    0.764515
# Freq: D, Name: A, dtype: float64

# Dataframe
df[:3]  # Primeros 3 elementos
#             A         B         C          D
# 2019-02-27  0  0.671448  0.161066  0.0596664
# 2019-02-28  1         2         3          4
# 2019-03-01  2  0.261184  0.885155   0.660747

df[2::-1]  # Ultimos 3 elementos al revez
#             A         B         C          D
# 2019-03-01  2  0.261184  0.885155   0.660747
# 2019-02-28  1         2         3          4
# 2019-02-27  0  0.671448  0.161066  0.0596664-

# Advertencia
df.loc[2:3]  # No se pueden usar Slice con loc
# TypeError: cannot do slice indexing on

# Anot3
s1 = pd.Series(np.random.randn(6), index=list('abcdef'))
print(s1[3:])
# d   -0.047107
# e   -0.180345
# f    0.334778
# dtype: float64

s1.loc['d':]
# d   -0.047107
# e   -0.180345
# f    0.334778
# dtype: float64

s1.loc['b']
# 0.8256215434880477

# Seleccionar filas del dataframe
df.index = list('abcedfgh')  # Reasignar indice
df.loc[['a', 'e', 'f'], :]  # Todas las columnas de los indices a e f
#    A          B         C          D
# a  0   0.671448  0.161066  0.0596664
# e  3   0.700732  0.935873   0.901624
# f  5  0.0680889  0.737237   0.233875

df.loc['a':'c', 'A':'B']  # Filas: a hasta c, columnas: 'A' hasta 'B'
#    A         B
# a  0  0.671448
# b  1         2
# c  2  0.261184

df.loc['a']
# A            0
# B     0.671448
# C     0.161066
# D    0.0596664
# Name: a, dtype: object

# Arrays de booleanos
df.loc['a'] > 0.1
# Selecciona todas las columnas donde a sea mayor a 0.1
# A    False
# B     True
# C     True
# D    False
# Name: a, dtype: bool

df.loc[:, df.loc['a'] > 0.5]  # Queries
# a  0.671448
# b         2

df.loc['a', 'A']  # Indice a de la columna A
# 0

# Con indices
s1 = pd.Series(np.random.randint(5), index=list(range(0, 10, 2)))
print(s1)
# 0    2
# 2    2
# 4    2
# 6    2
# 8    2
# dtype: int64

s1.iloc[:3]  # Primeros 3 elementos de una serie
# 0    2
# 2    2
# 4    2
# dtype: int64

df.iloc[:3]  # Primeros 3 elementos de un dataframe
#    A         B         C          D
# a  0  0.671448  0.161066  0.0596664
# b  1         2         3          4
# c  2  0.261184  0.885155   0.660747

df.iloc[:3, :2]  # Primeras 3 filas y primeras 2 columnas
#    A         B
# a  0  0.671448
# b  1         2
# c  2  0.261184

df.iloc[[1, 4, 5], [1, 2]]  # Segundo, Quito, Sexto elemento
# De segunda y tercera columna

#            B         C
# b          2         3
# d   0.585571  0.983047
# f  0.0680889  0.737237

df.iloc[1:3, :]  # Todas las columnas del segundo al cuarto indice
#    A         B         C         D
# b  1         2         3         4
# c  2  0.261184  0.885155  0.660747

df.head().iloc[:, 1:3]  # Todos los indices
# De la segunda a cuarta columna

#           B         C
# a  0.671448  0.161066
# b         2         3
# c  0.261184  0.885155
# e  0.700732  0.935873
# d  0.585571  0.983047

# Querys
# SQL
# SELECT FROM df WHERE B>1
df.loc[lambda df: df.B > 1, :]
#    A  B  C  D
# b  1  2  3  4

# SQL
# SELECT A, B FROM df
df.loc[:, lambda df: ['A', 'B']]
#    A          B
# a  0   0.671448
# b  1          2
# c  2   0.261184
# e  3   0.700732
# d  4   0.585571
# f  5  0.0680889
# g  6   0.493405
# h  7   0.877922

# SELECT A, B FROM df
df.iloc[:, lambda df: [0, 1]]
#    A          B
# a  0   0.671448
# b  1          2
# c  2   0.261184
# e  3   0.700732
# d  4   0.585571
# f  5  0.0680889
# g  6   0.493405
# h  7   0.877922

# SELECT A FROM df
df[lambda df: df.columns[0]]
# a    0
# b    1
# c    2
# e    3
# d    4
# f    5
# g    6
# h    7