Untitled

{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Este notebook es un repaso por las funciones más importantes de Pandas de cara a utilizarlo en aplicaciones de machine learning. Está basado en el curso \"The Numpy Stack in Python\" de Udemy, es gratuito y está muy bien para iniciarse en las  librerias más comunes en machine learning (Numpy, Pandas, Matplotlib y scipy)."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 95,
   "metadata": {},
   "outputs": [],
   "source": [
    "import matplotlib.pyplot as plt\n",
    "import numpy as np\n",
    "import os\n",
    "import pandas as pd\n",
    "from datetime import datetime"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Nos vamos a la carpeta con los datos que queremos cargar"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 96,
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "/home/david/ProyectosTF/machine_learning_examples/linear_regression_class\n"
     ]
    }
   ],
   "source": [
    "os.chdir('/home/david/ProyectosTF/machine_learning_examples/linear_regression_class/')\n",
    "ruta_actual = os.getcwd()\n",
    "print(ruta_actual)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Vamos a cargar nuestro dataset con Pandas en un DataFrame, indicamos que nuestro conjunto de datos no tiene cabecera, ya que Pandas puede leer archivos con una fila de cabecera, que normalmente contiene los nombres de cada columna."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 99,
   "metadata": {},
   "outputs": [],
   "source": [
    "X = pd.read_csv('data_2d.csv', header=None)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Los DataFrames de Pandas tienen una función info(), que nos da el numero de filas y los nombres y tipos de datos de cada columna."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 100,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "<class 'pandas.core.frame.DataFrame'>\n",
      "RangeIndex: 100 entries, 0 to 99\n",
      "Data columns (total 3 columns):\n",
      "0    100 non-null float64\n",
      "1    100 non-null float64\n",
      "2    100 non-null float64\n",
      "dtypes: float64(3)\n",
      "memory usage: 2.4 KB\n"
     ]
    }
   ],
   "source": [
    "X.info()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "La función head() nos permite ver las primeras filas de nuestro dataset, si queremos ver un numero específico de filas se las podemos pasar a la función para que nos las muestre."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 101,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>0</th>\n",
       "      <th>1</th>\n",
       "      <th>2</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>17.930201</td>\n",
       "      <td>94.520592</td>\n",
       "      <td>320.259530</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>97.144697</td>\n",
       "      <td>69.593282</td>\n",
       "      <td>404.634472</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>81.775901</td>\n",
       "      <td>5.737648</td>\n",
       "      <td>181.485108</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>55.854342</td>\n",
       "      <td>70.325902</td>\n",
       "      <td>321.773638</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>49.366550</td>\n",
       "      <td>75.114040</td>\n",
       "      <td>322.465486</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>3.192702</td>\n",
       "      <td>29.256299</td>\n",
       "      <td>94.618811</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>49.200784</td>\n",
       "      <td>86.144439</td>\n",
       "      <td>356.348093</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7</th>\n",
       "      <td>21.882804</td>\n",
       "      <td>46.841505</td>\n",
       "      <td>181.653769</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8</th>\n",
       "      <td>79.509863</td>\n",
       "      <td>87.397356</td>\n",
       "      <td>423.557743</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9</th>\n",
       "      <td>88.153887</td>\n",
       "      <td>65.205642</td>\n",
       "      <td>369.229245</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "           0          1           2\n",
       "0  17.930201  94.520592  320.259530\n",
       "1  97.144697  69.593282  404.634472\n",
       "2  81.775901   5.737648  181.485108\n",
       "3  55.854342  70.325902  321.773638\n",
       "4  49.366550  75.114040  322.465486\n",
       "5   3.192702  29.256299   94.618811\n",
       "6  49.200784  86.144439  356.348093\n",
       "7  21.882804  46.841505  181.653769\n",
       "8  79.509863  87.397356  423.557743\n",
       "9  88.153887  65.205642  369.229245"
      ]
     },
     "execution_count": 101,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "X.head(10)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Los DataFrames no funcionan como arrays bidimensionales, aunque podemos convertirlos de la siguiente forma:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 102,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "numpy.ndarray"
      ]
     },
     "execution_count": 102,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "M = X.as_matrix()\n",
    "type(M)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Para acceder a una columna del Dataframe le pasamos el nombre de esta. En este caso probamos a mostrar la primera columna del DataFrame, es decir la 0. Esto puede resultar un poco contraintuitivo ya que cuando utilizamos numpy el primer índice se refiere a la fila, mientras que en pandas indica el nombre de la columna y solo se permite un índice.\n",
    "\n",
    "numpy: X[0] #Fila numero 0 \n",
    "pandas: X[0] #Columna que tiene el nombre '0'"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 103,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "0     17.930201\n",
       "1     97.144697\n",
       "2     81.775901\n",
       "3     55.854342\n",
       "4     49.366550\n",
       "5      3.192702\n",
       "6     49.200784\n",
       "7     21.882804\n",
       "8     79.509863\n",
       "9     88.153887\n",
       "10    60.743854\n",
       "11    67.415582\n",
       "12    48.318116\n",
       "13    28.829972\n",
       "14    43.853743\n",
       "15    25.313694\n",
       "16    10.807727\n",
       "17    98.365746\n",
       "18    29.146910\n",
       "19    65.100302\n",
       "20    24.644113\n",
       "21    37.559805\n",
       "22    88.164506\n",
       "23    13.834621\n",
       "24    64.410844\n",
       "25    68.925992\n",
       "26    39.488442\n",
       "27    52.463178\n",
       "28    48.484787\n",
       "29     8.062088\n",
       "        ...    \n",
       "70    30.187692\n",
       "71    11.788418\n",
       "72    18.292424\n",
       "73    96.712668\n",
       "74    31.012739\n",
       "75    11.397261\n",
       "76    17.392556\n",
       "77    72.182694\n",
       "78    73.980021\n",
       "79    94.493058\n",
       "80    84.562821\n",
       "81    51.742474\n",
       "82    53.748590\n",
       "83    85.050835\n",
       "84    46.777250\n",
       "85    49.758434\n",
       "86    24.119257\n",
       "87    27.201576\n",
       "88     7.009596\n",
       "89    97.646950\n",
       "90     1.382983\n",
       "91    22.323530\n",
       "92    45.045406\n",
       "93    40.163991\n",
       "94    53.182740\n",
       "95    46.456779\n",
       "96    77.130301\n",
       "97    68.600608\n",
       "98    41.693887\n",
       "99     4.142669\n",
       "Name: 0, Length: 100, dtype: float64"
      ]
     },
     "execution_count": 103,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "X[0]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Los DataFrames estan compuestos de objetos unidimensionales llamados Series"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 104,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "pandas.core.series.Series"
      ]
     },
     "execution_count": 104,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "type(X[0])"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Ya hemos visto como obtener una columna de un DataFrame, para obtener una fila utilizaremos la función iloc(). La cual también nos devuelve un objeto de tipo Series."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 105,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "0     17.930201\n",
       "1     94.520592\n",
       "2    320.259530\n",
       "Name: 0, dtype: float64"
      ]
     },
     "execution_count": 105,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "X.iloc[0]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Para seleccionar más de una columna, indicamos los nombres de cada columna entre corchetes"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 106,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>0</th>\n",
       "      <th>2</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>17.930201</td>\n",
       "      <td>320.259530</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>97.144697</td>\n",
       "      <td>404.634472</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>81.775901</td>\n",
       "      <td>181.485108</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>55.854342</td>\n",
       "      <td>321.773638</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>49.366550</td>\n",
       "      <td>322.465486</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>3.192702</td>\n",
       "      <td>94.618811</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>49.200784</td>\n",
       "      <td>356.348093</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7</th>\n",
       "      <td>21.882804</td>\n",
       "      <td>181.653769</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8</th>\n",
       "      <td>79.509863</td>\n",
       "      <td>423.557743</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9</th>\n",
       "      <td>88.153887</td>\n",
       "      <td>369.229245</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10</th>\n",
       "      <td>60.743854</td>\n",
       "      <td>427.605804</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>11</th>\n",
       "      <td>67.415582</td>\n",
       "      <td>292.471822</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>12</th>\n",
       "      <td>48.318116</td>\n",
       "      <td>395.529811</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>13</th>\n",
       "      <td>28.829972</td>\n",
       "      <td>319.031348</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>14</th>\n",
       "      <td>43.853743</td>\n",
       "      <td>287.428144</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>15</th>\n",
       "      <td>25.313694</td>\n",
       "      <td>292.768909</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>16</th>\n",
       "      <td>10.807727</td>\n",
       "      <td>159.663308</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>17</th>\n",
       "      <td>98.365746</td>\n",
       "      <td>438.798964</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>18</th>\n",
       "      <td>29.146910</td>\n",
       "      <td>250.986309</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19</th>\n",
       "      <td>65.100302</td>\n",
       "      <td>231.711508</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>20</th>\n",
       "      <td>24.644113</td>\n",
       "      <td>163.398161</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>21</th>\n",
       "      <td>37.559805</td>\n",
       "      <td>83.480155</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>22</th>\n",
       "      <td>88.164506</td>\n",
       "      <td>466.265806</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>23</th>\n",
       "      <td>13.834621</td>\n",
       "      <td>100.886430</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>24</th>\n",
       "      <td>64.410844</td>\n",
       "      <td>365.641048</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>25</th>\n",
       "      <td>68.925992</td>\n",
       "      <td>426.140015</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>26</th>\n",
       "      <td>39.488442</td>\n",
       "      <td>235.532389</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>27</th>\n",
       "      <td>52.463178</td>\n",
       "      <td>283.291640</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28</th>\n",
       "      <td>48.484787</td>\n",
       "      <td>298.581440</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>29</th>\n",
       "      <td>8.062088</td>\n",
       "      <td>309.234109</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>70</th>\n",
       "      <td>30.187692</td>\n",
       "      <td>89.539008</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>71</th>\n",
       "      <td>11.788418</td>\n",
       "      <td>181.550683</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>72</th>\n",
       "      <td>18.292424</td>\n",
       "      <td>224.773383</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>73</th>\n",
       "      <td>96.712668</td>\n",
       "      <td>219.567094</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>74</th>\n",
       "      <td>31.012739</td>\n",
       "      <td>298.490216</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>75</th>\n",
       "      <td>11.397261</td>\n",
       "      <td>199.944045</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>76</th>\n",
       "      <td>17.392556</td>\n",
       "      <td>43.915692</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>77</th>\n",
       "      <td>72.182694</td>\n",
       "      <td>256.068378</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>78</th>\n",
       "      <td>73.980021</td>\n",
       "      <td>159.372581</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>79</th>\n",
       "      <td>94.493058</td>\n",
       "      <td>447.132704</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>80</th>\n",
       "      <td>84.562821</td>\n",
       "      <td>233.078830</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>81</th>\n",
       "      <td>51.742474</td>\n",
       "      <td>131.070180</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>82</th>\n",
       "      <td>53.748590</td>\n",
       "      <td>298.814333</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>83</th>\n",
       "      <td>85.050835</td>\n",
       "      <td>451.803523</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>84</th>\n",
       "      <td>46.777250</td>\n",
       "      <td>368.366436</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>85</th>\n",
       "      <td>49.758434</td>\n",
       "      <td>254.706774</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>86</th>\n",
       "      <td>24.119257</td>\n",
       "      <td>168.308433</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>87</th>\n",
       "      <td>27.201576</td>\n",
       "      <td>146.342260</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>88</th>\n",
       "      <td>7.009596</td>\n",
       "      <td>176.810149</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>89</th>\n",
       "      <td>97.646950</td>\n",
       "      <td>219.160280</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>90</th>\n",
       "      <td>1.382983</td>\n",
       "      <td>252.905653</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>91</th>\n",
       "      <td>22.323530</td>\n",
       "      <td>127.570479</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>92</th>\n",
       "      <td>45.045406</td>\n",
       "      <td>375.822340</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>93</th>\n",
       "      <td>40.163991</td>\n",
       "      <td>80.389019</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>94</th>\n",
       "      <td>53.182740</td>\n",
       "      <td>142.718183</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>95</th>\n",
       "      <td>46.456779</td>\n",
       "      <td>336.876154</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>96</th>\n",
       "      <td>77.130301</td>\n",
       "      <td>438.460586</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>97</th>\n",
       "      <td>68.600608</td>\n",
       "      <td>355.900287</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>98</th>\n",
       "      <td>41.693887</td>\n",
       "      <td>284.834637</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>99</th>\n",
       "      <td>4.142669</td>\n",
       "      <td>168.034401</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>100 rows × 2 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "            0           2\n",
       "0   17.930201  320.259530\n",
       "1   97.144697  404.634472\n",
       "2   81.775901  181.485108\n",
       "3   55.854342  321.773638\n",
       "4   49.366550  322.465486\n",
       "5    3.192702   94.618811\n",
       "6   49.200784  356.348093\n",
       "7   21.882804  181.653769\n",
       "8   79.509863  423.557743\n",
       "9   88.153887  369.229245\n",
       "10  60.743854  427.605804\n",
       "11  67.415582  292.471822\n",
       "12  48.318116  395.529811\n",
       "13  28.829972  319.031348\n",
       "14  43.853743  287.428144\n",
       "15  25.313694  292.768909\n",
       "16  10.807727  159.663308\n",
       "17  98.365746  438.798964\n",
       "18  29.146910  250.986309\n",
       "19  65.100302  231.711508\n",
       "20  24.644113  163.398161\n",
       "21  37.559805   83.480155\n",
       "22  88.164506  466.265806\n",
       "23  13.834621  100.886430\n",
       "24  64.410844  365.641048\n",
       "25  68.925992  426.140015\n",
       "26  39.488442  235.532389\n",
       "27  52.463178  283.291640\n",
       "28  48.484787  298.581440\n",
       "29   8.062088  309.234109\n",
       "..        ...         ...\n",
       "70  30.187692   89.539008\n",
       "71  11.788418  181.550683\n",
       "72  18.292424  224.773383\n",
       "73  96.712668  219.567094\n",
       "74  31.012739  298.490216\n",
       "75  11.397261  199.944045\n",
       "76  17.392556   43.915692\n",
       "77  72.182694  256.068378\n",
       "78  73.980021  159.372581\n",
       "79  94.493058  447.132704\n",
       "80  84.562821  233.078830\n",
       "81  51.742474  131.070180\n",
       "82  53.748590  298.814333\n",
       "83  85.050835  451.803523\n",
       "84  46.777250  368.366436\n",
       "85  49.758434  254.706774\n",
       "86  24.119257  168.308433\n",
       "87  27.201576  146.342260\n",
       "88   7.009596  176.810149\n",
       "89  97.646950  219.160280\n",
       "90   1.382983  252.905653\n",
       "91  22.323530  127.570479\n",
       "92  45.045406  375.822340\n",
       "93  40.163991   80.389019\n",
       "94  53.182740  142.718183\n",
       "95  46.456779  336.876154\n",
       "96  77.130301  438.460586\n",
       "97  68.600608  355.900287\n",
       "98  41.693887  284.834637\n",
       "99   4.142669  168.034401\n",
       "\n",
       "[100 rows x 2 columns]"
      ]
     },
     "execution_count": 106,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "X[[0,2]]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "También puedes seleccionar filas específicas basadas en algún tipo de criterio que te apetezca. Por ejemplo, supongamos que queremos todas las filas donde el valor de la columna 0 sea inferior a 5.\n",
    "\n",
    "Lo que puede parecer raro de esto es que la notación con corchetes '[]' nos permitia seleccionar columnas, pero si le pasamos una serie lo que seleccionamos son filas. Y sin embargo los dos utilizan la misma notación con corchetes."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 107,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>0</th>\n",
       "      <th>1</th>\n",
       "      <th>2</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>3.192702</td>\n",
       "      <td>29.256299</td>\n",
       "      <td>94.618811</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>44</th>\n",
       "      <td>3.593966</td>\n",
       "      <td>96.252217</td>\n",
       "      <td>293.237183</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>54</th>\n",
       "      <td>4.593463</td>\n",
       "      <td>46.335932</td>\n",
       "      <td>145.818745</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>90</th>\n",
       "      <td>1.382983</td>\n",
       "      <td>84.944087</td>\n",
       "      <td>252.905653</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>99</th>\n",
       "      <td>4.142669</td>\n",
       "      <td>52.254726</td>\n",
       "      <td>168.034401</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "           0          1           2\n",
       "5   3.192702  29.256299   94.618811\n",
       "44  3.593966  96.252217  293.237183\n",
       "54  4.593463  46.335932  145.818745\n",
       "90  1.382983  84.944087  252.905653\n",
       "99  4.142669  52.254726  168.034401"
      ]
     },
     "execution_count": 107,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "X[ X[0] < 5]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Ahora vamos a usar otro conjunto de datos distinto, al que le vamos a cambiar los nombres de las columnas y vamos a deshacernos de las últimas lineas que no nos sirven para nada."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 108,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "/home/david/ProyectosTF/machine_learning_examples/airline\n"
     ]
    }
   ],
   "source": [
    "os.chdir('/home/david/ProyectosTF/machine_learning_examples/airline/')\n",
    "print(os.getcwd())"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Cargamos el conjunto de datos como antes con la función read_csv() de Pandas, pero no le pasamos el parámetro de las cabeceras (header) porque por defecto Pandas lee las cabeceras y en esta ocasión las columnas sí que tienen nombres. También le indicamos que se salte las 3 últimas lineas con el parametro skipfooter=3, como skipfooter no funciona con el engine por defecto (C), le indicamos que use python"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 109,
   "metadata": {},
   "outputs": [],
   "source": [
    "df = pd.read_csv('international-airline-passengers.csv', engine = \"python\" , skipfooter=3)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Como vemos a continuación los nombres de las columnas son bastante largos y poco descriptivos"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 110,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Month</th>\n",
       "      <th>International airline passengers: monthly totals in thousands. Jan 49 ? Dec 60</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "Empty DataFrame\n",
       "Columns: [Month, International airline passengers: monthly totals in thousands. Jan 49 ? Dec 60]\n",
       "Index: []"
      ]
     },
     "execution_count": 110,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.head(0)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Así que vamos a cambiarlos por otros un poco mejores, pasandole una lista."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 111,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "Index(['month', 'passengers'], dtype='object')"
      ]
     },
     "execution_count": 111,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.columns = ['month', 'passengers']\n",
    "df.columns"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Ya hemos visto que podemos acceder a una columna pasandole el nombre de esta entre corchetes, así: df['passengers'] pero cuando los nombres de las columnas son strings también podemos acceder directamente de la siguiente forma:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 112,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "0      112\n",
       "1      118\n",
       "2      132\n",
       "3      129\n",
       "4      121\n",
       "5      135\n",
       "6      148\n",
       "7      148\n",
       "8      136\n",
       "9      119\n",
       "10     104\n",
       "11     118\n",
       "12     115\n",
       "13     126\n",
       "14     141\n",
       "15     135\n",
       "16     125\n",
       "17     149\n",
       "18     170\n",
       "19     170\n",
       "20     158\n",
       "21     133\n",
       "22     114\n",
       "23     140\n",
       "24     145\n",
       "25     150\n",
       "26     178\n",
       "27     163\n",
       "28     172\n",
       "29     178\n",
       "      ... \n",
       "114    491\n",
       "115    505\n",
       "116    404\n",
       "117    359\n",
       "118    310\n",
       "119    337\n",
       "120    360\n",
       "121    342\n",
       "122    406\n",
       "123    396\n",
       "124    420\n",
       "125    472\n",
       "126    548\n",
       "127    559\n",
       "128    463\n",
       "129    407\n",
       "130    362\n",
       "131    405\n",
       "132    417\n",
       "133    391\n",
       "134    419\n",
       "135    461\n",
       "136    472\n",
       "137    535\n",
       "138    622\n",
       "139    606\n",
       "140    508\n",
       "141    461\n",
       "142    390\n",
       "143    432\n",
       "Name: passengers, Length: 144, dtype: int64"
      ]
     },
     "execution_count": 112,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.passengers"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 113,
   "metadata": {},
   "outputs": [
    {
     "ename": "SyntaxError",
     "evalue": "invalid syntax (<ipython-input-113-cfa464292516>, line 1)",
     "output_type": "error",
     "traceback": [
      "\u001b[0;36m  File \u001b[0;32m\"<ipython-input-113-cfa464292516>\"\u001b[0;36m, line \u001b[0;32m1\u001b[0m\n\u001b[0;31m    Para añadir una nueva columna de unos a nuestro Dataframe hacemos lo siguiente\u001b[0m\n\u001b[0m              ^\u001b[0m\n\u001b[0;31mSyntaxError\u001b[0m\u001b[0;31m:\u001b[0m invalid syntax\n"
     ]
    }
   ],
   "source": [
    "Para añadir una nueva columna de unos a nuestro Dataframe hacemos lo siguiente"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 114,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>month</th>\n",
       "      <th>passengers</th>\n",
       "      <th>ones</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>1949-01</td>\n",
       "      <td>112</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>1949-02</td>\n",
       "      <td>118</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>1949-03</td>\n",
       "      <td>132</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>1949-04</td>\n",
       "      <td>129</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>1949-05</td>\n",
       "      <td>121</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "     month  passengers  ones\n",
       "0  1949-01         112     1\n",
       "1  1949-02         118     1\n",
       "2  1949-03         132     1\n",
       "3  1949-04         129     1\n",
       "4  1949-05         121     1"
      ]
     },
     "execution_count": 114,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df['ones'] = 1\n",
    "df.head(5)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Si queremos añadir una nueva columna que no sea toda del mismo valor, sino que queremos que esté relacionada con las otras columnas, utilizaremos la función apply(), que es parecida a la función map en python. Por ejemplo, si queremos que la nueva columna sea el resultado de multiplicar los valores de las dos columnas anteriores, tendriamos que hacer algo así:\n",
    "\n",
    "df[\"x1x2\"] = df.apply(lambda row: row['x1']* row['x2'], axis=1)\n",
    "\n",
    "Tenemos que indicar el parametro axis=1 para que la función se aplique por filas en vez de por columnas.\n",
    "\n",
    "Ahora vamos a probar con nuestro dataset a añadir una nueva columna con las fechas convertidas a datetime"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 115,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>month</th>\n",
       "      <th>passengers</th>\n",
       "      <th>ones</th>\n",
       "      <th>datetime</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>1949-01</td>\n",
       "      <td>112</td>\n",
       "      <td>1</td>\n",
       "      <td>1949-01-01</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>1949-02</td>\n",
       "      <td>118</td>\n",
       "      <td>1</td>\n",
       "      <td>1949-02-01</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>1949-03</td>\n",
       "      <td>132</td>\n",
       "      <td>1</td>\n",
       "      <td>1949-03-01</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>1949-04</td>\n",
       "      <td>129</td>\n",
       "      <td>1</td>\n",
       "      <td>1949-04-01</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>1949-05</td>\n",
       "      <td>121</td>\n",
       "      <td>1</td>\n",
       "      <td>1949-05-01</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "     month  passengers  ones   datetime\n",
       "0  1949-01         112     1 1949-01-01\n",
       "1  1949-02         118     1 1949-02-01\n",
       "2  1949-03         132     1 1949-03-01\n",
       "3  1949-04         129     1 1949-04-01\n",
       "4  1949-05         121     1 1949-05-01"
      ]
     },
     "execution_count": 115,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "datetime.strptime(\"1949-01\", \"%Y-%m\") \n",
    "df[\"datetime\"] = df.apply(lambda row: datetime.strptime(row[\"month\"], \"%Y-%m\"), axis=1)\n",
    "df.head(5)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Ahora vamos a ver como unir dos dataframes de forma similar al join en SQL"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 116,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "/home/david/ProyectosTF/machine_learning_examples/numpy_class\n"
     ]
    }
   ],
   "source": [
    "os.chdir('/home/david/ProyectosTF/machine_learning_examples/numpy_class/')\n",
    "print(os.getcwd())"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 117,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>user_id</th>\n",
       "      <th>email</th>\n",
       "      <th>age</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>1</td>\n",
       "      <td>alice@gmail.com</td>\n",
       "      <td>20</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>2</td>\n",
       "      <td>bob@gmail.com</td>\n",
       "      <td>25</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>3</td>\n",
       "      <td>carol@gmail.com</td>\n",
       "      <td>30</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   user_id            email  age\n",
       "0        1  alice@gmail.com   20\n",
       "1        2    bob@gmail.com   25\n",
       "2        3  carol@gmail.com   30"
      ]
     },
     "execution_count": 117,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "t1 = pd.read_csv(\"table1.csv\")\n",
    "t2 = pd.read_csv(\"table2.csv\")\n",
    "t1\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 118,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>user_id</th>\n",
       "      <th>ad_id</th>\n",
       "      <th>click</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>1</td>\n",
       "      <td>2</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>1</td>\n",
       "      <td>5</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>2</td>\n",
       "      <td>3</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>2</td>\n",
       "      <td>4</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>3</td>\n",
       "      <td>2</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7</th>\n",
       "      <td>3</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8</th>\n",
       "      <td>3</td>\n",
       "      <td>3</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9</th>\n",
       "      <td>3</td>\n",
       "      <td>4</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10</th>\n",
       "      <td>3</td>\n",
       "      <td>5</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "    user_id  ad_id  click\n",
       "0         1      1      1\n",
       "1         1      2      0\n",
       "2         1      5      0\n",
       "3         2      3      0\n",
       "4         2      4      1\n",
       "5         2      1      0\n",
       "6         3      2      0\n",
       "7         3      1      0\n",
       "8         3      3      0\n",
       "9         3      4      0\n",
       "10        3      5      1"
      ]
     },
     "execution_count": 118,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "t2"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Como es natural, vamos a unir las tablas por la columna user_id, que es la que comparten las dos. Para esto hay una función en Pandas que se llama merge() que nos va a ser muy útil. Tan solo le tenemos que pasar las dos tablas que queremos unir y la columna de unión, si no le pasamos ninguna columna utilizará el índice de la fila."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 119,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>user_id</th>\n",
       "      <th>email</th>\n",
       "      <th>age</th>\n",
       "      <th>ad_id</th>\n",
       "      <th>click</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>1</td>\n",
       "      <td>alice@gmail.com</td>\n",
       "      <td>20</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>1</td>\n",
       "      <td>alice@gmail.com</td>\n",
       "      <td>20</td>\n",
       "      <td>2</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>1</td>\n",
       "      <td>alice@gmail.com</td>\n",
       "      <td>20</td>\n",
       "      <td>5</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>2</td>\n",
       "      <td>bob@gmail.com</td>\n",
       "      <td>25</td>\n",
       "      <td>3</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>2</td>\n",
       "      <td>bob@gmail.com</td>\n",
       "      <td>25</td>\n",
       "      <td>4</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>2</td>\n",
       "      <td>bob@gmail.com</td>\n",
       "      <td>25</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>3</td>\n",
       "      <td>carol@gmail.com</td>\n",
       "      <td>30</td>\n",
       "      <td>2</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7</th>\n",
       "      <td>3</td>\n",
       "      <td>carol@gmail.com</td>\n",
       "      <td>30</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8</th>\n",
       "      <td>3</td>\n",
       "      <td>carol@gmail.com</td>\n",
       "      <td>30</td>\n",
       "      <td>3</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9</th>\n",
       "      <td>3</td>\n",
       "      <td>carol@gmail.com</td>\n",
       "      <td>30</td>\n",
       "      <td>4</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10</th>\n",
       "      <td>3</td>\n",
       "      <td>carol@gmail.com</td>\n",
       "      <td>30</td>\n",
       "      <td>5</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "    user_id            email  age  ad_id  click\n",
       "0         1  alice@gmail.com   20      1      1\n",
       "1         1  alice@gmail.com   20      2      0\n",
       "2         1  alice@gmail.com   20      5      0\n",
       "3         2    bob@gmail.com   25      3      0\n",
       "4         2    bob@gmail.com   25      4      1\n",
       "5         2    bob@gmail.com   25      1      0\n",
       "6         3  carol@gmail.com   30      2      0\n",
       "7         3  carol@gmail.com   30      1      0\n",
       "8         3  carol@gmail.com   30      3      0\n",
       "9         3  carol@gmail.com   30      4      0\n",
       "10        3  carol@gmail.com   30      5      1"
      ]
     },
     "execution_count": 119,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "m = pd.merge(t1, t2, on=\"user_id\") #tambien se puede así:  t1.merge(t2, on=\"user_id\")\n",
    "m"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Aquí termina este repaso por las funciones más habituales de Pandas. Hay un montón de funcionalidades que no hemos visto, pero con esto se puede ir tirando, para todo lo demás StackOverflow."
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.5.2"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}