12  EDA: Explora visualmente tus datos

¿Tus datos te dicen poco? Aprende las técnicas de EDA y descubre cómo visualizar, resumir y comprender las características principales y patrones en tus conjuntos de datos.

Con EDA, puedes crear visualizaciones impactantes como histogramas, gráficos de caja y diagramas de dispersión para revelar la distribución y las relaciones entre tus variables. Estas herramientas gráficas son esenciales para interpretar tus datos de manera intuitiva y efectiva.

En esta sesión, descubriremos cómo el EDA es un aliado poderoso en la comprensión profunda de la naturaleza de nuestros datos. Nos permite identificar patrones, tendencias y anomalías, lo que resulta crucial para tomar decisiones basadas en evidencia en nuestro análisis de datos.

import pandas as pd
f = "../data/Cuernavaca_1dia_comas.csv"
cuerna = pd.read_csv(f,index_col=0,parse_dates=True)
cuerna.index
DatetimeIndex(['2012-01-01 00:00:00', '2012-01-01 01:00:00',
               '2012-01-01 02:00:00', '2012-01-01 03:00:00',
               '2012-01-01 04:00:00', '2012-01-01 05:00:00',
               '2012-01-01 06:00:00', '2012-01-01 07:00:00',
               '2012-01-01 08:00:00', '2012-01-01 09:00:00',
               '2012-01-01 10:00:00', '2012-01-01 11:00:00',
               '2012-01-01 12:00:00', '2012-01-01 13:00:00',
               '2012-01-01 14:00:00', '2012-01-01 15:00:00',
               '2012-01-01 16:00:00', '2012-01-01 17:00:00',
               '2012-01-01 18:00:00', '2012-01-01 19:00:00',
               '2012-01-01 20:00:00', '2012-01-01 21:00:00',
               '2012-01-01 22:00:00', '2012-01-01 23:00:00'],
              dtype='datetime64[ns]', name='tiempo', freq=None)
cuerna.plot()

cuerna.plot(subplots=True)
array([<Axes: xlabel='tiempo'>, <Axes: xlabel='tiempo'>,
       <Axes: xlabel='tiempo'>, <Axes: xlabel='tiempo'>,
       <Axes: xlabel='tiempo'>, <Axes: xlabel='tiempo'>,
       <Axes: xlabel='tiempo'>], dtype=object)

cuerna.plot(subplots=True,figsize=(10,10))
array([<Axes: xlabel='tiempo'>, <Axes: xlabel='tiempo'>,
       <Axes: xlabel='tiempo'>, <Axes: xlabel='tiempo'>,
       <Axes: xlabel='tiempo'>, <Axes: xlabel='tiempo'>,
       <Axes: xlabel='tiempo'>], dtype=object)

cuerna.columns
Index(['To', 'Ws', 'Wd', 'P', 'Ig', 'Ib', 'Id'], dtype='object')
columnas = ['To',  'P', 'Ig']
cuerna[columnas].plot(subplots=True)
array([<Axes: xlabel='tiempo'>, <Axes: xlabel='tiempo'>,
       <Axes: xlabel='tiempo'>], dtype=object)