13  Exploración de los datos en tu DataFrame

Iniciar un análisis de datos requiere comprender desde el inicio tanto la estructura como el contenido de tus DataFrames. Ahora, emprenderemos el camino hacia el Análisis Exploratorio de Datos (EDA), enfocándonos en pasos esenciales como conocer y descubrir los tipos de datos de tu DataFrame. Descubre el núcleo de tu información mediante estadísticas descriptivas que proporcionan un panorama de las tendencias centrales, la dispersión y la forma de las variables.

Es crucial verificar el tipo de tus datos para asegurar que cada columna esté adecuadamente configurada para el análisis deseado.

import pandas as pd
f = "../data/Cuernavaca_1dia_comas_Nans.csv"
cuerna = pd.read_csv(f,index_col=0,parse_dates=True)
cuerna.head()
To Ws Wd P Ig Ib Id observacion
tiempo
2012-01-01 00:00:00 NaN 0.0 26 87415 0 0 0
2012-01-01 01:00:00 18.6 0.0 26 87602 0 0 0 No
2012-01-01 02:00:00 17.9 0.0 30 87788 0 0 0 No
2012-01-01 03:00:00 NaN 0.0 30 87554 0 0 0 No
2012-01-01 04:00:00 16.6 0.0 27 87321 0 0 0 No
cuerna.tail()
To Ws Wd P Ig Ib Id observacion
tiempo
2012-01-01 19:00:00 17.0 0.0 269 87101 0 0 0 No
2012-01-01 20:00:00 NaN 0.0 50 87115 0 0 0 No
2012-01-01 21:00:00 17.0 0.2 85 87080 0 0 0 No
2012-01-01 22:00:00 16.6 0.5 89 87089 0 0 0 No
2012-01-01 23:00:00 NaN 0.8 93 87143 0 0 0 No
cuerna.describe()
To Ws Wd P Ig Ib Id
count 13.000000 24.00000 24.00000 24.000000 24.000000 24.000000 24.00000
mean 18.123077 0.47500 101.25000 87255.958333 227.666667 366.625000 28.00000
std 1.744111 0.67711 71.75214 180.197351 311.130291 442.973727 34.25353
min 15.900000 0.00000 26.00000 87080.000000 0.000000 0.000000 0.00000
25% 17.000000 0.00000 30.00000 87112.250000 0.000000 0.000000 0.00000
50% 17.900000 0.00000 91.00000 87229.000000 0.000000 0.000000 0.00000
75% 19.000000 1.00000 160.00000 87305.500000 466.750000 867.250000 65.75000
max 22.000000 2.10000 269.00000 87788.000000 810.000000 999.000000 80.00000
cuerna.dtypes
To             float64
Ws             float64
Wd               int64
P                int64
Ig               int64
Ib               int64
Id               int64
observacion     object
dtype: object
cuerna.nunique()
To              9
Ws             10
Wd             19
P              20
Ig             12
Ib             12
Id             11
observacion     2
dtype: int64
cuerna.observacion.value_counts()
observacion
No    16
Sí     8
Name: count, dtype: int64
cuerna.observacion.value_counts(normalize=True)
observacion
No    0.666667
Sí    0.333333
Name: proportion, dtype: float64
cuerna.isnull()
To Ws Wd P Ig Ib Id observacion
tiempo
2012-01-01 00:00:00 True False False False False False False False
2012-01-01 01:00:00 False False False False False False False False
2012-01-01 02:00:00 False False False False False False False False
2012-01-01 03:00:00 True False False False False False False False
2012-01-01 04:00:00 False False False False False False False False
2012-01-01 05:00:00 False False False False False False False False
2012-01-01 06:00:00 False False False False False False False False
2012-01-01 07:00:00 False False False False False False False False
2012-01-01 08:00:00 False False False False False False False False
2012-01-01 09:00:00 False False False False False False False False
2012-01-01 10:00:00 False False False False False False False False
2012-01-01 11:00:00 True False False False False False False False
2012-01-01 12:00:00 True False False False False False False False
2012-01-01 13:00:00 False False False False False False False False
2012-01-01 14:00:00 True False False False False False False False
2012-01-01 15:00:00 True False False False False False False False
2012-01-01 16:00:00 True False False False False False False False
2012-01-01 17:00:00 True False False False False False False False
2012-01-01 18:00:00 True False False False False False False False
2012-01-01 19:00:00 False False False False False False False False
2012-01-01 20:00:00 True False False False False False False False
2012-01-01 21:00:00 False False False False False False False False
2012-01-01 22:00:00 False False False False False False False False
2012-01-01 23:00:00 True False False False False False False False
cuerna.isnull().sum()
To             11
Ws              0
Wd              0
P               0
Ig              0
Ib              0
Id              0
observacion     0
dtype: int64