Iniciar un análisis de datos requiere comprender desde el inicio tanto la estructura como el contenido de tus DataFrames. Ahora, emprenderemos el camino hacia el Análisis Exploratorio de Datos (EDA), enfocándonos en pasos esenciales como conocer y descubrir los tipos de datos de tu DataFrame. Descubre el núcleo de tu información mediante estadísticas descriptivas que proporcionan un panorama de las tendencias centrales, la dispersión y la forma de las variables.
Es crucial verificar el tipo de tus datos para asegurar que cada columna esté adecuadamente configurada para el análisis deseado.
import pandas as pd
f ="../data/Cuernavaca_1dia_comas_Nans.csv"cuerna = pd.read_csv(f,index_col=0,parse_dates=True)cuerna.head()
To
Ws
Wd
P
Ig
Ib
Id
observacion
tiempo
2012-01-01 00:00:00
NaN
0.0
26
87415
0
0
0
Sí
2012-01-01 01:00:00
18.6
0.0
26
87602
0
0
0
No
2012-01-01 02:00:00
17.9
0.0
30
87788
0
0
0
No
2012-01-01 03:00:00
NaN
0.0
30
87554
0
0
0
No
2012-01-01 04:00:00
16.6
0.0
27
87321
0
0
0
No
cuerna.tail()
To
Ws
Wd
P
Ig
Ib
Id
observacion
tiempo
2012-01-01 19:00:00
17.0
0.0
269
87101
0
0
0
No
2012-01-01 20:00:00
NaN
0.0
50
87115
0
0
0
No
2012-01-01 21:00:00
17.0
0.2
85
87080
0
0
0
No
2012-01-01 22:00:00
16.6
0.5
89
87089
0
0
0
No
2012-01-01 23:00:00
NaN
0.8
93
87143
0
0
0
No
cuerna.describe()
To
Ws
Wd
P
Ig
Ib
Id
count
13.000000
24.00000
24.00000
24.000000
24.000000
24.000000
24.00000
mean
18.123077
0.47500
101.25000
87255.958333
227.666667
366.625000
28.00000
std
1.744111
0.67711
71.75214
180.197351
311.130291
442.973727
34.25353
min
15.900000
0.00000
26.00000
87080.000000
0.000000
0.000000
0.00000
25%
17.000000
0.00000
30.00000
87112.250000
0.000000
0.000000
0.00000
50%
17.900000
0.00000
91.00000
87229.000000
0.000000
0.000000
0.00000
75%
19.000000
1.00000
160.00000
87305.500000
466.750000
867.250000
65.75000
max
22.000000
2.10000
269.00000
87788.000000
810.000000
999.000000
80.00000
cuerna.dtypes
To float64
Ws float64
Wd int64
P int64
Ig int64
Ib int64
Id int64
observacion object
dtype: object
cuerna.nunique()
To 9
Ws 10
Wd 19
P 20
Ig 12
Ib 12
Id 11
observacion 2
dtype: int64
cuerna.observacion.value_counts()
observacion
No 16
Sí 8
Name: count, dtype: int64
cuerna.observacion.value_counts(normalize=True)
observacion
No 0.666667
Sí 0.333333
Name: proportion, dtype: float64
cuerna.isnull()
To
Ws
Wd
P
Ig
Ib
Id
observacion
tiempo
2012-01-01 00:00:00
True
False
False
False
False
False
False
False
2012-01-01 01:00:00
False
False
False
False
False
False
False
False
2012-01-01 02:00:00
False
False
False
False
False
False
False
False
2012-01-01 03:00:00
True
False
False
False
False
False
False
False
2012-01-01 04:00:00
False
False
False
False
False
False
False
False
2012-01-01 05:00:00
False
False
False
False
False
False
False
False
2012-01-01 06:00:00
False
False
False
False
False
False
False
False
2012-01-01 07:00:00
False
False
False
False
False
False
False
False
2012-01-01 08:00:00
False
False
False
False
False
False
False
False
2012-01-01 09:00:00
False
False
False
False
False
False
False
False
2012-01-01 10:00:00
False
False
False
False
False
False
False
False
2012-01-01 11:00:00
True
False
False
False
False
False
False
False
2012-01-01 12:00:00
True
False
False
False
False
False
False
False
2012-01-01 13:00:00
False
False
False
False
False
False
False
False
2012-01-01 14:00:00
True
False
False
False
False
False
False
False
2012-01-01 15:00:00
True
False
False
False
False
False
False
False
2012-01-01 16:00:00
True
False
False
False
False
False
False
False
2012-01-01 17:00:00
True
False
False
False
False
False
False
False
2012-01-01 18:00:00
True
False
False
False
False
False
False
False
2012-01-01 19:00:00
False
False
False
False
False
False
False
False
2012-01-01 20:00:00
True
False
False
False
False
False
False
False
2012-01-01 21:00:00
False
False
False
False
False
False
False
False
2012-01-01 22:00:00
False
False
False
False
False
False
False
False
2012-01-01 23:00:00
True
False
False
False
False
False
False
False
cuerna.isnull().sum()
To 11
Ws 0
Wd 0
P 0
Ig 0
Ib 0
Id 0
observacion 0
dtype: int64