8 Explorando las opciones de read_csv

En esta sesión, exploraremos los parámetros de la función pd.read_csv(), que nos permiten personalizar la carga de datos desde archivos CSV.

Desde la selección de separadores hasta la definición de columnas de índice, los parámetros de la función son esenciales para una carga de datos efectiva en Pandas.

Descubre cómo estos parámetros te ayudan a optimizar la importación de datos y adaptarla a tus necesidades específicas con Pandas. Toma el control con los parámetros de pd.read_csv() y personaliza la importación de datos para adaptarla a tus necesidades específicas.

# revisa los datos

import pandas as pd

f = "../data/Cuernavca_T1dia_tabulador.csv"
cuerna = pd.read_csv(f) # Como leer la ayuda shift + tab
cuerna.head()

	tiempo\tTo
0	2012-01-01 00:00:00\t19.3
1	2012-01-01 01:00:00\t18.6
2	2012-01-01 02:00:00\t17.9
3	2012-01-01 03:00:00\t17.3
4	2012-01-01 04:00:00\t16.6

cuerna = pd.read_csv(f,sep="\t") #delimiter
cuerna = pd.read_csv(f,delimiter="\t") #delimiter

cuerna.head()

	tiempo	To
0	2012-01-01 00:00:00	19.3
1	2012-01-01 01:00:00	18.6
2	2012-01-01 02:00:00	17.9
3	2012-01-01 03:00:00	17.3
4	2012-01-01 04:00:00	16.6

cuerna = pd.read_csv(f,header=None,sep="\t")
cuerna.head()

	0	1
0	tiempo	To
1	2012-01-01 00:00:00	19.3
2	2012-01-01 01:00:00	18.6
3	2012-01-01 02:00:00	17.9
4	2012-01-01 03:00:00	17.3

cuerna = pd.read_csv(
    f,
    header=None,
    sep="\t",
    names = ["t","temperatura"]
)
cuerna.head()

	t	temperatura
0	tiempo	To
1	2012-01-01 00:00:00	19.3
2	2012-01-01 01:00:00	18.6
3	2012-01-01 02:00:00	17.9
4	2012-01-01 03:00:00	17.3

cuerna = pd.read_csv(
    f,
    header=None,
    sep="\t",
    names = ["t","temperatura"],
    skiprows=1
)
cuerna.head()

	t	temperatura
0	2012-01-01 00:00:00	19.3
1	2012-01-01 01:00:00	18.6
2	2012-01-01 02:00:00	17.9
3	2012-01-01 03:00:00	17.3
4	2012-01-01 04:00:00	16.6

cuerna = pd.read_csv(
    f,
    header=None,
    sep="\t",
    names = ["t","temperatura"],
    skiprows=1,
    index_col=0
)
cuerna.head()

	temperatura
t
2012-01-01 00:00:00	19.3
2012-01-01 01:00:00	18.6
2012-01-01 02:00:00	17.9
2012-01-01 03:00:00	17.3
2012-01-01 04:00:00	16.6

cuerna = pd.read_csv(
    f,
    header=None,
    sep="\t",
    names = ["t","temperatura"],
    skiprows=1,
    index_col=0,
    parse_dates=True
)
cuerna.head()

	temperatura
t
2012-01-01 00:00:00	19.3
2012-01-01 01:00:00	18.6
2012-01-01 02:00:00	17.9
2012-01-01 03:00:00	17.3
2012-01-01 04:00:00	16.6

cuerna.index

DatetimeIndex(['2012-01-01 00:00:00', '2012-01-01 01:00:00',
               '2012-01-01 02:00:00', '2012-01-01 03:00:00',
               '2012-01-01 04:00:00', '2012-01-01 05:00:00',
               '2012-01-01 06:00:00', '2012-01-01 07:00:00',
               '2012-01-01 08:00:00', '2012-01-01 09:00:00',
               '2012-01-01 10:00:00', '2012-01-01 11:00:00',
               '2012-01-01 12:00:00', '2012-01-01 13:00:00',
               '2012-01-01 14:00:00', '2012-01-01 15:00:00',
               '2012-01-01 16:00:00', '2012-01-01 17:00:00',
               '2012-01-01 18:00:00', '2012-01-01 19:00:00',
               '2012-01-01 20:00:00', '2012-01-01 21:00:00',
               '2012-01-01 22:00:00', '2012-01-01 23:00:00'],
              dtype='datetime64[ns]', name='t', freq=None)

f = "../data/Cuernavaca_1dia_comas.csv"
cuerna = pd.read_csv(
    f,
    index_col=0,
    parse_dates=True
)
cuerna.head()

	To	Ws	Wd	P	Ig	Ib	Id
tiempo
2012-01-01 00:00:00	19.3	0.0	26	87415	0	0	0
2012-01-01 01:00:00	18.6	0.0	26	87602	0	0	0
2012-01-01 02:00:00	17.9	0.0	30	87788	0	0	0
2012-01-01 03:00:00	17.3	0.0	30	87554	0	0	0
2012-01-01 04:00:00	16.6	0.0	27	87321	0	0	0

f = "../data/Cuernavaca_1dia_comas.csv"
cuerna = pd.read_csv(
    f,
    index_col=0,
    parse_dates=True,
    usecols=[0,1,2,3]
)
cuerna.head()

	To	Ws	Wd
tiempo
2012-01-01 00:00:00	19.3	0.0	26
2012-01-01 01:00:00	18.6	0.0	26
2012-01-01 02:00:00	17.9	0.0	30
2012-01-01 03:00:00	17.3	0.0	30
2012-01-01 04:00:00	16.6	0.0	27