import seaborn as sns

df = sns.load_dataset("tips")
df.head()


# dataframe.columna.sum()
df.tip.sum()

731.5799999999999


# Podemos obtener la suma de dos o mas columnas
df[['total_bill', 'tip']].sum()

total_bill    4827.77
tip            731.58
dtype: float64


# registros solo para sex = Female,
# luego seleccionamos la columna tip
# y aplicamos la funcion sum()
df[df.sex == 'Female'].tip.sum()

246.50999999999996


# hacemos lo mismo para male
df[df.sex == 'Male'].tip.sum()

485.07


# Dado que queremos sumar por filas, dentro de la funcion
# sum() configuramos axis=1 para realizar la suma
# por filas
df[['total_bill', 'tip']].sum(axis=1)

0      18.00
1      12.00
2      24.51
3      26.99
4      28.20
       ...  
239    34.95
240    29.18
241    24.67
242    19.57
243    21.78
Length: 244, dtype: float64


df['total_gasto'] = df[['total_bill', 'tip']].sum(axis=1)
df.head()


import numpy as np

# las siguientes tres alternativas representan lo mismo
print(np.nan)
print(np.NaN)
print(np.NAN)

nan
nan
nan


# creamos un diccionario para especificar los valores de la fila 
# que queremos agregara
nueva_fila = {'total_bill': 17, 'tip': 1, 
              'sex': np.nan, 'smoker': np.nan,
              'day': 'sun', 'time': 'Dinner',
              'size': np.nan, 'total_gasto': np.nan}
# agregamos la fila anterior con el metodo append()
df = df.append(nueva_fila, ignore_index=True)
df

C:\Users\usuario\AppData\Local\Temp\ipykernel_18948\3376625475.py:8: FutureWarning: The frame.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.
  df = df.append(nueva_fila, ignore_index=True)


# observemos que ya se han detectado los valores nulos:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 245 entries, 0 to 244
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   total_bill   245 non-null    float64
 1   tip          245 non-null    float64
 2   sex          244 non-null    object 
 3   smoker       244 non-null    object 
 4   day          245 non-null    object 
 5   time         245 non-null    object 
 6   size         244 non-null    float64
 7   total_gasto  244 non-null    float64
dtypes: float64(4), object(4)
memory usage: 15.4+ KB


df.sex.isnull()

0      False
1      False
2      False
3      False
4      False
       ...  
240    False
241    False
242    False
243    False
244     True
Name: sex, Length: 245, dtype: bool


# o alternativamente
df.sex.isna()

0      False
1      False
2      False
3      False
4      False
       ...  
240    False
241    False
242    False
243    False
244     True
Name: sex, Length: 245, dtype: bool


df.sex.isnull().sum()

1


# o para todas las columnas
df.isnull().sum()

total_bill     0
tip            0
sex            1
smoker         1
day            0
time           0
size           1
total_gasto    1
dtype: int64


df.smoker.count()

244


# o contar dada una condicion
df[df.smoker == 'Yes'].count()

total_bill     93
tip            93
sex            93
smoker         93
day            93
time           93
size           93
total_gasto    93
dtype: int64


# mas sutil
df[df.smoker == 'Yes']['smoker'].count()

93


# No fumadores
df[df.smoker == 'No']['smoker'].count()

151


# El conteo se hace de manera horizontal
df.count(axis=1)

0      8
1      8
2      8
3      8
4      8
      ..
240    8
241    8
242    8
243    8
244    4
Length: 245, dtype: int64


# Contamos por categorias de la columna sex
df.value_counts('sex')

sex
Male      157
Female     87
dtype: int64


# alternativamene
df.sex.value_counts()

Male      157
Female     87
Name: sex, dtype: int64


df.sex.value_counts(dropna=False)

Male      157
Female     87
NaN         1
Name: sex, dtype: int64


df.sex.value_counts(sort=False, dropna=False)

Female     87
Male      157
NaN         1
Name: sex, dtype: int64


df.sex.value_counts(ascending=True, dropna=False)

NaN         1
Female     87
Male      157
Name: sex, dtype: int64


df.sex.value_counts(normalize=True, dropna=False)

Male      0.640816
Female    0.355102
NaN       0.004082
Name: sex, dtype: float64


df.smoker.value_counts()

No     151
Yes     93
Name: smoker, dtype: int64


df.groupby('smoker').count()


df.groupby('smoker').count()['tip']

smoker
No     151
Yes     93
Name: tip, dtype: int64


# o alternativamente
df.groupby('smoker')['tip'].count()

smoker
No     151
Yes     93
Name: tip, dtype: int64


df.smoker.value_counts()

No     151
Yes     93
Name: smoker, dtype: int64


df.groupby('smoker')['smoker'].count()

smoker
No     151
Yes     93
Name: smoker, dtype: int64


df.groupby('sex').sum()


# Agrupamos por las categorias de la columna sex,
# seleccionamos la columna total_bill y
# sumamos todos los valores de total_bill
# por categorias 
df.groupby('sex')['total_bill'].sum()

sex
Female    1570.95
Male      3256.82
Name: total_bill, dtype: float64


# Agrupamos por las categorias de la columna sex,
# seleccionamos cualquier columna y
# contamos todos los registros
# por categorias 
df.groupby('sex')['tip'].count()

sex
Female     87
Male      157
Name: tip, dtype: int64


# Agrupamos por las categorias de la columna day,
# seleccionamos la columna tip y
# obtenemos el promedio de todos los registros
# por categorias 
df.groupby('day')['tip'].mean()

day
Fri     2.734737
Sat     2.993103
Sun     3.255132
Thur    2.771452
sun     1.000000
Name: tip, dtype: float64


# o el promedio del total de facturas por dia
df.groupby('day')['total_bill'].mean()

day
Fri     17.151579
Sat     20.441379
Sun     21.410000
Thur    17.682742
sun     17.000000
Name: total_bill, dtype: float64


df.groupby('day')['total_bill']

<pandas.core.groupby.generic.SeriesGroupBy object at 0x00000209FA5BC2E0>


type(df.groupby('day')['total_bill'])

pandas.core.groupby.generic.SeriesGroupBy


df[df.day == 'Fri']['total_bill']

90     28.97
91     22.49
92      5.75
93     16.32
94     22.75
95     40.17
96     27.28
97     12.03
98     21.01
99     12.46
100    11.35
101    15.38
220    12.16
221    13.42
222     8.58
223    15.98
224    13.42
225    16.27
226    10.09
Name: total_bill, dtype: float64


# convertimos en lista y accedemos al primer elemento
list(df.groupby('day')['total_bill'])[0]

('Fri',
 90     28.97
 91     22.49
 92      5.75
 93     16.32
 94     22.75
 95     40.17
 96     27.28
 97     12.03
 98     21.01
 99     12.46
 100    11.35
 101    15.38
 220    12.16
 221    13.42
 222     8.58
 223    15.98
 224    13.42
 225    16.27
 226    10.09
 Name: total_bill, dtype: float64)


# Por ejemplo
df.groupby('day')['total_bill'].mean()

day
Fri     17.151579
Sat     20.441379
Sun     21.410000
Thur    17.682742
sun     17.000000
Name: total_bill, dtype: float64


print(type(df.groupby('day')['total_bill']))
print(type(df.groupby('day')))

<class 'pandas.core.groupby.generic.SeriesGroupBy'>
<class 'pandas.core.groupby.generic.DataFrameGroupBy'>


# convertimos en lista y accedemos al primer elemento
list(df.groupby('day'))[0]

('Fri',
      total_bill   tip     sex smoker  day    time  size  total_gasto
 90        28.97  3.00    Male    Yes  Fri  Dinner   2.0        31.97
 91        22.49  3.50    Male     No  Fri  Dinner   2.0        25.99
 92         5.75  1.00  Female    Yes  Fri  Dinner   2.0         6.75
 93        16.32  4.30  Female    Yes  Fri  Dinner   2.0        20.62
 94        22.75  3.25  Female     No  Fri  Dinner   2.0        26.00
 95        40.17  4.73    Male    Yes  Fri  Dinner   4.0        44.90
 96        27.28  4.00    Male    Yes  Fri  Dinner   2.0        31.28
 97        12.03  1.50    Male    Yes  Fri  Dinner   2.0        13.53
 98        21.01  3.00    Male    Yes  Fri  Dinner   2.0        24.01
 99        12.46  1.50    Male     No  Fri  Dinner   2.0        13.96
 100       11.35  2.50  Female    Yes  Fri  Dinner   2.0        13.85
 101       15.38  3.00  Female    Yes  Fri  Dinner   2.0        18.38
 220       12.16  2.20    Male    Yes  Fri   Lunch   2.0        14.36
 221       13.42  3.48  Female    Yes  Fri   Lunch   2.0        16.90
 222        8.58  1.92    Male    Yes  Fri   Lunch   1.0        10.50
 223       15.98  3.00  Female     No  Fri   Lunch   3.0        18.98
 224       13.42  1.58    Male    Yes  Fri   Lunch   2.0        15.00
 225       16.27  2.50  Female    Yes  Fri   Lunch   2.0        18.77
 226       10.09  2.00  Female    Yes  Fri   Lunch   2.0        12.09)


type(list(df.groupby('day'))[0][1])

pandas.core.frame.DataFrame


list(df.groupby('day')['total_bill'])[0]

('Fri',
 90     28.97
 91     22.49
 92      5.75
 93     16.32
 94     22.75
 95     40.17
 96     27.28
 97     12.03
 98     21.01
 99     12.46
 100    11.35
 101    15.38
 220    12.16
 221    13.42
 222     8.58
 223    15.98
 224    13.42
 225    16.27
 226    10.09
 Name: total_bill, dtype: float64)


type(list(df.groupby('day')['total_bill'])[0][1])

pandas.core.series.Series


# para mayor facilidad definimos una variable
gr = df.groupby('day')['total_bill']

# obtenemos los registros de total_bill para el viernes
gr.get_group('Fri')

90     28.97
91     22.49
92      5.75
93     16.32
94     22.75
95     40.17
96     27.28
97     12.03
98     21.01
99     12.46
100    11.35
101    15.38
220    12.16
221    13.42
222     8.58
223    15.98
224    13.42
225    16.27
226    10.09
Name: total_bill, dtype: float64


df[(df.smoker == 'Yes') & (df.day == 'Sun')].iloc[:, [3,4, 1, 2, 5, 6, 7]]


# para agrupar con base en mas de una columna
# utilizamos una lista con las columnas de interes para
# la agrupacion, luego colocaremos el nombre de la
# columna de la informacion que nos interesa y al final
# colocamos la agregacion del promedio
df.groupby(['smoker', 'day'])['total_gasto'].mean()

smoker  day 
No      Fri     21.232500
        Sat     22.764667
        Sun     23.674561
        Thur    19.786889
Yes     Fri     19.527333
        Sat     24.152143
        Sun     27.636842
        Thur    22.220588
Name: total_gasto, dtype: float64


# En este caso agrupamos con base en tres columna
# y seleccionamos despues cualquier columna, en nuestro
# caso seleccionaremos la columna tip
df.groupby(['smoker', 'day', 'sex'])['tip'].count()

smoker  day   sex   
No      Fri   Female     2
              Male       2
        Sat   Female    13
              Male      32
        Sun   Female    14
              Male      43
        Thur  Female    25
              Male      20
Yes     Fri   Female     7
              Male       8
        Sat   Female    15
              Male      27
        Sun   Female     4
              Male      15
        Thur  Female     7
              Male      10
Name: tip, dtype: int64

Curso de introducción a la programación con Python¶

Contenido¶

Agregaciones ¶

Sumas¶

Valores nulos¶

Conteos¶

Group by ¶

Groupby un poco más a fondo¶

Agrupaciones múltiples¶

	total_bill	tip	sex	smoker	day	time	size
0	16.99	1.01	Female	No	Sun	Dinner	2
1	10.34	1.66	Male	No	Sun	Dinner	3
2	21.01	3.50	Male	No	Sun	Dinner	3
3	23.68	3.31	Male	No	Sun	Dinner	2
4	24.59	3.61	Female	No	Sun	Dinner	4

	total_bill	tip	size	total_gasto
sex
Female	1570.95	246.51	214.0	1817.46
Male	3256.82	485.07	413.0	3741.89

	smoker	day	tip	sex	time	size	total_gasto
164	Yes	Sun	3.00	Female	Dinner	2.0	20.51
172	Yes	Sun	5.15	Male	Dinner	2.0	12.40
173	Yes	Sun	3.18	Male	Dinner	2.0	35.03
174	Yes	Sun	4.00	Male	Dinner	2.0	20.82
175	Yes	Sun	3.11	Male	Dinner	2.0	36.01
176	Yes	Sun	2.00	Male	Dinner	2.0	19.89
177	Yes	Sun	2.00	Male	Dinner	2.0	16.48
178	Yes	Sun	4.00	Female	Dinner	2.0	13.60
179	Yes	Sun	3.55	Male	Dinner	2.0	38.18
180	Yes	Sun	3.68	Male	Dinner	4.0	38.33
181	Yes	Sun	5.65	Male	Dinner	2.0	28.98
182	Yes	Sun	3.50	Male	Dinner	3.0	48.85
183	Yes	Sun	6.50	Male	Dinner	4.0	29.67
184	Yes	Sun	3.00	Male	Dinner	2.0	43.55
186	Yes	Sun	3.50	Female	Dinner	3.0	24.40
187	Yes	Sun	2.00	Male	Dinner	5.0	32.46
188	Yes	Sun	3.50	Female	Dinner	3.0	21.65
189	Yes	Sun	4.00	Male	Dinner	3.0	27.10
190	Yes	Sun	1.50	Male	Dinner	2.0	17.19