# importaciones necesarias
import matplotlib.pyplot as plt
from matplotlib_venn import venn2 
import pandas as pd
import numpy as np
from faker import Faker

# Libreria para no ver las advertencias en la salida
import warnings
warnings.filterwarnings('ignore')

# Instanciamos
fake = Faker()


# Creamos valores para asignar ids
ID = [i for i in range(1, 1001)]
# creamos 1000 nombres 
nombres = [fake.name() + ' ' + fake.last_name() for i in range(1000)]
# 1000 correos electronicos
correos = [fake.email() for i in range(1000)]
# 1000 edades
edades = [fake.random_int(18, 80) for i in range(1000)]
# Creamos un diccionario con la info anterior
dict_info = {'ID': ID, 'Nombre': nombres, 'Edad': edades, 'Correo': correos}
# Creamos el dataframe
df_empleados = pd.DataFrame(dict_info)
# 1000 salarios
salarios = [np.random.rand() * 10000 for i in range(1000)]
# 1000 correos electronicos
correos = [fake.email() for i in range(1000)]
# Creamos un diccionario con el salario y el ID
dict_info = {'ID': ID, 'Salario': salarios, 'Correo': correos}
# Creamos el dataframe
df_salario = pd.DataFrame(dict_info)
# Empleados nuevos
emp1 = {'ID': 1001, 'Nombre': 'Diana Smith', 'Edad': 27, 'Correo': 'diana27182@edu.com'}
emp2 = {'ID': 1002, 'Nombre': 'Luka Ldresh', 'Edad': 20, 'Correo': 'lukaecdf@gmail.com'}
# Los agregamos al dataframe
df_empleados = df_empleados.append(emp1, ignore_index=True)
df_empleados = df_empleados.append(emp2, ignore_index=True)


# realizamos la union interna y cambiamos los sufijos:
df_union_interna = df_empleados.merge(df_salario, on='ID',
                                     suffixes=('_personal', '_compañia'))
# veamos
df_union_interna.head()


# Creamos un dataframe vacio con dos columnas
df_correos = pd.DataFrame({'ID': [], 'Correo': []})
df_correos


# Recorremos todas las filas de df_union_interna
for i in range(df_union_interna.shape[0]):
    # Creamos una fila nueva para el primer correo de
    # la persona
    new_row1 = {'ID': df_union_interna.iloc[i][0], 
               'Correo': df_union_interna.iloc[i][3]}
    # Creamos una fila nueva para el segundo correo de
    # la persona
    new_row2 = {'ID': df_union_interna.iloc[i][0], 
               'Correo': df_union_interna.iloc[i][5]}
    # Agregamos las filas nuevas al dataframe
    df_correos = df_correos.append([new_row1, new_row2], ignore_index=True)
# Vemos el dataframe resultante
df_correos


# Vemos que el tipo de dato de la columna ID es float64
print(df_correos['ID'].dtype)

float64


# Cambiamos a int64 con la funcion astype():
df_correos['ID'] = df_correos['ID'].astype('int64')
print(df_correos['ID'].dtype)

int64


df_correos.head()


# Antes de ello:
print(df_empleados.shape)
print(df_correos.shape)

(1002, 4)
(2000, 2)


# notemos que el dataframe tiene una columna de correo
df_empleados.head()


# Union interna:
#                    no consideramos la columna correo
#                    del primer dataframe
df_union_interna_2 = df_empleados.drop('Correo', axis=1).merge(df_correos, on='ID')
df_union_interna_2


df_union_interna_2.shape

(2000, 5)


import random

# Creamos una lista con los departamentos de la 
# compagnia
dep = ['Seguridad', 'Oficina', 'Almacen', 'Limpieza', 'Comedor', 'Transporte']

# podemos tomar de manera aleatoria un elemento de una lista:
random.choice(dep)

'Limpieza'


df_empleados['Dep'] = [random.choice(dep) for i in range(df_empleados.shape[0])]
df_empleados.head()

dep

['Seguridad', 'Oficina', 'Almacen', 'Limpieza', 'Comedor', 'Transporte']


sal_min = [8000, 8000, 7000, 6500, 6500, 7000]

# Creamos el dataframe
df_dep = pd.DataFrame({'Dep': dep, 'Salario_min': sal_min})
df_dep


# Primera union
df_union_interna_3 = df_empleados.merge(df_salario, on='ID', 
                                        # cambiamos los sufijos
                                        suffixes=('_personal', '_compañia'))\
# Segunda union
                                 .merge(df_dep, on='Dep')
df_union_interna_3


df_union_interna_3.groupby('Dep')['Salario'].mean()

Dep
Almacen       4973.031905
Comedor       5021.249703
Limpieza      4764.349917
Oficina       4953.526248
Seguridad     5211.811380
Transporte    4998.580920
Name: Salario, dtype: float64


df_union_interna_3.groupby('Dep')['Salario'].sum()

Dep
Almacen       880226.647153
Comedor       868676.198629
Limpieza      728945.537253
Oficina       847052.988477
Seguridad     886007.934621
Transporte    779778.623530
Name: Salario, dtype: float64


# gasto total de sueldos
df_union_interna_3.groupby('Dep')['Salario'].sum().sum()

4990687.929663037


ax = df_union_interna_3['Edad'].plot(kind='hist', x='Edad')


mascara = df_union_interna_3['Dep'] == 'Seguridad'
ax = df_union_interna_3[mascara]['Edad'].plot(kind='hist', x='Edad')


# en este caso seleccionaremos cualquier columna (['ID'])
df_union_interna_3.groupby('Dep')['ID'].count()

Dep
Almacen       177
Comedor       173
Limpieza      153
Oficina       171
Seguridad     170
Transporte    156
Name: ID, dtype: int64


# tamanio (largo por ancho) del grafico
plt.figure(figsize=(8,6))

# diagrama
v = venn2((1,1,1), set_labels=('A', 'B'), alpha=0.8)

# Colores
v.get_patch_by_id('10').set_color('#DCDCDC')
v.get_patch_by_id('11').set_color('#FF0202')
v.get_patch_by_id('01').set_color('#797979')
# Etiquetas
v.get_label_by_id('10').set_text("")
v.get_label_by_id('11').set_text("")
v.get_label_by_id('01').set_text("")

plt.title('Unión interna', size=18)
plt.show()


# tamanio (largo por ancho) del grafico
plt.figure(figsize=(8,6))

# diagrama
v = venn2((1,1,1), set_labels=('A', 'B'), alpha=0.8)

# Colores
v.get_patch_by_id('10').set_color('#FF0202')
v.get_patch_by_id('11').set_color('#FF0202')
v.get_patch_by_id('01').set_color('#797979')
# Etiquetas
v.get_label_by_id('10').set_text(" "*5 + "Unión izquierda o")
v.get_label_by_id('11').set_text("left join" + " "*35)
v.get_label_by_id('01').set_text("")

plt.title('Unión izquierda', size=18)
plt.show()


print(df_empleados.shape)
print(df_salario.shape)

(1002, 5)
(1000, 3)


df_union_interna.shape

(1000, 6)


# Union izquierda
df_left_join = df_empleados.merge(df_salario, on='ID',
                                  suffixes=('_personal', '_compañia'),
                                  # Especificamos el tipo
                                  # de union con how=.
                                  # Union izquierda
                                  how='left')
df_left_join.shape

(1002, 7)


# Veamos que
df_left_join.tail()


# Detectamos a los empleados que aun no tienen su informacion
# registrada en el dataframe df_salario
df_left_join[df_left_join.Salario.isnull()][['ID','Nombre']]


# tamanio (largo por ancho) del grafico
plt.figure(figsize=(8,6))

# diagrama
v = venn2((1,1,1), set_labels=('A', 'B'), alpha=0.8)

# Colores
v.get_patch_by_id('10').set_color('#797979')
v.get_patch_by_id('11').set_color('#FF0202')
v.get_patch_by_id('01').set_color('#FF0202')
# Etiquetas
v.get_label_by_id('10').set_text("")
v.get_label_by_id('11').set_text(" "*20 + "Unión derecha")
v.get_label_by_id('01').set_text(" o right join" + " "*22)

plt.title('Unión derecha', size=18)
plt.show()


df_salario = df_salario.rename(columns={'ID': 'ID_s'})
df_salario.head()


# Union derecha
df_right_join = df_empleados.merge(df_salario, suffixes=('_personal', '_compañia'),
                                   # Especificamos el tipo
                                   # de union con how=.
                                   # Union derecha
                                   how='right',
                                   # (**)
                                   left_on='ID', right_on='ID_s')
df_right_join.head()


df_right_join.shape

(1000, 8)


# tamanio (largo por ancho) del grafico
plt.figure(figsize=(8,6))

# diagrama
v = venn2((1,1,1), set_labels=('A', 'B'), alpha=0.8)

# Colores
v.get_patch_by_id('10').set_color('#FF0202')
v.get_patch_by_id('11').set_color('#FF0202')
v.get_patch_by_id('01').set_color('#FF0202')
# Etiquetas
v.get_label_by_id('10').set_text("")
v.get_label_by_id('11').set_text("")
v.get_label_by_id('01').set_text("")

plt.title('Unión externa', size=18)
plt.show()


# agregamos un nuevo departamento a df_dep
df_dep = df_dep.append({'Dep': 'Proveedores', 'Salario_min': 8000}, 
                        ignore_index=True)
df_dep


# empleado nuevo
emp3 = {'ID': 1003, 'Nombre': 'Donovan Cabello', 'Edad': 35, 'Correo': 'donovan31416@edu.com'}
# agregamos al dataframe
df_empleados = df_empleados.append(emp3, ignore_index=True)


# Hacemos una union izquierda entre df_empleados y df_dep
df_left_join = df_empleados.merge(df_dep, on='Dep', how='left')
df_left_join.head()


df_left_join.shape

(1003, 6)


df_left_join.tail()


# Hacemos una union derecha entre df_empleados y df_dep
df_right_join = df_empleados.merge(df_dep, on='Dep', how='right')
df_right_join.head()


df_right_join.shape

(1003, 6)


df_right_join.tail()


# Union externa
df_outer_join = df_empleados.merge(df_dep, on='Dep', how='outer')
df_outer_join.head()


df_outer_join.shape

(1004, 6)


df_outer_join.tail()


# tamanio (largo por ancho) del grafico
plt.figure(figsize=(8,6))

# diagrama
v = venn2((1,1,1), set_labels=('A', 'B'), alpha=0.8)

# Colores
v.get_patch_by_id('10').set_color('#FF0202')
v.get_patch_by_id('11').set_color('#FFFFFF')
v.get_patch_by_id('01').set_color('#FF0202')
# Etiquetas
v.get_label_by_id('10').set_text("Elementos que solo\n están en A")
v.get_label_by_id('11').set_text("No consideramos\n la\n intersección")
v.get_label_by_id('01').set_text("Elementos que solo\n están en B")

plt.show()


# obtenemos los elementos que tienen valores nulos en ID,
# lo cual nos dara los departamentos que aun no tiene empleados.
# Obtenemos los elementos que tienen valores nulos en Dep,
# lo cual nos dara los empleados que aun no tienen 
# departamento asignado
mask = (df_outer_join['ID'].isnull()) | (df_outer_join['Dep'].isnull())

# Pasamos la mascara al dataframe de la union externa
df_outer_join[mask][['Nombre', 'Dep']]


# recordemos que tenemos los distintos departamentes
# almacenados en una lista
dep

['Seguridad', 'Oficina', 'Almacen', 'Limpieza', 'Comedor', 'Transporte']


df_empleados[df_empleados.Dep == i].sample(5)


# Luego, obtenemos dos empleados (sus ID's) de manera aleatoria
# por departamento y agregamos sus ID's a una lista vacia 
sup = []
for i in range(2):
    for i in dep:
        id_empleado_select = df_empleados[df_empleados.Dep == i].sample(10).iloc[0][0] 
        print(f'{i}. ID: {id_empleado_select}')
        sup.append((id_empleado_select, i))

Seguridad. ID: 652
Oficina. ID: 790
Almacen. ID: 992
Limpieza. ID: 10
Comedor. ID: 383
Transporte. ID: 734
Seguridad. ID: 182
Oficina. ID: 23
Almacen. ID: 739
Limpieza. ID: 386
Comedor. ID: 58
Transporte. ID: 995


# lista con los ID's de los empleados seleccionados por
# departamento
sup

[(652, 'Seguridad'),
 (790, 'Oficina'),
 (992, 'Almacen'),
 (10, 'Limpieza'),
 (383, 'Comedor'),
 (734, 'Transporte'),
 (182, 'Seguridad'),
 (23, 'Oficina'),
 (739, 'Almacen'),
 (386, 'Limpieza'),
 (58, 'Comedor'),
 (995, 'Transporte')]


# ID de los de Seguridad
print(sup[0][0])
print(sup[6][0])
# ID de los de Oficina
print(sup[1][0])
print(sup[7][0])
# ID de los de Almacen
print(sup[2][0])
print(sup[8][0])
# ID de los de Limpieza
print(sup[3][0])
print(sup[9][0])
# ID de los de Comedor
print(sup[4][0])
print(sup[10][0])
# ID de los de Transporte
print(sup[5][0])
print(sup[11][0])

652
182
790
23
992
739
10
386
383
58
734
995


# Dependiendo del departamento del empleado,
# le asignaremos (de manera aleatoria) el ID de un supervisor
# del mismo departamento. Dichos ID los almacenamos
# en la siguiente lista
supervisor = []
for i in range(df_empleados.shape[0]):
    if df_empleados.iloc[i][4] == 'Seguridad':
        supervisor.append(random.choice([sup[0][0], sup[6][0]]))
    elif df_empleados.iloc[i][4] == 'Oficina':
        supervisor.append(random.choice([sup[1][0], sup[7][0]]))
    elif df_empleados.iloc[i][4] == 'Almacen':
        supervisor.append(random.choice([sup[2][0], sup[8][0]]))
    elif df_empleados.iloc[i][4] == 'Limpieza':
        supervisor.append(random.choice([sup[3][0], sup[9][0]]))
    elif df_empleados.iloc[i][4] == 'Comedor':
        supervisor.append(random.choice([sup[4][0], sup[10][0]]))
    else:
        supervisor.append(random.choice([sup[5][0], sup[11][0]]))
        
# Agregamos la columna nueva
df_empleados['Sup'] = supervisor
df_empleados.head()


df_self_join = df_empleados.merge(df_empleados, 
                                  left_on='Sup',
                                  right_on='ID',
                                  suffixes=('_df1', '_df2'))
df_self_join


# Seleccionamos solo una columnas para ver de mejor manera la informacion
df_self_join.iloc[:,[0,1,4,5,6,7,8,9,10]]


df_self_join.groupby(['Nombre_df2', 'Dep_df2'])['ID_df1'].count()

Nombre_df2                  Dep_df2   
Cheyenne Brown Jones        Oficina       98
Cynthia Martin Jones        Almacen       86
Erik Sanchez III Turner     Limpieza      68
Harry Coleman Phelps        Comedor       88
Jessica Cooper Pierce       Transporte    76
Karen Harding Warren        Seguridad     85
Kyle Palmer Ortiz           Transporte    82
Megan Woods Snow            Oficina       74
Michael Carroll PhD Jordan  Limpieza      85
Samuel Terry Boyer          Seguridad     85
Sara Rodgers Mitchell       Almacen       91
Steven Price Hall           Comedor       85
Name: ID_df1, dtype: int64


df_self_join.iloc[:,[0,1,4,5,7,8,10,-1]]


df_empleados[df_empleados.ID == 734]


df_left_join = df_self_join.merge(df_empleados, how='left', 
                                  left_on='Sup_df2',
                                  right_on='ID')
df_left_join


df_left_join.groupby(['Nombre', 'Dep'])['ID'].count()

Nombre                   Dep       
Cheyenne Brown Jones     Oficina        98
Cynthia Martin Jones     Almacen        91
Erik Sanchez III Turner  Limpieza      153
Jessica Cooper Pierce    Transporte     82
Karen Harding Warren     Seguridad     170
Kyle Palmer Ortiz        Transporte     76
Megan Woods Snow         Oficina        74
Sara Rodgers Mitchell    Almacen        86
Steven Price Hall        Comedor       173
Name: ID, dtype: int64


df_left_join.groupby(['Nombre_df2', 'Dep_df2'])['ID_df1'].count()

Nombre_df2                  Dep_df2   
Cheyenne Brown Jones        Oficina       98
Cynthia Martin Jones        Almacen       86
Erik Sanchez III Turner     Limpieza      68
Harry Coleman Phelps        Comedor       88
Jessica Cooper Pierce       Transporte    76
Karen Harding Warren        Seguridad     85
Kyle Palmer Ortiz           Transporte    82
Megan Woods Snow            Oficina       74
Michael Carroll PhD Jordan  Limpieza      85
Samuel Terry Boyer          Seguridad     85
Sara Rodgers Mitchell       Almacen       91
Steven Price Hall           Comedor       85
Name: ID_df1, dtype: int64


# colocamos dentro del parentesis el nombre del archivo
# que le queremos dar
df_empleados.to_csv('Empleados.csv')


# Hacemos lo mismo con el resto de dataframes
df_salario.to_csv('Salario.csv')
df_dep.to_csv('Departamentos.csv')


df = pd.read_csv('Salario.csv')
df

	ID	Nombre	Edad	Correo_personal	Salario	Correo_compañia
0	1	Mark Rodriguez Park	66	listephanie@example.net	2815.715914	bmora@example.com
1	2	Maria Patrick Foley	58	annawright@example.net	8071.241496	sandrathompson@example.org
2	3	Olivia Boyle King	18	alexander11@example.org	1406.213853	gibsonkevin@example.net
3	4	Kent Lloyd Thomas	72	rroberts@example.org	8799.843576	iharris@example.net
4	5	Connie Villa Meyer	28	micheal66@example.org	3627.843246	qreynolds@example.com

	ID	Correo
0	1.0	listephanie@example.net
1	1.0	bmora@example.com
2	2.0	annawright@example.net
3	2.0	sandrathompson@example.org
4	3.0	alexander11@example.org
...	...	...
1995	998.0	clarkcharles@example.net
1996	999.0	ejohnson@example.org
1997	999.0	jsmith@example.net
1998	1000.0	emilysantos@example.net
1999	1000.0	perkinsmonica@example.net

	ID	Correo
0	1	listephanie@example.net
1	1	bmora@example.com
2	2	annawright@example.net
3	2	sandrathompson@example.org
4	3	alexander11@example.org

	ID	Nombre	Edad	Correo
0	1	Mark Rodriguez Park	66	listephanie@example.net
1	2	Maria Patrick Foley	58	annawright@example.net
2	3	Olivia Boyle King	18	alexander11@example.org
3	4	Kent Lloyd Thomas	72	rroberts@example.org
4	5	Connie Villa Meyer	28	micheal66@example.org

	ID	Nombre	Edad	Correo
0	1	Mark Rodriguez Park	66	listephanie@example.net
1	1	Mark Rodriguez Park	66	bmora@example.com
2	2	Maria Patrick Foley	58	annawright@example.net
3	2	Maria Patrick Foley	58	sandrathompson@example.org
4	3	Olivia Boyle King	18	alexander11@example.org
...	...	...	...	...
1995	998	Todd Jenkins Anderson	28	clarkcharles@example.net
1996	999	Kimberly Mitchell Long	65	ejohnson@example.org
1997	999	Kimberly Mitchell Long	65	jsmith@example.net
1998	1000	Andrea Carson Liu	48	emilysantos@example.net
1999	1000	Andrea Carson Liu	48	perkinsmonica@example.net

Curso de introducción a la programación con Python¶

Contenido¶

Tipos de relaciones ¶

Uniendo múltiples dataframes¶

Análisis¶

Tipos de uniones ¶

Unión izquierda y derecha¶

Unión externa¶

Uniendo una tabla con ella misma¶

Exportando dataframe a csv¶

	ID	Nombre	Edad	Correo	Dep
0	1	Mark Rodriguez Park	66	listephanie@example.net	Transporte
1	2	Maria Patrick Foley	58	annawright@example.net	Transporte
2	3	Olivia Boyle King	18	alexander11@example.org	Oficina
3	4	Kent Lloyd Thomas	72	rroberts@example.org	Comedor
4	5	Connie Villa Meyer	28	micheal66@example.org	Transporte

	Dep	Salario_min
0	Seguridad	8000
1	Oficina	8000
2	Almacen	7000
3	Limpieza	6500
4	Comedor	6500
5	Transporte	7000

	ID	Nombre	Edad	Correo_personal	Dep	Salario	Correo_compañia
997	998	Todd Jenkins Anderson	28	lisaknight@example.com	Almacen	2928.811436	clarkcharles@example.net
998	999	Kimberly Mitchell Long	65	ejohnson@example.org	Seguridad	7046.036444	jsmith@example.net
999	1000	Andrea Carson Liu	48	emilysantos@example.net	Oficina	7518.045080	perkinsmonica@example.net
1000	1001	Diana Smith	27	diana27182@edu.com	Oficina	NaN	NaN
1001	1002	Luka Ldresh	20	lukaecdf@gmail.com	Transporte	NaN	NaN

	ID	Nombre	Edad	Correo	Dep	Salario_min
0	6.0	Mary Pierce Craig	54.0	smithveronica@example.com	Seguridad	8000
1	21.0	Michael Ellis Crawford	30.0	ellen04@example.net	Seguridad	8000
2	24.0	Kenneth Fisher Perez	18.0	christineclements@example.net	Seguridad	8000
3	29.0	Benjamin Rivera Mcmillan	57.0	jcochran@example.com	Seguridad	8000
4	32.0	Kristin White Watson	78.0	bowenmark@example.net	Seguridad	8000

	ID	Nombre	Edad	Correo	Dep	Salario_min
998	982.0	Andrew Alexander Giles	69.0	watsontyler@example.net	Transporte	7000
999	994.0	Omar Hill Sullivan	75.0	tyler50@example.net	Transporte	7000
1000	995.0	Kyle Palmer Ortiz	44.0	walterheidi@example.net	Transporte	7000
1001	1002.0	Luka Ldresh	20.0	lukaecdf@gmail.com	Transporte	7000
1002	NaN	NaN	NaN	NaN	Proveedores	8000

	ID	Nombre	Edad	Correo	Dep	Salario_min
0	1.0	Mark Rodriguez Park	66.0	listephanie@example.net	Transporte	7000.0
1	2.0	Maria Patrick Foley	58.0	annawright@example.net	Transporte	7000.0
2	5.0	Connie Villa Meyer	28.0	micheal66@example.org	Transporte	7000.0
3	22.0	Mary Payne Johnson	18.0	rdiaz@example.com	Transporte	7000.0
4	36.0	Michael Owens Burns	27.0	ypowell@example.net	Transporte	7000.0

	ID	Nombre	Edad	Correo	Dep	Salario_min
999	990.0	Jordan Jackson Higgins	56.0	lewisstephen@example.net	Almacen	7000.0
1000	992.0	Sara Rodgers Mitchell	60.0	xkrause@example.com	Almacen	7000.0
1001	998.0	Todd Jenkins Anderson	28.0	lisaknight@example.com	Almacen	7000.0
1002	1003.0	Donovan Cabello	35.0	donovan31416@edu.com	NaN	NaN
1003	NaN	NaN	NaN	NaN	Proveedores	8000.0

	ID	Nombre	Edad	Correo	Dep
734	735	Lori Spears Stokes	54	cmccarthy@example.net	Transporte
97	98	Andrew Mora Collins	35	lisamiller@example.org	Transporte
445	446	Katherine Rowland Austin	56	garrettrodney@example.net	Transporte
885	886	Jason Robinson Bennett	31	gbarrera@example.net	Transporte
67	68	Tiffany Phillips Smith	70	tlawson@example.com	Transporte