Lignes dupliquées lors de la fusion de trames de données dans python

Question

Je fusionne actuellement 2 cadres de données avec une jointure externe, mais après la fusion, je vois que toutes les lignes sont dupliquées même lorsque les colonnes sur lesquelles j'ai effectué la fusion contiennent les mêmes valeurs. En détail:

list_1 = pd.read_csv('list_1.csv') list_2 = pd.read_csv('list_2.csv') merged_list = pd.merge(list_1 , list_2 , on=['email_address'], how='inner')

avec l'entrée et les résultats suivants:

list_1:

email_address, name, surname john.smith@email.com, john, smith john.smith@email.com, john, smith elvis@email.com, elvis, presley

list_2:

email_address, street, city john.smith@email.com, street1, NY john.smith@email.com, street1, NY elvis@email.com, street2, LA

merged_list:

email_address, name, surname, street, city john.smith@email.com, john, smith, street1, NY john.smith@email.com, john, smith, street1, NY john.smith@email.com, john, smith, street1, NY john.smith@email.com, john, smith, street1, NY elvis@email.com, elvis, presley, street2, LA elvis@email.com, elvis, presley, street2, LA

Ma question est, ne devrait-il pas en être ainsi?

merged_list (comment j'aimerais que ce soit: D):

email_address, name, surname, street, city john.smith@email.com, john, smith, street1, NY john.smith@email.com, john, smith, street1, NY elvis@email.com, elvis, presley, street2, LA

Comment puis-je faire en sorte que ça devienne comme ça? Merci beaucoup pour votre aide!

piRSquared · Accepted Answer

list_2_nodups = list_2.drop_duplicates() pd.merge(list_1 , list_2_nodups , on=['email_address'])

Les lignes en double sont attendues. Chaque john smith dans list_1 correspond à chaque john smith dans list_2. J'ai dû déposer les doublons dans l'une des listes. J'ai choisi list_2.