J'utilise python csvkit
pour comparer 2 fichiers comme celui-ci:
df1 = pd.read_csv('input1.csv', sep=',\s+', delimiter=',', encoding="utf-8")
df2 = pd.read_csv('input2.csv', sep=',\s,', delimiter=',', encoding="utf-8")
df3 = pd.merge(df1,df2, on='employee_id', how='right')
df3.to_csv('output.csv', encoding='utf-8', index=False)
Actuellement, j'exécute le fichier via un script qui supprime les espaces du employee_id
colonne.
Un exemple de employee_id
s:
37 78973 3
23787
2 22 3
123
Existe-t-il un moyen pour que csvkit
le fasse et me sauve une étape?
La meilleure façon et la plus simple de supprimer les espaces vides dans pandas dataframes est: -
df1 = pd.read_csv('input1.csv')
df1["employee_id"] = df1["employee_id"].str.strip()
C'est tout