Combinez deux colonnes de texte dans une structure de données en pandas / python

Question

J'ai un dataframe 20 x 4000 en python en utilisant des pandas. Deux de ces colonnes sont nommées Année et trimestre. J'aimerais créer une variable appelée période qui fait que Year = 2000 et quarter = q2 en 2000q2

Quelqu'un peut-il aider avec ça?

silvado · Answer

dataframe["period"] = dataframe["Year"].map(str) + dataframe["quarter"]

Russ · Answer

df = pd.DataFrame({'Year': ['2014', '2015'], 'quarter': ['q1', 'q2']}) df['period'] = df[['Year', 'quarter']].apply(lambda x: ''.join(x), axis=1)

Donne ce dataframe

 Year quarter period 0 2014 q1 2014q1 1 2015 q2 2015q2

Cette méthode permet de généraliser à un nombre arbitraire de colonnes de chaîne en remplaçant df[['Year', 'quarter']] par une tranche de colonne de votre cadre de données, par exemple. df.iloc[:,0:2].apply(lambda x: ''.join(x), axis=1).

Vous pouvez vérifier plus d'informations sur la méthode apply () here

MaxU · Answer

Petits ensembles de données (<150 lignes)

[''.join(i) for i in Zip(df["Year"].map(str),df["quarter"])]

ou légèrement plus lent mais plus compact:

df.Year.str.cat(df.quarter)

Grands ensembles de données (> 150rows)

df['Year'].astype(str) + df['quarter']

UPDATE: Graphique temporel Pandas 0.23.4

Testons-le sur 200K lignes DF:

In [250]: df Out[250]: Year quarter 0 2014 q1 1 2015 q2 In [251]: df = pd.concat([df] * 10**5) In [252]: df.shape Out[252]: (200000, 2)

UPDATE: nouveaux chronomètres utilisant Pandas 0.19.0

Timing sans optimisation CPU/GPU (triés du plus rapide au plus lent):

In [107]: %timeit df['Year'].astype(str) + df['quarter'] 10 loops, best of 3: 131 ms per loop In [106]: %timeit df['Year'].map(str) + df['quarter'] 10 loops, best of 3: 161 ms per loop In [108]: %timeit df.Year.str.cat(df.quarter) 10 loops, best of 3: 189 ms per loop In [109]: %timeit df.loc[:, ['Year','quarter']].astype(str).sum(axis=1) 1 loop, best of 3: 567 ms per loop In [110]: %timeit df[['Year','quarter']].astype(str).sum(axis=1) 1 loop, best of 3: 584 ms per loop In [111]: %timeit df[['Year','quarter']].apply(lambda x : '{}{}'.format(x[0],x[1]), axis=1) 1 loop, best of 3: 24.7 s per loop

Timing en utilisant l'optimisation CPU/GPU:

In [113]: %timeit df['Year'].astype(str) + df['quarter'] 10 loops, best of 3: 53.3 ms per loop In [114]: %timeit df['Year'].map(str) + df['quarter'] 10 loops, best of 3: 65.5 ms per loop In [115]: %timeit df.Year.str.cat(df.quarter) 10 loops, best of 3: 79.9 ms per loop In [116]: %timeit df.loc[:, ['Year','quarter']].astype(str).sum(axis=1) 1 loop, best of 3: 230 ms per loop In [117]: %timeit df[['Year','quarter']].astype(str).sum(axis=1) 1 loop, best of 3: 230 ms per loop In [118]: %timeit df[['Year','quarter']].apply(lambda x : '{}{}'.format(x[0],x[1]), axis=1) 1 loop, best of 3: 9.38 s per loop

Réponse contribution de @ anton-vbr

LeoRochael · Answer

La méthode cat() de .str accessor fonctionne vraiment bien pour ceci:

>>> import pandas as pd >>> df = pd.DataFrame([["2014", "q1"], ... ["2015", "q3"]], ... columns=('Year', 'Quarter')) >>> print(df) Year Quarter 0 2014 q1 1 2015 q3 >>> df['Period'] = df.Year.str.cat(df.Quarter) >>> print(df) Year Quarter Period 0 2014 q1 2014q1 1 2015 q3 2015q3

cat() vous permet même d'ajouter un séparateur. Supposons, par exemple, que vous n'avez que des entiers pour l'année et la période. Vous pouvez le faire:

>>> import pandas as pd >>> df = pd.DataFrame([[2014, 1], ... [2015, 3]], ... columns=('Year', 'Quarter')) >>> print(df) Year Quarter 0 2014 1 1 2015 3 >>> df['Period'] = df.Year.astype(str).str.cat(df.Quarter.astype(str), sep='q') >>> print(df) Year Quarter Period 0 2014 1 2014q1 1 2015 3 2015q3

La jonction de plusieurs colonnes consiste simplement à passer une liste de séries ou une image contenant tout, sauf la première colonne, en tant que paramètre à str.cat() invoqué dans la première colonne (Series):

>>> df = pd.DataFrame( ... [['USA', 'Nevada', 'Las Vegas'], ... ['Brazil', 'Pernambuco', 'Recife']], ... columns=['Country', 'State', 'City'], ... ) >>> df['AllTogether'] = df['Country'].str.cat(df[['State', 'City']], sep=' - ') >>> print(df) Country State City AllTogether 0 USA Nevada Las Vegas USA - Nevada - Las Vegas 1 Brazil Pernambuco Recife Brazil - Pernambuco - Recife

Notez que si votre pandas dataframe/series a des valeurs null, vous devez inclure le paramètre na_rep pour remplacer les valeurs NaN par une chaîne, sinon la colonne combinée utilisera par défaut NaN.

Bill Gale · Answer

Utilisation d'une fonction lamba cette fois avec string.format ().

import pandas as pd df = pd.DataFrame({'Year': ['2014', '2015'], 'Quarter': ['q1', 'q2']}) print df df['YearQuarter'] = df[['Year','Quarter']].apply(lambda x : '{}{}'.format(x[0],x[1]), axis=1) print df Quarter Year 0 q1 2014 1 q2 2015 Quarter Year YearQuarter 0 q1 2014 2014q1 1 q2 2015 2015q2

Cela vous permet de travailler avec des non-chaînes et de reformater les valeurs selon vos besoins.

import pandas as pd df = pd.DataFrame({'Year': ['2014', '2015'], 'Quarter': [1, 2]}) print df.dtypes print df df['YearQuarter'] = df[['Year','Quarter']].apply(lambda x : '{}q{}'.format(x[0],x[1]), axis=1) print df Quarter int64 Year object dtype: object Quarter Year 0 1 2014 1 2 2015 Quarter Year YearQuarter 0 1 2014 2014q1 1 2 2015 2015q2

Anton Protopopov · Answer

Bien que la réponse @silvado soit bonne si vous changez df.map(str) en df.astype(str), le processus sera plus rapide:

import pandas as pd df = pd.DataFrame({'Year': ['2014', '2015'], 'quarter': ['q1', 'q2']}) In [131]: %timeit df["Year"].map(str) 10000 loops, best of 3: 132 us per loop In [132]: %timeit df["Year"].astype(str) 10000 loops, best of 3: 82.2 us per loop

VickyK · Answer

Lorsque vos données sont insérées dans un cadre de données, cette commande devrait résoudre votre problème:

df['period'] = df[['Year', 'quarter']].apply(lambda x: ' '.join(x.astype(str)), axis=1)

Samuel Nde · Answer

Supposons que votre dataframe soit df avec des colonnes Year et Quarter.

import pandas as pd df = pd.DataFrame({'Quarter':'q1 q2 q3 q4'.split(), 'Year':'2000'})

Supposons que nous voulions voir le dataframe;

df >>> Quarter Year 0 q1 2000 1 q2 2000 2 q3 2000 3 q4 2000

Enfin, concaténer la Year et la Quarter comme suit.

df['Period'] = df['Year'] + ' ' + df['Quarter']

Vous pouvez maintenant print df pour afficher la trame de données résultante.

df >>> Quarter Year Period 0 q1 2000 2000 q1 1 q2 2000 2000 q2 2 q3 2000 2000 q3 3 q4 2000 2000 q4

Si vous ne voulez pas d'espace entre l'année et le trimestre, supprimez-le simplement en le faisant;

df['Period'] = df['Year'] + df['Quarter']

Pedro M Duarte · Answer

Voici une implémentation que je trouve très polyvalente:

In [1]: import pandas as pd In [2]: df = pd.DataFrame([[0, 'the', 'quick', 'brown'], ...: [1, 'fox', 'jumps', 'over'], ...: [2, 'the', 'lazy', 'dog']], ...: columns=['c0', 'c1', 'c2', 'c3']) In [3]: def str_join(df, sep, *cols): ...: from functools import reduce ...: return reduce(lambda x, y: x.astype(str).str.cat(y.astype(str), sep=sep), ...: [df[col] for col in cols]) ...: In [4]: df['cat'] = str_join(df, '-', 'c0', 'c1', 'c2', 'c3') In [5]: df Out[5]: c0 c1 c2 c3 cat 0 0 the quick brown 0-the-quick-brown 1 1 fox jumps over 1-fox-jumps-over 2 2 the lazy dog 2-the-lazy-dog

Colin Wang · Answer

plus efficace est

def concat_df_str1(df): """ run time: 1.3416s """ return pd.Series([''.join(row.astype(str)) for row in df.values], index=df.index)

et voici un test de temps:

import numpy as np import pandas as pd from time import time def concat_df_str1(df): """ run time: 1.3416s """ return pd.Series([''.join(row.astype(str)) for row in df.values], index=df.index) def concat_df_str2(df): """ run time: 5.2758s """ return df.astype(str).sum(axis=1) def concat_df_str3(df): """ run time: 5.0076s """ df = df.astype(str) return df[0] + df[1] + df[2] + df[3] + df[4] + \ df[5] + df[6] + df[7] + df[8] + df[9] def concat_df_str4(df): """ run time: 7.8624s """ return df.astype(str).apply(lambda x: ''.join(x), axis=1) def main(): df = pd.DataFrame(np.zeros(1000000).reshape(100000, 10)) df = df.astype(int) time1 = time() df_en = concat_df_str4(df) print('run time: %.4fs' % (time() - time1)) print(df_en.head(10)) if __== '__main__': main()

final, lorsque sum (concat_df_str2) est utilisé, le résultat n’est pas simplement concat, il est converti en entier.

Anton vBR · Answer

Utiliser Zip pourrait être encore plus rapide:

df["period"] = [''.join(i) for i in Zip(df["Year"].map(str),df["quarter"])]

Graphique:

import pandas as pd import numpy as np import timeit import matplotlib.pyplot as plt from collections import defaultdict df = pd.DataFrame({'Year': ['2014', '2015'], 'quarter': ['q1', 'q2']}) myfuncs = { "df['Year'].astype(str) + df['quarter']": lambda: df['Year'].astype(str) + df['quarter'], "df['Year'].map(str) + df['quarter']": lambda: df['Year'].map(str) + df['quarter'], "df.Year.str.cat(df.quarter)": lambda: df.Year.str.cat(df.quarter), "df.loc[:, ['Year','quarter']].astype(str).sum(axis=1)": lambda: df.loc[:, ['Year','quarter']].astype(str).sum(axis=1), "df[['Year','quarter']].astype(str).sum(axis=1)": lambda: df[['Year','quarter']].astype(str).sum(axis=1), "df[['Year','quarter']].apply(lambda x : '{}{}'.format(x[0],x[1]), axis=1)": lambda: df[['Year','quarter']].apply(lambda x : '{}{}'.format(x[0],x[1]), axis=1), "[''.join(i) for i in Zip(dataframe['Year'].map(str),dataframe['quarter'])]": lambda: [''.join(i) for i in Zip(df["Year"].map(str),df["quarter"])] } d = defaultdict(dict) step = 10 cont = True while cont: lendf = len(df); print(lendf) for k,v in myfuncs.items(): iters = 1 t = 0 while t < 0.2: ts = timeit.repeat(v, number=iters, repeat=3) t = min(ts) iters *= 10 d[k][lendf] = t/iters if t > 2: cont = False df = pd.concat([df]*step) pd.DataFrame(d).plot().legend(loc='upper center', bbox_to_anchor=(0.5, -0.15)) plt.yscale('log'); plt.xscale('log'); plt.ylabel('seconds'); plt.xlabel('df rows') plt.show()

Markus Dutschke · Answer

Cette solution utilise une étape intermédiaire compression de deux colonnes du DataFrame en une seule colonne contenant une liste des valeurs. Cela fonctionne non seulement pour les chaînes, mais pour tout type de type de colonne

import pandas as pd df = pd.DataFrame({'Year': ['2014', '2015'], 'quarter': ['q1', 'q2']}) df['list']=df[['Year','quarter']].values.tolist() df['period']=df['list'].apply(''.join) print(df)

Résultat:

 Year quarter list period 0 2014 q1 [2014, q1] 2014q1 1 2015 q2 [2015, q2] 2015q2

Abul · Answer

Utilisez .combine_first.

df['Period'] = df['Year'].combine_first(df['Quarter'])

Loochie · Answer

Je pense que la meilleure façon de combiner les colonnes dans pandas consiste à convertir les deux colonnes en entier, puis en str.

df[['Year', 'quarter']] = df[['Year', 'quarter']].astype(int).astype(str) df['Period']= df['Year'] + 'q' + df['quarter']

Ted Petrou · Answer

Comme beaucoup l'ont mentionné précédemment, vous devez convertir chaque colonne en chaîne, puis utiliser l'opérateur plus pour combiner deux colonnes de chaîne. Vous pouvez obtenir une amélioration importante des performances en utilisant NumPy.

%timeit df['Year'].values.astype(str) + df.quarter 71.1 ms ± 3.76 ms per loop (mean ± std. dev. of 7 runs, 10 loops each) %timeit df['Year'].astype(str) + df['quarter'] 565 ms ± 22.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

geher · Answer

généraliser à plusieurs colonnes, pourquoi pas:

columns = ['whatever', 'columns', 'you', 'choose'] df['period'] = df[columns].astype(str).sum(axis=1)

Sergey · Answer

On peut utiliser la méthode assigner de DataFrame:

df= (pd.DataFrame({'Year': ['2014', '2015'], 'quarter': ['q1', 'q2']}). assign(period=lambda x: x.Year+x.quarter ))

Good Will · Answer

Voici mon résumé des solutions ci-dessus pour concaténer/combiner deux colonnes avec les valeurs int et str dans une nouvelle colonne, en utilisant un séparateur entre les valeurs des colonnes. Trois solutions fonctionnent à cet effet.

# be cautious about the separator, some symbols may cause "SyntaxError: EOL while scanning string literal". # e.g. ";;" as separator would raise the SyntaxError separator = "&&" # pd.Series.str.cat() method does not work to concatenate / combine two columns with int value and str value. This would raise "AttributeError: Can only use .cat accessor with a 'category' dtype" df["period"] = df["Year"].map(str) + separator + df["quarter"] df["period"] = df[['Year','quarter']].apply(lambda x : '{} && {}'.format(x[0],x[1]), axis=1) df["period"] = df.apply(lambda x: f'{x["Year"]} && {x["quarter"]}', axis=1)

BMW · Answer

def madd(x): """Performs element-wise string concatenation with multiple input arrays. Args: x: iterable of np.array. Returns: np.array. """ for i, arr in enumerate(x): if type(arr.item(0)) is not str: x[i] = x[i].astype(str) return reduce(np.core.defchararray.add, x)

Par exemple:

data = list(Zip([2000]*4, ['q1', 'q2', 'q3', 'q4'])) df = pd.DataFrame(data=data, columns=['Year', 'quarter']) df['period'] = madd([df[col].values for col in ['Year', 'quarter']]) df Year quarter period 0 2000 q1 2000q1 1 2000 q2 2000q2 2 2000 q3 2000q3 3 2000 q4 2000q4

user8383881 · Answer

dataframe["period"] = dataframe["Year"].astype(str).add(dataframe["quarter"])

ou si les valeurs sont comme [2000] [4] et que vous voulez faire [2000q4]

dataframe["period"] = dataframe["Year"].astype(str).add('q').add(dataframe["quarter"]).astype(str)

substituer .astype(str) avec .map(str) fonctionne aussi.