Pourquoi les fonctions numpy sont-elles si lentes sur pandas series / dataframes?

Question

Considérons un petit MWE, tiré de ne autre question :

DateTime Data 2017-11-21 18:54:31 1 2017-11-22 02:26:48 2 2017-11-22 10:19:44 3 2017-11-22 15:11:28 6 2017-11-22 23:21:58 7 2017-11-28 14:28:28 28 2017-11-28 14:36:40 0 2017-11-28 14:59:48 1

Le but est de découper toutes les valeurs avec une limite supérieure de 1. Ma réponse utilise np.clip, qui fonctionne bien.

np.clip(df.Data, a_min=None, a_max=1) array([1, 1, 1, 1, 1, 1, 0, 1])

Ou,

np.clip(df.Data.values, a_min=None, a_max=1) array([1, 1, 1, 1, 1, 1, 0, 1])

Les deux retournent la même réponse. Ma question porte sur les performances relatives de ces deux méthodes. Considérer -

df = pd.concat([df]*1000).reset_index(drop=True) %timeit np.clip(df.Data, a_min=None, a_max=1) 1000 loops, best of 3: 270 µs per loop %timeit np.clip(df.Data.values, a_min=None, a_max=1) 10000 loops, best of 3: 23.4 µs per loop

Pourquoi y a-t-il une telle différence entre les deux, simplement en appelant values sur ce dernier? En d'autres termes...

Pourquoi les fonctions numpy sont-elles si lentes sur pandas objets?

MSeifert · Accepted Answer

Oui, il semble que np.clip Soit beaucoup plus lent sur pandas.Series Que sur numpy.ndarray S. C'est vrai, mais ce n'est en fait (au moins asymptomatiquement) pas si mal. 8000 éléments sont toujours dans le régime où les facteurs constants sont les principaux contributeurs à l'exécution. Je pense que c'est un aspect très important de la question, donc je visualise ceci (emprunt à ne autre réponse ):

# Setup import pandas as pd import numpy as np def on_series(s): return np.clip(s, a_min=None, a_max=1) def on_values_of_series(s): return np.clip(s.values, a_min=None, a_max=1) # Timing setup timings = {on_series: [], on_values_of_series: []} sizes = [2**i for i in range(1, 26, 2)] # Timing for size in sizes: func_input = pd.Series(np.random.randint(0, 30, size=size)) for func in timings: res = %timeit -o func(func_input) timings[func].append(res) %matplotlib notebook import matplotlib.pyplot as plt import numpy as np fig, (ax1, ax2) = plt.subplots(1, 2) for func in timings: ax1.plot(sizes, [time.best for time in timings[func]], label=str(func.__name__)) ax1.set_xscale('log') ax1.set_yscale('log') ax1.set_xlabel('size') ax1.set_ylabel('time [seconds]') ax1.grid(which='both') ax1.legend() baseline = on_values_of_series # choose one function as baseline for func in timings: ax2.plot(sizes, [time.best / ref.best for time, ref in Zip(timings[func], timings[baseline])], label=str(func.__name__)) ax2.set_yscale('log') ax2.set_xscale('log') ax2.set_xlabel('size') ax2.set_ylabel('time relative to {}'.format(baseline.__name__)) ax2.grid(which='both') ax2.legend() plt.tight_layout()

C'est un tracé de journal de bord car je pense que cela montre plus clairement les caractéristiques importantes. Par exemple, cela montre que np.clip Sur un numpy.ndarray Est plus rapide mais il a aussi un facteur constant beaucoup plus petit dans ce cas. La différence pour les grands tableaux n'est que de ~ 3! C'est toujours une grande différence mais beaucoup moins que la différence sur les petits tableaux.

Cependant, ce n'est toujours pas une réponse à la question d'où vient le décalage horaire.

La solution est en fait assez simple: np.clip Délègue à la méthode clip du premier argument:

>>> np.clip?? Source: def clip(a, a_min, a_max, out=None): """ ... """ return _wrapfunc(a, 'clip', a_min, a_max, out=out) >>> np.core.fromnumeric._wrapfunc?? Source: def _wrapfunc(obj, method, *args, **kwds): try: return getattr(obj, method)(*args, **kwds) # ... except (AttributeError, TypeError): return _wrapit(obj, method, *args, **kwds)

La ligne getattr de la fonction _wrapfunc Est la ligne importante ici, car np.ndarray.clip Et pd.Series.clip Sont des méthodes différentes, oui, méthodes complètement différentes :

>>> np.ndarray.clip <method 'clip' of 'numpy.ndarray' objects> >>> pd.Series.clip <function pandas.core.generic.NDFrame.clip>

Malheureusement, np.ndarray.clip Est une fonction C, il est donc difficile de la profiler, mais pd.Series.clip Est une fonction régulière Python donc il est facile de profiler. Utilisons une série de 5000 entiers ici:

s = pd.Series(np.random.randint(0, 100, 5000))

Pour le np.clip Sur le values j'obtiens le profilage de ligne suivant:

%load_ext line_profiler %lprun -f np.clip -f np.core.fromnumeric._wrapfunc np.clip(s.values, a_min=None, a_max=1) Timer unit: 4.10256e-07 s Total time: 2.25641e-05 s File: numpy\core\fromnumeric.py Function: clip at line 1673 Line # Hits Time Per Hit % Time Line Contents ============================================================== 1673 def clip(a, a_min, a_max, out=None): 1674 """ ... 1726 """ 1727 1 55 55.0 100.0 return _wrapfunc(a, 'clip', a_min, a_max, out=out) Total time: 1.51795e-05 s File: numpy\core\fromnumeric.py Function: _wrapfunc at line 55 Line # Hits Time Per Hit % Time Line Contents ============================================================== 55 def _wrapfunc(obj, method, *args, **kwds): 56 1 2 2.0 5.4 try: 57 1 35 35.0 94.6 return getattr(obj, method)(*args, **kwds) 58 59 # An AttributeError occurs if the object does not have 60 # such a method in its class. 61 62 # A TypeError occurs if the object does have such a method 63 # in its class, but its signature is not identical to that 64 # of NumPy's. This situation has occurred in the case of 65 # a downstream library like 'pandas'. 66 except (AttributeError, TypeError): 67 return _wrapit(obj, method, *args, **kwds)

Mais pour np.clip Sur le Series j'obtiens un résultat de profilage totalement différent:

%lprun -f np.clip -f np.core.fromnumeric._wrapfunc -f pd.Series.clip -f pd.Series._clip_with_scalar np.clip(s, a_min=None, a_max=1) Timer unit: 4.10256e-07 s Total time: 0.000823794 s File: numpy\core\fromnumeric.py Function: clip at line 1673 Line # Hits Time Per Hit % Time Line Contents ============================================================== 1673 def clip(a, a_min, a_max, out=None): 1674 """ ... 1726 """ 1727 1 2008 2008.0 100.0 return _wrapfunc(a, 'clip', a_min, a_max, out=out) Total time: 0.00081846 s File: numpy\core\fromnumeric.py Function: _wrapfunc at line 55 Line # Hits Time Per Hit % Time Line Contents ============================================================== 55 def _wrapfunc(obj, method, *args, **kwds): 56 1 2 2.0 0.1 try: 57 1 1993 1993.0 99.9 return getattr(obj, method)(*args, **kwds) 58 59 # An AttributeError occurs if the object does not have 60 # such a method in its class. 61 62 # A TypeError occurs if the object does have such a method 63 # in its class, but its signature is not identical to that 64 # of NumPy's. This situation has occurred in the case of 65 # a downstream library like 'pandas'. 66 except (AttributeError, TypeError): 67 return _wrapit(obj, method, *args, **kwds) Total time: 0.000804922 s File: pandas\core\generic.py Function: clip at line 4969 Line # Hits Time Per Hit % Time Line Contents ============================================================== 4969 def clip(self, lower=None, upper=None, axis=None, inplace=False, 4970 *args, **kwargs): 4971 """ ... 5021 """ 5022 1 12 12.0 0.6 if isinstance(self, ABCPanel): 5023 raise NotImplementedError("clip is not supported yet for panels") 5024 5025 1 10 10.0 0.5 inplace = validate_bool_kwarg(inplace, 'inplace') 5026 5027 1 69 69.0 3.5 axis = nv.validate_clip_with_axis(axis, args, kwargs) 5028 5029 # GH 17276 5030 # numpy doesn't like NaN as a clip value 5031 # so ignore 5032 1 158 158.0 8.1 if np.any(pd.isnull(lower)): 5033 1 3 3.0 0.2 lower = None 5034 1 26 26.0 1.3 if np.any(pd.isnull(upper)): 5035 upper = None 5036 5037 # GH 2747 (arguments were reversed) 5038 1 1 1.0 0.1 if lower is not None and upper is not None: 5039 if is_scalar(lower) and is_scalar(upper): 5040 lower, upper = min(lower, upper), max(lower, upper) 5041 5042 # fast-path for scalars 5043 1 1 1.0 0.1 if ((lower is None or (is_scalar(lower) and is_number(lower))) and 5044 1 28 28.0 1.4 (upper is None or (is_scalar(upper) and is_number(upper)))): 5045 1 1654 1654.0 84.3 return self._clip_with_scalar(lower, upper, inplace=inplace) 5046 5047 result = self 5048 if lower is not None: 5049 result = result.clip_lower(lower, axis, inplace=inplace) 5050 if upper is not None: 5051 if inplace: 5052 result = self 5053 result = result.clip_upper(upper, axis, inplace=inplace) 5054 5055 return result Total time: 0.000662153 s File: pandas\core\generic.py Function: _clip_with_scalar at line 4920 Line # Hits Time Per Hit % Time Line Contents ============================================================== 4920 def _clip_with_scalar(self, lower, upper, inplace=False): 4921 1 2 2.0 0.1 if ((lower is not None and np.any(isna(lower))) or 4922 1 25 25.0 1.5 (upper is not None and np.any(isna(upper)))): 4923 raise ValueError("Cannot use an NA value as a clip threshold") 4924 4925 1 22 22.0 1.4 result = self.values 4926 1 571 571.0 35.4 mask = isna(result) 4927 4928 1 95 95.0 5.9 with np.errstate(all='ignore'): 4929 1 1 1.0 0.1 if upper is not None: 4930 1 141 141.0 8.7 result = np.where(result >= upper, upper, result) 4931 1 33 33.0 2.0 if lower is not None: 4932 result = np.where(result <= lower, lower, result) 4933 1 73 73.0 4.5 if np.any(mask): 4934 result[mask] = np.nan 4935 4936 1 90 90.0 5.6 axes_dict = self._construct_axes_dict() 4937 1 558 558.0 34.6 result = self._constructor(result, **axes_dict).__finalize__(self) 4938 4939 1 2 2.0 0.1 if inplace: 4940 self._update_inplace(result) 4941 else: 4942 1 1 1.0 0.1 return result

J'ai arrêté d'aller dans les sous-programmes à ce stade, car il met déjà en évidence où le pd.Series.clip Fait beaucoup plus de travail que le np.ndarray.clip. Il suffit de comparer la durée totale de l'appel np.clip Sur le values (55 unités de minuterie) à l'une des premières vérifications de la méthode pandas.Series.clip, La if np.any(pd.isnull(lower)) (158 unités de minuterie). À ce stade, la méthode pandas n'a même pas commencé à découper et cela prend déjà 3 fois plus de temps.

Cependant, plusieurs de ces "frais généraux" deviennent insignifiants lorsque le tableau est grand:

s = pd.Series(np.random.randint(0, 100, 1000000)) %lprun -f np.clip -f np.core.fromnumeric._wrapfunc -f pd.Series.clip -f pd.Series._clip_with_scalar np.clip(s, a_min=None, a_max=1) Timer unit: 4.10256e-07 s Total time: 0.00593476 s File: numpy\core\fromnumeric.py Function: clip at line 1673 Line # Hits Time Per Hit % Time Line Contents ============================================================== 1673 def clip(a, a_min, a_max, out=None): 1674 """ ... 1726 """ 1727 1 14466 14466.0 100.0 return _wrapfunc(a, 'clip', a_min, a_max, out=out) Total time: 0.00592779 s File: numpy\core\fromnumeric.py Function: _wrapfunc at line 55 Line # Hits Time Per Hit % Time Line Contents ============================================================== 55 def _wrapfunc(obj, method, *args, **kwds): 56 1 1 1.0 0.0 try: 57 1 14448 14448.0 100.0 return getattr(obj, method)(*args, **kwds) 58 59 # An AttributeError occurs if the object does not have 60 # such a method in its class. 61 62 # A TypeError occurs if the object does have such a method 63 # in its class, but its signature is not identical to that 64 # of NumPy's. This situation has occurred in the case of 65 # a downstream library like 'pandas'. 66 except (AttributeError, TypeError): 67 return _wrapit(obj, method, *args, **kwds) Total time: 0.00591302 s File: pandas\core\generic.py Function: clip at line 4969 Line # Hits Time Per Hit % Time Line Contents ============================================================== 4969 def clip(self, lower=None, upper=None, axis=None, inplace=False, 4970 *args, **kwargs): 4971 """ ... 5021 """ 5022 1 17 17.0 0.1 if isinstance(self, ABCPanel): 5023 raise NotImplementedError("clip is not supported yet for panels") 5024 5025 1 14 14.0 0.1 inplace = validate_bool_kwarg(inplace, 'inplace') 5026 5027 1 97 97.0 0.7 axis = nv.validate_clip_with_axis(axis, args, kwargs) 5028 5029 # GH 17276 5030 # numpy doesn't like NaN as a clip value 5031 # so ignore 5032 1 125 125.0 0.9 if np.any(pd.isnull(lower)): 5033 1 2 2.0 0.0 lower = None 5034 1 30 30.0 0.2 if np.any(pd.isnull(upper)): 5035 upper = None 5036 5037 # GH 2747 (arguments were reversed) 5038 1 2 2.0 0.0 if lower is not None and upper is not None: 5039 if is_scalar(lower) and is_scalar(upper): 5040 lower, upper = min(lower, upper), max(lower, upper) 5041 5042 # fast-path for scalars 5043 1 2 2.0 0.0 if ((lower is None or (is_scalar(lower) and is_number(lower))) and 5044 1 32 32.0 0.2 (upper is None or (is_scalar(upper) and is_number(upper)))): 5045 1 14092 14092.0 97.8 return self._clip_with_scalar(lower, upper, inplace=inplace) 5046 5047 result = self 5048 if lower is not None: 5049 result = result.clip_lower(lower, axis, inplace=inplace) 5050 if upper is not None: 5051 if inplace: 5052 result = self 5053 result = result.clip_upper(upper, axis, inplace=inplace) 5054 5055 return result Total time: 0.00575753 s File: pandas\core\generic.py Function: _clip_with_scalar at line 4920 Line # Hits Time Per Hit % Time Line Contents ============================================================== 4920 def _clip_with_scalar(self, lower, upper, inplace=False): 4921 1 2 2.0 0.0 if ((lower is not None and np.any(isna(lower))) or 4922 1 28 28.0 0.2 (upper is not None and np.any(isna(upper)))): 4923 raise ValueError("Cannot use an NA value as a clip threshold") 4924 4925 1 120 120.0 0.9 result = self.values 4926 1 3525 3525.0 25.1 mask = isna(result) 4927 4928 1 86 86.0 0.6 with np.errstate(all='ignore'): 4929 1 2 2.0 0.0 if upper is not None: 4930 1 9314 9314.0 66.4 result = np.where(result >= upper, upper, result) 4931 1 61 61.0 0.4 if lower is not None: 4932 result = np.where(result <= lower, lower, result) 4933 1 283 283.0 2.0 if np.any(mask): 4934 result[mask] = np.nan 4935 4936 1 78 78.0 0.6 axes_dict = self._construct_axes_dict() 4937 1 532 532.0 3.8 result = self._constructor(result, **axes_dict).__finalize__(self) 4938 4939 1 2 2.0 0.0 if inplace: 4940 self._update_inplace(result) 4941 else: 4942 1 1 1.0 0.0 return result

Il existe encore plusieurs appels de fonction, par exemple isna et np.where, Qui prennent beaucoup de temps, mais dans l'ensemble, cela est au moins comparable au temps np.ndarray.clip (Qui est en le régime où la différence de temps est ~ 3 sur mon ordinateur).

Les plats à emporter devraient probablement être:

De nombreuses fonctions NumPy délèguent simplement à une méthode de l'objet transmis, il peut donc y avoir d'énormes différences lorsque vous passez dans différents objets.
Le profilage, en particulier le profilage de ligne, peut être un excellent outil pour trouver les endroits d'où vient la différence de performance.
Assurez-vous toujours de tester des objets de tailles différentes dans de tels cas. Vous pourriez comparer des facteurs constants qui n'ont probablement pas d'importance, sauf si vous traitez beaucoup de petits tableaux.

Versions utilisées:

Python 3.6.3 64-bit on Windows 10 Numpy 1.13.3 Pandas 0.21.1

obgnaw · Answer

Il suffit de lire le code source, c'est clair.

def clip(a, a_min, a_max, out=None): """a : array_like Array containing elements to clip.""" return _wrapfunc(a, 'clip', a_min, a_max, out=out) def _wrapfunc(obj, method, *args, **kwds): try: return getattr(obj, method)(*args, **kwds) #This situation has occurred in the case of # a downstream library like 'pandas'. except (AttributeError, TypeError): return _wrapit(obj, method, *args, **kwds) def _wrapit(obj, method, *args, **kwds): try: wrap = obj.__array_wrap__ except AttributeError: wrap = None result = getattr(asarray(obj), method)(*args, **kwds) if wrap: if not isinstance(result, mu.ndarray): result = asarray(result) result = wrap(result) return result

rectifier:

après pandas v0.13.0_ahl1, pandas a sa propre implémentation de clip.

Simon Bowly · Answer

Il y a deux parties à la différence de performances à prendre en compte ici:

Surcharge Python dans chaque bibliothèque (pandas étant très utile)
Différence dans la mise en œuvre de l'algorithme numérique (pd.clip appelle en fait np.where)

L'exécuter sur un très petit tableau devrait démontrer la différence dans Python surcharge. Pour numpy, c'est naturellement très petit, cependant pandas fait beaucoup de vérification ( valeurs nulles, traitement des arguments plus flexible, etc.) avant de passer au calcul des nombres. J'ai essayé de montrer une ventilation approximative des étapes par lesquelles les deux codes passent avant d'atteindre le socle du code C.

data = pd.Series(np.random.random(100))

Lors de l'utilisation de np.clip sur un ndarray, l'overhead est simplement la fonction wrapper numpy appelant la méthode de l'objet:

>>> %timeit np.clip(data.values, 0.2, 0.8) # numpy wrapper, calls .clip() on the ndarray >>> %timeit data.values.clip(0.2, 0.8) # C function call 2.22 µs ± 125 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each) 1.32 µs ± 20.4 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

Pandas passe plus de temps à rechercher les cas Edge avant de passer à l'algorithme:

>>> %timeit np.clip(data, a_min=0.2, a_max=0.8) # numpy wrapper, calls .clip() on the Series >>> %timeit data.clip(lower=0.2, upper=0.8) # pandas API method >>> %timeit data._clip_with_scalar(0.2, 0.8) # lowest level python function 102 µs ± 1.54 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each) 90.4 µs ± 1.01 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each) 73.7 µs ± 805 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)

Par rapport au temps global, la surcharge des deux bibliothèques avant de frapper le code C est assez importante. Pour numpy, l'instruction d'encapsulage unique prend autant de temps à exécuter que le traitement numérique. Pandas a ~ 30x plus de surcharge uniquement dans les deux premières couches d'appels de fonction.

Pour isoler ce qui se passe au niveau de l'algorithme, nous devons vérifier cela sur un tableau plus grand et comparer les mêmes fonctions:

>>> data = pd.Series(np.random.random(1000000)) >>> %timeit np.clip(data.values, 0.2, 0.8) >>> %timeit data.values.clip(0.2, 0.8) 2.85 ms ± 37.3 µs per loop (mean ± std. dev. of 7 runs, 100 loops each) 2.85 ms ± 15.9 µs per loop (mean ± std. dev. of 7 runs, 100 loops each) >>> %timeit np.clip(data, a_min=0.2, a_max=0.8) >>> %timeit data.clip(lower=0.2, upper=0.8) >>> %timeit data._clip_with_scalar(0.2, 0.8) 12.3 ms ± 135 µs per loop (mean ± std. dev. of 7 runs, 100 loops each) 12.3 ms ± 115 µs per loop (mean ± std. dev. of 7 runs, 100 loops each) 12.2 ms ± 76.5 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

La surcharge python dans les deux cas est désormais négligeable; le temps pour les fonctions d'encapsulation et la vérification des arguments est petit par rapport au temps de calcul sur 1 million de valeurs. Cependant, il y a une différence de vitesse de 3 à 4 fois qui peut être attribué à l'implémentation numérique. En étudiant un peu le code source, nous voyons que l'implémentation de pandas de clip utilise en fait np.where, ne pas np.clip:

def clip_where(data, lower, upper): ''' Actual implementation in pd.Series._clip_with_scalar (minus NaN handling). ''' result = data.values result = np.where(result >= upper, upper, result) result = np.where(result <= lower, lower, result) return pd.Series(result) def clip_clip(data, lower, upper): ''' What would happen if we used ndarray.clip instead. ''' return pd.Series(data.values.clip(lower, upper))

L'effort supplémentaire requis pour vérifier séparément chaque condition booléenne avant d'effectuer un remplacement conditionnel semble expliquer la différence de vitesse. La spécification de upper et lower entraînerait 4 passages dans le tableau numpy (deux vérifications d'inégalité et deux appels à np.where). L'analyse comparative de ces deux fonctions montre que le rapport de vitesse 3-4x:

>>> %timeit clip_clip(data, lower=0.2, upper=0.8) >>> %timeit clip_where(data, lower=0.2, upper=0.8) 11.1 ms ± 101 µs per loop (mean ± std. dev. of 7 runs, 100 loops each) 2.97 ms ± 76.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

Je ne sais pas pourquoi les développeurs pandas ont opté pour cette implémentation. np.clip peut être une fonction API plus récente qui nécessitait auparavant une solution de contournement. Il y a aussi un peu plus que je ne suis allé ici, car pandas vérifie les différents cas avant d'exécuter l'algorithme final, et ce n'est qu'une des implémentations qui peuvent être appelées.

Bharath M · Answer

La raison pour laquelle les performances diffèrent est que numpy a d'abord tendance à rechercher pandas implémentation de la fonction en utilisant getattr que de faire la même chose dans les fonctions numpy intégrées lorsqu'un a pandas est passé.

Ce n'est pas le numpy sur l'objet pandas qui est lent, c'est la version pandas.

Quand tu fais

np.clip(pd.Series([1,2,3,4,5]),a_min=None,amax=1)

_wrapfunc Est appelé:

# Code from source def _wrapfunc(obj, method, *args, **kwds): try: return getattr(obj, method)(*args, **kwds)

En raison de la méthode getattr de _wrapfunc:

getattr(pd.Series([1,2,3,4,5]),'clip')(None, 1) # Equivalent to `pd.Series([1,2,3,4,5]).clip(lower=None,upper=1)` # 0 1 # 1 1 # 2 1 # 3 1 # 4 1 # dtype: int64

Si vous passez par l'implémentation pandas il y a beaucoup de travail de pré-vérification qui est fait. C'est la raison pour laquelle les fonctions qui ont l'implémentation pandas effectuées via numpy a une telle différence de vitesse.

Non seulement le clip, des fonctions comme cumsum, cumprod, reshape, searchsorted, transpose et bien d'autres utilisations pandas version d'eux que numpy lorsque vous leur passez un objet pandas.

Il peut sembler que numpy fait le travail sur ces objets mais sous le capot, c'est la fonction pandas.