numpy array: remplace les valeurs nan par la moyenne des colonnes

Question

J'ai un tableau numpy rempli principalement de nombres réels, mais il contient également quelques valeurs nan.

Comment puis-je remplacer les nans par des moyennes de colonnes où elles se trouvent?

Daniel · Accepted Answer

Aucune boucle requise:

print(a) [[ 0.93230948 nan 0.47773439 0.76998063] [ 0.94460779 0.87882456 0.79615838 0.56282885] [ 0.94272934 0.48615268 0.06196785 nan] [ 0.64940216 0.74414127 nan nan]] #Obtain mean of columns as you need, nanmean is just convenient. col_mean = np.nanmean(a, axis=0) print(col_mean) [ 0.86726219 0.7030395 0.44528687 0.66640474] #Find indicies that you need to replace inds = np.where(np.isnan(a)) #Place column means in the indices. Align the arrays using take a[inds] = np.take(col_mean, inds[1]) print(a) [[ 0.93230948 0.7030395 0.47773439 0.76998063] [ 0.94460779 0.87882456 0.79615838 0.56282885] [ 0.94272934 0.48615268 0.06196785 0.66640474] [ 0.64940216 0.74414127 0.44528687 0.66640474]]

Praveen · Answer

Utilisation de tableaux masqués

La méthode standard pour utiliser numpy uniquement consiste à utiliser le module tableau masqué .

Scipy est un paquet assez lourd qui repose sur des bibliothèques externes, il est donc intéressant d’avoir une méthode numpy seulement. Ceci emprunte à la réponse de @ DonaldHobson.

Edit: _ np.nanmean est maintenant une fonction numpy. Cependant, il ne gère pas les colonnes 100% nano ...

Supposons que vous ayez un tableau a:

>>> a array([[ 0., nan, 10., nan], [ 1., 6., nan, nan], [ 2., 7., 12., nan], [ 3., 8., nan, nan], [ nan, 9., 14., nan]]) >>> import numpy.ma as ma >>> np.where(np.isnan(a), ma.array(a, mask=np.isnan(a)).mean(axis=0), a) array([[ 0. , 7.5, 10. , 0. ], [ 1. , 6. , 12. , 0. ], [ 2. , 7. , 12. , 0. ], [ 3. , 8. , 12. , 0. ], [ 1.5, 9. , 14. , 0. ]])

Notez que la moyenne du tableau masqué ne doit pas nécessairement avoir la même forme que a, car nous tirons parti de l'implicite radiodiffusion sur les lignes.

Notez également comment la colonne 100% nanométrique est bien gérée. La moyenne est égale à zéro puisque vous prenez la moyenne d'éléments nuls. La méthode utilisant nanmean ne gère pas les colonnes toutes nan:

>>> col_mean = np.nanmean(a, axis=0) /home/praveen/.virtualenvs/numpy3-mkl/lib/python3.4/site-packages/numpy/lib/nanfunctions.py:675: RuntimeWarning: Mean of empty slice warnings.warn("Mean of empty slice", RuntimeWarning) >>> inds = np.where(np.isnan(a)) >>> a[inds] = np.take(col_mean, inds[1]) >>> a array([[ 0. , 7.5, 10. , nan], [ 1. , 6. , 12. , nan], [ 2. , 7. , 12. , nan], [ 3. , 8. , 12. , nan], [ 1.5, 9. , 14. , nan]])

Explication

La conversion de a en un tableau masqué vous donne

>>> ma.array(a, mask=np.isnan(a)) masked_array(data = [[0.0 -- 10.0 --] [1.0 6.0 -- --] [2.0 7.0 12.0 --] [3.0 8.0 -- --] [-- 9.0 14.0 --]], mask = [[False True False True] [False False True True] [False False False True] [False False True True] [ True False False True]], fill_value = 1e+20)

Et prendre la moyenne sur les colonnes vous donne la réponse correcte, en normalisant uniquement les valeurs non masquées:

>>> ma.array(a, mask=np.isnan(a)).mean(axis=0) masked_array(data = [1.5 7.5 12.0 --], mask = [False False False True], fill_value = 1e+20)

De plus, notez comment le masque gère bien la colonne qui est all-nan!

Enfin, np.where fait le travail de remplacement.

Moyenne par rangée

Remplacer les valeurs nan par une moyenne en ligne plutôt qu'en colonne nécessite un changement minime pour que la diffusion prenne effet:

>>> a array([[ 0., 1., 2., 3., nan], [ nan, 6., 7., 8., 9.], [ 10., nan, 12., nan, 14.], [ nan, nan, nan, nan, nan]]) >>> np.where(np.isnan(a), ma.array(a, mask=np.isnan(a)).mean(axis=1), a) ValueError: operands could not be broadcast together with shapes (4,5) (4,) (4,5) >>> np.where(np.isnan(a), ma.array(a, mask=np.isnan(a)).mean(axis=1)[:, np.newaxis], a) array([[ 0. , 1. , 2. , 3. , 1.5], [ 7.5, 6. , 7. , 8. , 9. ], [ 10. , 12. , 12. , 12. , 14. ], [ 0. , 0. , 0. , 0. , 0. ]])

Donald Hobson · Answer

Si partial est votre donnée d'origine et replace est un tableau de même forme contenant des valeurs moyennées, alors ce code utilisera la valeur de partial, s'il en existe une.

Complete= np.where(np.isnan(partial),replace,partial)

Ulf Aslak · Answer

Alternative : Remplacement des NaN par une interpolation des colonnes.

def interpolate_nans(X): """Overwrite NaNs with column value interpolations.""" for j in range(X.shape[1]): mask_j = np.isnan(X[:,j]) X[mask_j,j] = np.interp(np.flatnonzero(mask_j), np.flatnonzero(~mask_j), X[~mask_j,j]) return X

Exemple d'utilisation:

X_incomplete = np.array([[10, 20, 30 ], [np.nan, 30, np.nan], [np.nan, np.nan, 50 ], [40, 50, np.nan ]]) X_complete = interpolate_nans(X_incomplete) print X_complete [[10, 20, 30 ], [20, 30, 40 ], [30, 40, 50 ], [40, 50, 50 ]]

J'utilise ce bit de code pour les données de séries temporelles en particulier, où les colonnes sont des attributs et les lignes sont des exemples ordonnés dans le temps.

Hammer · Answer

Ce n'est pas très propre, mais je ne peux pas penser à un moyen de le faire autre que itérer

#example a = np.arange(16, dtype = float).reshape(4,4) a[2,2] = np.nan a[3,3] = np.nan indices = np.where(np.isnan(a)) #returns an array of rows and column indices for row, col in Zip(*indices): a[row,col] = np.mean(a[~np.isnan(a[:,col]), col])

LetsPlayYahtzee · Answer

Pour prolonger la réponse de Donald, je fournis un exemple minimal. Disons que a est un ndarray et nous voulons remplacer ses valeurs nulles par la moyenne de la colonne.

In [231]: a Out[231]: array([[0, 3, 6], [2, 0, 0]]) In [232]: col_mean = np.nanmean(a, axis=0) Out[232]: array([ 1. , 1.5, 3. ]) In [228]: np.where(np.equal(a, 0), col_mean, a) Out[228]: array([[ 1. , 3. , 6. ], [ 2. , 1.5, 3. ]])

rnso · Answer

Utiliser des fonctions simples avec des boucles:

a=[[0.93230948, np.nan, 0.47773439, 0.76998063], [0.94460779, 0.87882456, 0.79615838, 0.56282885], [0.94272934, 0.48615268, 0.06196785, np.nan], [0.64940216, 0.74414127, np.nan, np.nan], [0.64940216, 0.74414127, np.nan, np.nan]] print("------- original array -----") for aa in a: print(aa) # GET COLUMN MEANS: ta = np.array(a).T.tolist() # transpose the array; col_means = list(map(lambda x: np.nanmean(x), ta)) # get means; print("column means:", col_means) # REPLACE NAN ENTRIES WITH COLUMN MEANS: nrows = len(a); ncols = len(a[0]) # get number of rows & columns; for r in range(nrows): for c in range(ncols): if np.isnan(a[r][c]): a[r][c] = col_means[c] print("------- means added -----") for aa in a: print(aa)

Sortie:

------- original array ----- [0.93230948, nan, 0.47773439, 0.76998063] [0.94460779, 0.87882456, 0.79615838, 0.56282885] [0.94272934, 0.48615268, 0.06196785, nan] [0.64940216, 0.74414127, nan, nan] [0.64940216, 0.74414127, nan, nan] column means: [0.82369018599999999, 0.71331494500000003, 0.44528687333333333, 0.66640474000000005] ------- means added ----- [0.93230948, 0.71331494500000003, 0.47773439, 0.76998063] [0.94460779, 0.87882456, 0.79615838, 0.56282885] [0.94272934, 0.48615268, 0.06196785, 0.66640474000000005] [0.64940216, 0.74414127, 0.44528687333333333, 0.66640474000000005] [0.64940216, 0.74414127, 0.44528687333333333, 0.66640474000000005]

Les boucles for peuvent également être écrites avec une compréhension de liste:

new_a = [[col_means[c] if np.isnan(a[r][c]) else a[r][c] for c in range(ncols) ] for r in range(nrows) ]