Quel est l'équivalent python de R's NA?

Question

Pour être plus précis: R a NaN, NA, NULL, Inf et -Inf. NA est généralement utilisé lorsqu'il manque des données. Quel est l'équivalent de python?

Comment les bibliothèques telles que numpy et pandas gèrent-elles les valeurs manquantes?

Comment scikit-learn gère-t-il les valeurs manquantes?

Est-ce différent pour python 2.7 et python 3?

Andreas Mueller · Accepted Answer

Scikit-learn ne gère pas actuellement les valeurs manquantes. Pour la plupart des algorithmes d'apprentissage automatique, il n'est pas clair comment gérer les valeurs manquantes, et nous comptons donc sur l'utilisateur pour les gérer avant de les donner à l'algorithme. Numpy n'a pas de valeur "manquante". Pandas utilise NaN, mais à l'intérieur d'algorithmes numériques qui peuvent prêter à confusion. Il est possible d'utiliser des tableaux masqués, mais nous ne le faisons pas encore dans scikit-learn (pour l'instant).

N1B4 · Answer

nan dans numpy est bien géré avec de nombreuses fonctions:

>>> import numpy as np >>> a = [1, np.nan, 2, 3] >>> np.nanmean(a) 2.0 >>> np.nansum(a) 6.0 >>> np.isnan(a) array([False, True, False, False], dtype=bool)

JAB · Answer

pour pandas jetez un œil à ceci.

http://pandas.pydata.org/pandas-docs/dev/missing_data.html

pandas utilise NaN. Vous pouvez tester les valeurs nulles à l'aide de isnull() ou not null(), les supprimer d'un bloc de données à l'aide de dropna() etc. L'équivalent pour les objets datetime est NaT