web-dev-qa-db-fra.com

Quel est l'équivalent python de R's NA?

Quel est l'équivalent python de R's NA?

Pour être plus précis: R a NaN, NA, NULL, Inf et -Inf. NA est généralement utilisé lorsqu'il manque des données. Quel est l'équivalent de python?

Comment les bibliothèques telles que numpy et pandas gèrent-elles les valeurs manquantes?

Comment scikit-learn gère-t-il les valeurs manquantes?

Est-ce différent pour python 2.7 et python 3?

18
power

Scikit-learn ne gère pas actuellement les valeurs manquantes. Pour la plupart des algorithmes d'apprentissage automatique, il n'est pas clair comment gérer les valeurs manquantes, et nous comptons donc sur l'utilisateur pour les gérer avant de les donner à l'algorithme. Numpy n'a pas de valeur "manquante". Pandas utilise NaN, mais à l'intérieur d'algorithmes numériques qui peuvent prêter à confusion. Il est possible d'utiliser des tableaux masqués, mais nous ne le faisons pas encore dans scikit-learn (pour l'instant).

6
Andreas Mueller

nan dans numpy est bien géré avec de nombreuses fonctions:

>>> import numpy as np
>>> a = [1, np.nan, 2, 3]
>>> np.nanmean(a)
2.0
>>> np.nansum(a)
6.0
>>> np.isnan(a)
array([False,  True, False, False], dtype=bool)
13
N1B4

pour pandas jetez un œil à ceci.

http://pandas.pydata.org/pandas-docs/dev/missing_data.html

pandas utilise NaN. Vous pouvez tester les valeurs nulles à l'aide de isnull() ou not null(), les supprimer d'un bloc de données à l'aide de dropna() etc. L'équivalent pour les objets datetime est NaT

5
JAB