Quel est l'équivalent python de R's NA?
Pour être plus précis: R a NaN, NA, NULL, Inf et -Inf. NA est généralement utilisé lorsqu'il manque des données. Quel est l'équivalent de python?
Comment les bibliothèques telles que numpy et pandas gèrent-elles les valeurs manquantes?
Comment scikit-learn gère-t-il les valeurs manquantes?
Est-ce différent pour python 2.7 et python 3?
Scikit-learn ne gère pas actuellement les valeurs manquantes. Pour la plupart des algorithmes d'apprentissage automatique, il n'est pas clair comment gérer les valeurs manquantes, et nous comptons donc sur l'utilisateur pour les gérer avant de les donner à l'algorithme. Numpy n'a pas de valeur "manquante". Pandas utilise NaN, mais à l'intérieur d'algorithmes numériques qui peuvent prêter à confusion. Il est possible d'utiliser des tableaux masqués, mais nous ne le faisons pas encore dans scikit-learn (pour l'instant).
nan
dans numpy est bien géré avec de nombreuses fonctions:
>>> import numpy as np
>>> a = [1, np.nan, 2, 3]
>>> np.nanmean(a)
2.0
>>> np.nansum(a)
6.0
>>> np.isnan(a)
array([False, True, False, False], dtype=bool)
pour pandas
jetez un œil à ceci.
http://pandas.pydata.org/pandas-docs/dev/missing_data.html
pandas utilise NaN
. Vous pouvez tester les valeurs nulles à l'aide de isnull()
ou not null()
, les supprimer d'un bloc de données à l'aide de dropna()
etc. L'équivalent pour les objets datetime
est NaT