web-dev-qa-db-fra.com

Comment vérifier si la colonne float pandas contient uniquement des nombres entiers?

J'ai un dataframe

df = pd.DataFrame(data=np.arange(10),columns=['v']).astype(float)

Comment être sûr que les nombres dans v sont des nombres entiers? Je suis très préoccupé par les erreurs d'arrondi/troncation/représentation en virgule flottante

5
00__00__00

Comparaison avec astype(int)

Convertissez provisoirement votre colonne en int et testez-la avec np.array_equal:

np.array_equal(df.v, df.v.astype(int))
True

float.is_integer

Vous pouvez utiliser cette fonction python en conjonction avec une apply:

df.v.apply(float.is_integer).all()
True

Ou, en utilisant la variable all de python dans une compréhension de générateur, pour gagner de l'espace:

all(x.is_integer() for x in df.v)
True
8
coldspeed

Si vous souhaitez vérifier plusieurs colonnes de type float dans votre dataframe, vous pouvez procéder comme suit:

col_should_be_int = df.select_dtypes(include=['float']).applymap(float.is_integer).all()
float_to_int_cols = col_should_be_int[col_should_be_int].index
df.loc[:, float_to_int_cols] = df.loc[:, float_to_int_cols].astype(int)

Gardez à l'esprit qu'une colonne float contenant tous les entiers ne sera pas sélectionnée si elle a des valeurs np.NaN. Pour convertir des colonnes flottantes avec des valeurs manquantes en nombres entiers, vous devez remplir/supprimer les valeurs manquantes, par exemple, avec l'imputation médiane:

float_cols = df.select_dtypes(include=['float'])
float_cols = float_cols.fillna(float_cols.median().round()) # median imputation
col_should_be_int = float_cols.applymap(float.is_integer).all()
float_to_int_cols = col_should_be_int[col_should_be_int].index
df.loc[:, float_to_int_cols] = float_cols[float_to_int_cols].astype(int)
1
mgoldwasser