web-dev-qa-db-fra.com

Python: Suppression de lignes sur la condition de comptage

J'ai un problème de filtrage d'une trame de données pandas.

city 
NYC 
NYC 
NYC 
NYC 
SYD 
SYD 
SEL 
SEL
...

df.city.value_counts()

Je voudrais supprimer les lignes de villes dont la fréquence de comptage est inférieure à 4, ce qui serait SYD et SEL par exemple.

Quelle serait la façon de le faire sans les déposer manuellement ville par ville?

16
Devin Lee

C'est parti avec le filtre

df.groupby('city').filter(lambda x : len(x)>3)
Out[1743]: 
  city
0  NYC
1  NYC
2  NYC
3  NYC

Solution deux transform

sub_df = df[df.groupby('city').city.transform('count')>3].copy() 
# add copy for future warning when you need to modify the sub df
18
YOBEN_S

C'est une façon d'utiliser pd.Series.value_counts.

counts = df['city'].value_counts()

res = df[~df['city'].isin(counts[counts < 5].index)]
8
jpp

Je pense que vous recherchez value_counts()

# Import the great and powerful pandas
import pandas as pd

# Create some example data
df = pd.DataFrame({
    'city': ['NYC', 'NYC', 'SYD', 'NYC', 'SEL', 'NYC', 'NYC']
})

# Get the count of each value
value_counts = df['city'].value_counts()

# Select the values where the count is less than 3 (or 5 if you like)
to_remove = value_counts[value_counts <= 3].index

# Keep rows where the city column is not in to_remove
df = df[~df.city.isin(to_remove)]
4
Aaron N. Brock

Une autre solution :

threshold=3
df['Count'] = df.groupby('City')['City'].transform(pd.Series.value_counts)
df=df[df['Count']>=threshold]
df.drop(['Count'], axis = 1, inplace = True)
print(df)

  City
0  NYC
1  NYC
2  NYC
3  NYC
2
Sruthi V