Considérez le pandas dataframe suivant:
In [114]:
df['movie_title'].head()
Out[114]:
0 Toy Story (1995)
1 GoldenEye (1995)
2 Four Rooms (1995)
3 Get Shorty (1995)
4 Copycat (1995)
...
Name: movie_title, dtype: object
pdate: Je voudrais extraire avec une expression régulière uniquement les titres des films. Donc, utilisons le regex suivant: \b([^\d\W]+)\b
. J'ai donc essayé ce qui suit:
df_3['movie_title'] = df_3['movie_title'].str.extract('\b([^\d\W]+)\b')
df_3['movie_title']
Cependant, j'obtiens ce qui suit:
0 NaN
1 NaN
2 NaN
3 NaN
4 NaN
5 NaN
6 NaN
7 NaN
8 NaN
Toute idée de la façon d'extraire des fonctionnalités spécifiques du texte dans un pandas dataframe?. Plus précisément, comment puis-je extraire uniquement les titres des films dans un tout nouveau dataframe ?. Par exemple, le la sortie doit être:
Out[114]:
0 Toy Story
1 GoldenEye
2 Four Rooms
3 Get Shorty
4 Copycat
...
Name: movie_title, dtype: object
Tu peux essayer str.extract
et strip
, mais il vaut mieux utiliser str.split
, car dans les noms de films, il peut aussi y avoir des nombres. La solution suivante est replace
contenu des parenthèses par regex
et strip
espaces blancs avant et arrière:
#convert column to string
df['movie_title'] = df['movie_title'].astype(str)
#but it remove numbers in names of movies too
df['titles'] = df['movie_title'].str.extract('([a-zA-Z ]+)', expand=False).str.strip()
df['titles1'] = df['movie_title'].str.split('(', 1).str[0].str.strip()
df['titles2'] = df['movie_title'].str.replace(r'\([^)]*\)', '').str.strip()
print df
movie_title titles titles1 titles2
0 Toy Story 2 (1995) Toy Story Toy Story 2 Toy Story 2
1 GoldenEye (1995) GoldenEye GoldenEye GoldenEye
2 Four Rooms (1995) Four Rooms Four Rooms Four Rooms
3 Get Shorty (1995) Get Shorty Get Shorty Get Shorty
4 Copycat (1995) Copycat Copycat Copycat
Vous devez affecter des groupes de texte avec ()
comme ci-dessous pour en capturer une partie spécifique.
new_df['just_movie_titles'] = df['movie_title'].str.extract('(.+?) \(')
new_df['just_movie_titles']
pandas.core.strings.StringMethods.extract
StringMethods.extract (pat, flags = 0, ** kwargs)
Rechercher des groupes dans chaque chaîne à l'aide d'une expression régulière passée