J'ai utilisé plusieurs méthodes pour scinder et séparer les chaînes dans mon cadre de données de pandas afin de supprimer tous les caractères\\ n, mais pour une raison quelconque, il ne souhaite tout simplement pas supprimer les caractères associés à d'autres mots, même si diviser les. J'ai un cadre de données de pandas avec une colonne qui capture le texte de pages Web à l'aide de Beautifulsoup. Le texte a déjà été un peu nettoyé par beautifulsoup, mais il n'a pas réussi à supprimer les nouvelles lignes attachées à d'autres caractères. Mes cordes ressemblent un peu à ça:
"Développement pratique de jeux. Nous étudierons diverses technologies logicielles\non pertinentes pour les jeux, notamment les langages de programmation, les langages de script, les systèmes d’exploitation, les systèmes de fichiers, les réseaux, les systèmes de simulation et les systèmes de conception multimédia. étudiez également certains des concepts scientifiques sous-jacents de la science informatique et des\n domaines connexes, y compris "
Existe-t-il un moyen facile pour python de supprimer ces caractères "\ n"?
Merci d'avance!
EDIT: la bonne réponse à cela était:
df = df.replace(r'\\n',' ', regex=True)
Je pense que vous avez besoin de replace
:
df = df.replace('\n','', regex=True)
Ou:
df = df.replace('\n',' ', regex=True)
Ou:
df = df.replace(r'\\n',' ', regex=True)
Échantillon:
text = '''hands-on\ndev nologies\nrelevant scripting\nlang
'''
df = pd.DataFrame({'A':[text]})
print (df)
A
0 hands-on\ndev nologies\nrelevant scripting\nla...
df = df.replace('\n',' ', regex=True)
print (df)
A
0 hands-on dev nologies relevant scripting lang
dans les données en désordre, il peut être judicieux de supprimer tous les espaces blancs df.replace(r'\s', '', regex = True, inplace = True)
.